NVIDIA: Llama 3.3 Nemotron Super 49B V1.5
nvidia/llama-3.3-nemotron-super-49b-v1.5描述
Llama-3.3-Nemotron-Super-49B-v1.5 是一款参数量 49B、以英语为主的推理/对话模型,基于 Meta 的 Llama-3.3-70B-Instruct 衍生,context 长度 128K。通过 SFT(覆盖数学、代码、科学、多轮对话)加多阶段 RL 进行后训练,面向 agentic 工作流(RAG、tool calling)优化;其中 Reward-aware Preference Optimization (RPO) 用于对齐、RL with Verifiable Rewards (RLVR) 用于分步推理、iterative DPO 用于优化 tool use 行为。由蒸馏驱动的 Neural Architecture Search("Puzzle")替换了部分 attention 模块并调整了 FFN 宽度,降低了显存占用并提升了吞吐,使模型可在单 GPU(H100/H200)上部署,同时保留指令遵循和 CoT 质量。
在内部评测(NeMo-Skills,最多 16 次运行,temp = 0.6,top_p = 0.95)中,模型展示了稳定的推理/编码结果,如 MATH500 pass@1 = 97.4、AIME-2024 = 87.5、AIME-2025 = 82.71、GPQA = 71.97、LiveCodeBench (24.10–25.02) = 73.58、MMLU-Pro (CoT) = 79.53。模型以实用推理效率为目标(高 tokens/s、更低 VRAM),支持 Transformers/vLLM,并提供显式 "reasoning on/off" 模式(默认对话模式,关闭推理时推荐 greedy)。适用于构建 agent、助手和长 context 检索系统,在准确度、成本和可靠 tool use 之间取得平衡。
技术规格
定价
| 类型 | 价格 / 百万 Token |
|---|---|
| 输入 | $0.10 |
| 输出 | $0.40 |
快速开始
curl https://api.ominigate.ai/v1/chat/completions \
-H "Authorization: Bearer sk-omg-your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "nvidia/llama-3.3-nemotron-super-49b-v1.5",
"messages": [{"role": "user", "content": "Hello!"}]
}'