NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

Name: NVIDIA: Llama 3.3 Nemotron Super 49B V1.5
Brand: NVIDIA
Price: 0.1 USD
Availability: InStock

nvidia/llama-3.3-nemotron-super-49b-v1.5

Oct 10, 2025131.1K 上下文$0.10/M in · $0.40/M out推理

Llama-3.3-Nemotron-Super-49B-v1.5 是一款参数量 49B、以英语为主的推理/对话模型，基于 Meta 的 Llama-3.3-70B-Instruct 衍生，context 长度 128K。通过 SFT（覆盖数学、代码、科学、多轮对话）加多阶段 RL 进行后训练，面向 agentic 工作流（RAG、tool calling）优化；其中 Reward-aware Preference Optimization (RPO) 用于对齐、RL with Verifiable Rewards (RLVR) 用于分步推理、iterative DPO 用于优化 tool use 行为。由蒸馏驱动的 Neural Architecture Search（"Puzzle"）替换了部分 attention 模块并调整了 FFN 宽度，降低了显存占用并提升了吞吐，使模型可在单 GPU（H100/H200）上部署，同时保留指令遵循和 CoT 质量。

在内部评测（NeMo-Skills，最多 16 次运行，temp = 0.6，top_p = 0.95）中，模型展示了稳定的推理/编码结果，如 MATH500 pass@1 = 97.4、AIME-2024 = 87.5、AIME-2025 = 82.71、GPQA = 71.97、LiveCodeBench (24.10–25.02) = 73.58、MMLU-Pro (CoT) = 79.53。模型以实用推理效率为目标（高 tokens/s、更低 VRAM），支持 Transformers/vLLM，并提供显式 "reasoning on/off" 模式（默认对话模式，关闭推理时推荐 greedy）。适用于构建 agent、助手和长 context 检索系统，在准确度、成本和可靠 tool use 之间取得平衡。

供应商

nvidia

上下文长度

131.1K

最大输出

—

模态类型

输入text

输出text

定价

类型	价格 / 百万 Token
输入	$0.10
输出	$0.40

快速开始

curl https://api.ominigate.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-omg-your-api-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/llama-3.3-nemotron-super-49b-v1.5",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

描述

技术规格

定价

快速开始