英伟达发布 5500 亿参数 Nemotron 3 Ultra 开源模型，较同级别前沿模型推理速度最高提升 5 倍

1 个月前

AI资讯

48 阅读

开源模型英伟达推理加速 Nemotron

5500亿参数巨无霸登场：Nemotron 3 Ultra重塑开源模型格局

英伟达正式推出Nemotron 3系列旗舰模型——Nemotron 3 Ultra，以约5500亿参数的庞大体量直接挑战业界开源模型的规模与性能上限。该模型主要面向最复杂的应用场景，提供顶级的推理能力，与面向高吞吐长上下文场景的Nemotron 3 Nano形成差异化布局。作为完全开源的模型，开发者可在工作站、数据中心或云端自由部署与定制，进一步加速代理式AI在企业中的落地。

混合MoE架构与5倍吞吐量飞跃：技术内核揭秘

Nemotron 3 Ultra采用了创新的混合MoE（混合专家）架构，将Mamba层与Transformer层巧妙融合。Mamba层带来4倍的显存与计算效率提升，而Transformer层则保障了高级推理能力。这一设计使模型在同等硬件下实现了高达5倍的推理吞吐量提升，同时准确率也提升了2倍。在NVIDIA Blackwell平台以NVFP4精度运行时，推理速度较前代Hopper平台使用FP8时最高提升4倍，且不损失任何精度。这些技术突破彻底解决了拖慢自主智能体工作流的长时推理和上下文“爆炸”的成本难题。

英伟达发布 5500 亿参数 Nemotron 3 Ultra 开源模型，较同级别前沿模型推理速度最高提升 5 倍

百万Token上下文窗口：让智能体不再“健忘”

Nemotron 3 Ultra拥有惊人的100万Token上下文窗口，意味着智能体能够在显存中完整保留整个工作流的状态历史，有效避免因长对话或复杂任务导致的目标偏离。无论是深度文献检索、多轮代码审查还是复杂的分子模拟，模型都能持续保持全局认知，大幅提升多智能体协作的连贯性与准确性。这一特性直接让Nemotron 3 Ultra在Artificial Analysis的效率与开放性排名中双双登顶，成为同规模模型中准确率领先的标杆。

开放生态与行业落地：从Perplexity到Dell AI Factory

随着Nemotron 3 Ultra发布，英伟达同步开放了完整的训练方法，包括超过10万亿Token的预训练与后训练数据集、15个强化学习训练环境及评估方案，并借助NeMo平台支持开发者微调或构建专属模型。目前，Perplexity已将该模型接入搜索与“Computer”平台，作为20个编排模型的组成部分；CodeRabbit、Factory等软件开发智能体公司将其集成以降低成本并提升准确性；Edison Scientific和Lila Sciences等生命科学机构则借助其进行深度文献与分子理解。此外，戴尔科技已将该模型引入Dell Enterprise Hub并针对Dell AI Factory本地部署优化，慧与（HPE）也将其纳入Agents Hub，共同推动企业级多智能体AI工作流规模化落地。

全模态扩展：Nemotron 3 Omni与VoiceChat同步开源

Nemotron 3系列不仅限于文本与推理。英伟达同期发布了Nemotron 3 Omni，精准整合了音、视、语多模态能力；Nemotron 3 VoiceChat则将语音识别、大模型与语音合成融为一体，支持实时对话。配套的安全模型进一步为系列模型提供防护。通过Hugging Face、OpenRouter等渠道，开发者可轻松获取全部模型权重与工具链，标志着英伟达在开源AI领域再次迈出关键一步。

英伟达发布 5500 亿参数 Nemotron 3 Ultra 开源模型，较同级别前沿模型推理速度最高提升 5 倍

5500亿参数巨无霸登场：Nemotron 3 Ultra重塑开源模型格局

混合MoE架构与5倍吞吐量飞跃：技术内核揭秘

百万Token上下文窗口：让智能体不再“健忘”

开放生态与行业落地：从Perplexity到Dell AI Factory

全模态扩展：Nemotron 3 Omni与VoiceChat同步开源

链接失效反馈