效率提升9倍！英偉達新模型Nemotron 3 Nano Omni瞄準智能體落地，整合語音、視覺與推理能力

華爾街見聞 · 04/29 02:57

儘管能力擴展至多模態與智能體場景，新模型仍延續Nano定位，即強調高性價比與推理效率，參數300億、激活30億，支持超長上下文，最高達百萬token。Palantir等AI與軟件領域的公司目前已採用新模型，戴爾、甲骨文等公司正在對其進行評估。

在人工智能智能體（AI Agent）競賽持續升溫之際，$英偉達 (NVDA.US)$正加速從「算力霸主」向「模型平台商」延伸。

美東時間28日週二，英偉達在公司博客宣佈，推出名爲Nemotron 3 Nano Omni的全新開源模型，主打「原生全模態理解+高效推理」，試圖爲企業級AI Agent提供一體化基礎模型底座。英偉達介紹，這款業內領先的開源全模態推理模型融合了視覺、音頻與語言能力，將幫助AI智能體實現高達9倍的效率提升。

英偉達介紹，已有一批AI與軟件領域的公司率先採用了Nemotron 3 Nano Omni，包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、 $Palantir (PLTR.US)$ 和 Pyler。此外， $戴爾科技 (DELL.US)$ 、$DocuSign (DOCU.US)$、$印孚瑟斯 (INFY.US)$、K-Dense、Lila、 $甲骨文 (ORCL.US)$ 和 Zefr 正在對該模型進行評估。

主打Omni：一個模型打通語音、視覺與語言

不同於傳統多模態模型通常通過拼接多個子模型實現能力融合，Nemotron 3 Nano Omni強調「原生全模態（omni-understanding）」。其可同時處理文本、圖像、音頻甚至視頻輸入，並在統一架構內完成理解與推理任務。

英偉達在技術博客中指出，該模型具備從視頻和文檔中提取信息的能力，支持複雜場景下的跨模態推理，例如通過語音轉錄增強視頻理解，或結合OCR解析視覺文本內容。

從架構上看，Nemotron 3 Nano Omni延續了Nemotron 3系列的混合架構路線：融合Transformer與Mamba機制，並引入混合專家（MoE）以在保持性能的同時大幅降低推理成本。

瞄準AI智能體從理解走向執行

此次發佈的核心關鍵詞並非多模態，而是智能體。英偉達明確將Nemotron 3系列定位爲代理式（agentic）AI的基礎模型，即不僅用於生成內容，更用於驅動具備決策與執行能力的智能體系統。

官方資料顯示，Nano Omni是首個「生產級開放模型」，專爲構建可擴展AI Agent設計，支持長上下文、多步驟推理以及工具調用等能力。

同時，該模型還引入GUI訓練數據，使AI可以理解和操作界面元素，進一步貼近真實應用場景，例如自動化辦公流程、軟件操作甚至複雜工作流執行。

媒體解讀認爲，這種「全模態+Agent」組合意味着AI系統可以直接處理現實世界中的非結構化數據（視頻、語音、文檔），並據此做出決策，從而拓展AI在企業中的落地邊界。

效率仍是核心賣點：小模型撬動大能力

儘管能力擴展至多模態與智能體場景，Nemotron 3 Nano Omni仍延續「Nano」定位，即強調高性價比與推理效率。

Nemotron 3 Nano基礎模型採用約300億參數規模，但通過MoE機制每次僅激活參數30億，在性能與成本之間取得平衡。同時，該系列模型支持超長上下文（最高達百萬token級別），適合處理複雜文檔與長流程任務。

在英偉達整體產品體系中，Nano、Super與Ultra形成梯度：Nano強調效率，Super面向高吞吐企業場景，Ultra則瞄準前沿推理能力。

開源生態對抗閉源陣營

值得注意的是，英偉達再次強調「開放」。Nemotron 3 Nano Omni不僅開放模型權重，還配套提供訓練數據、工具鏈（如NeMo）以及優化方案，試圖打造完整開發生態。

這一策略正值AI行業分化加劇之際：一方面，部分頭部廠商逐步轉向閉源；另一方面，中國及開源社區持續推進開放模型。英偉達試圖以「開放+高性能」切入中間地帶，吸引開發者與企業客戶。

從更宏觀角度看，隨着AI應用從「聊天機器人」邁向「智能代理」，模型能力的競爭也從單一語言理解升級爲多模態融合+任務執行能力的系統競爭。

Nemotron 3 Nano Omni的推出，標誌着英偉達不僅要賣「鏟子」（GPU），也要提供「施工方案」（模型與工具鏈），進一步加深其在AI產業鏈中的縱深佈局。

編輯/Rocky

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與象象銀行相關的任何投資建議。象象銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。

效率提升9倍！英偉達新模型Nemotron 3 Nano Omni瞄準智能體落地，整合語音、視覺與推理能力

主打Omni：一個模型打通語音、視覺與語言

瞄準AI智能體 從理解走向執行

效率仍是核心賣點：小模型撬動大能力

開源生態對抗閉源陣營

瞄準AI智能體從理解走向執行