share_log

效率提升9倍!英偉達新模型Nemotron 3 Nano Omni瞄準智能體落地,整合語音、視覺與推理能力

華爾街見聞 ·  04/29 02:57

儘管能力擴展至多模態與智能體場景,新模型仍延續Nano定位,即強調高性價比與推理效率,參數300億、激活30億,支持超長上下文,最高達百萬token。Palantir等AI與軟件領域的公司目前已採用新模型,戴爾、甲骨文等公司正在對其進行評估。

在人工智能智能體(AI Agent)競賽持續升溫之際,$英偉達 (NVDA.US)$正加速從「算力霸主」向「模型平台商」延伸。

美東時間28日週二,英偉達在公司博客宣佈,推出名爲Nemotron 3 Nano Omni的全新開源模型,主打「原生全模態理解+高效推理」,試圖爲企業級AI Agent提供一體化基礎模型底座。英偉達介紹,這款業內領先的開源全模態推理模型融合了視覺、音頻與語言能力,將幫助AI智能體實現高達9倍的效率提升。

英偉達介紹,已有一批AI與軟件領域的公司率先採用了Nemotron 3 Nano Omni,包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、 $Palantir (PLTR.US)$ 和 Pyler。此外, $戴爾科技 (DELL.US)$$DocuSign (DOCU.US)$$印孚瑟斯 (INFY.US)$、K-Dense、Lila、 $甲骨文 (ORCL.US)$ 和 Zefr 正在對該模型進行評估。

主打Omni:一個模型打通語音、視覺與語言

不同於傳統多模態模型通常通過拼接多個子模型實現能力融合,Nemotron 3 Nano Omni強調「原生全模態(omni-understanding)」。其可同時處理文本、圖像、音頻甚至視頻輸入,並在統一架構內完成理解與推理任務。

英偉達在技術博客中指出,該模型具備從視頻和文檔中提取信息的能力,支持複雜場景下的跨模態推理,例如通過語音轉錄增強視頻理解,或結合OCR解析視覺文本內容。

從架構上看,Nemotron 3 Nano Omni延續了Nemotron 3系列的混合架構路線:融合Transformer與Mamba機制,並引入混合專家(MoE)以在保持性能的同時大幅降低推理成本。

瞄準AI智能體 從理解走向執行

此次發佈的核心關鍵詞並非多模態,而是智能體。英偉達明確將Nemotron 3系列定位爲代理式(agentic)AI的基礎模型,即不僅用於生成內容,更用於驅動具備決策與執行能力的智能體系統。

官方資料顯示,Nano Omni是首個「生產級開放模型」,專爲構建可擴展AI Agent設計,支持長上下文、多步驟推理以及工具調用等能力。

同時,該模型還引入GUI訓練數據,使AI可以理解和操作界面元素,進一步貼近真實應用場景,例如自動化辦公流程、軟件操作甚至複雜工作流執行。

媒體解讀認爲,這種「全模態+Agent」組合意味着AI系統可以直接處理現實世界中的非結構化數據(視頻、語音、文檔),並據此做出決策,從而拓展AI在企業中的落地邊界。

效率仍是核心賣點:小模型撬動大能力

儘管能力擴展至多模態與智能體場景,Nemotron 3 Nano Omni仍延續「Nano」定位,即強調高性價比與推理效率。

Nemotron 3 Nano基礎模型採用約300億參數規模,但通過MoE機制每次僅激活參數30億,在性能與成本之間取得平衡。同時,該系列模型支持超長上下文(最高達百萬token級別),適合處理複雜文檔與長流程任務。

在英偉達整體產品體系中,Nano、Super與Ultra形成梯度:Nano強調效率,Super面向高吞吐企業場景,Ultra則瞄準前沿推理能力。

開源生態對抗閉源陣營

值得注意的是,英偉達再次強調「開放」。Nemotron 3 Nano Omni不僅開放模型權重,還配套提供訓練數據、工具鏈(如NeMo)以及優化方案,試圖打造完整開發生態。

這一策略正值AI行業分化加劇之際:一方面,部分頭部廠商逐步轉向閉源;另一方面,中國及開源社區持續推進開放模型。英偉達試圖以「開放+高性能」切入中間地帶,吸引開發者與企業客戶。

從更宏觀角度看,隨着AI應用從「聊天機器人」邁向「智能代理」,模型能力的競爭也從單一語言理解升級爲多模態融合+任務執行能力的系統競爭。

Nemotron 3 Nano Omni的推出,標誌着英偉達不僅要賣「鏟子」(GPU),也要提供「施工方案」(模型與工具鏈),進一步加深其在AI產業鏈中的縱深佈局。

編輯/Rocky

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與象象銀行相關的任何投資建議。象象銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。