share_log

Groq CEO談「芯片架構」:GPU是「重型大貨車」,LPU是「最後一公里快遞」

華爾街見聞 ·  06/12 17:15

Jonathan Ross認爲,GPU更擅長處理高度並行、對延遲不敏感的預填充階段;LPU則憑藉SRAM架構和靜態調度,在低延遲、小批量的解碼階段(如MoE模型)具備極致速度與成本優勢。兩者的混合部署能完美平衡速度與成本。根據傑文斯悖論,算力越便宜需求越大,GPU與LPU將共同擴張市場。

Groq創始人兼CEO Jonathan Ross將英偉達GPU比作"18輪重型大貨車",將自家的LPU(語言處理單元)定位爲"最後一公里配送貨車",認爲兩者結合才能在大語言模型推理環節實現最優的成本與速度平衡。

Jonathan Ross在近日的一次訪談中詳細闡述了這一架構分工:預填充階段(讀取輸入文本)高度並行、對單Token延遲不敏感,適合完全交由GPU處理;解碼階段則根據用戶對速度與成本的敏感程度彈性配置,從純GPU、GPU加LPU混合,到純LPU不等。他表示,LPU憑藉全片上SRAM架構與靜態調度機制,在低延遲、小批量的解碼場景中具有顯著優勢,對當前主流的混合專家(MoE)模型尤爲友好。

在智能體(Agentic AI)應用快速崛起的背景下,多個AI模型相互調用的任務分解模式正推動算力需求呈指數級而非線性擴張。Jonathan Ross援引傑文斯悖論指出,算力單位成本下降不會壓縮市場規模,反而會持續刺激總需求增長——GPU與LPU的市場空間本質上是共同擴張,而非零和競爭。

這也爲外界理解Groq與英偉達200億美元合作協議的戰略邏輯提供了解釋:在推理工作負載中,兩家公司的產品承擔不同角色,協同部署優於單獨使用任何一方。

LPU與GPU:帕累託曲線上的互補定位

Jonathan Ross指出,GPU與LPU的每Token成本曲線形狀截然不同,兩者並非直接競爭關係,而是覆蓋不同的性能區間。

"如果只追求最低的每Token成本,用GPU、用非常大的批量大小就行,速度會慢一些,"他說。"LPU的優勢在於,能夠跨多顆芯片擴展,完全依賴高速SRAM而非外部內存,在不顯著抬高成本的前提下大幅提升Token生成速度。"

他表示,在帕累託曲線的高速端,LPU的經濟性優於GPU;將兩者組合,可以在任意目標速度下實現最優的每Token成本與最大算力容量。

LPU對混合專家(MoE)模型尤爲友好。Jonathan Ross解釋,GPU從DRAM讀取數據時需要數百量級的批量大小才能保證經濟性,而LPU僅需批量大小約10即可運行,這意味着更低的等待延遲和更高的執行效率。"LPU幾乎是爲專家模型量身定製的。"

靜態調度與MoE:確定性架構的推理紅利

Groq的另一項核心差異在於靜態調度——操作順序在編譯時預先確定,而非運行時動態分配。

Jonathan Ross用日曆安排打比方:短會必須精確預約,長會則可以靈活應對。"在推理場景中,你做的是超低延遲、小批量的計算,必須提前把所有操作排好,讓每段計算迅速完成、及時釋放硬件。訓練時這不那麼重要,推理時這絕對關鍵。"

他同時澄清,靜態調度並不意味着無法適配動態路由。在MoE架構中,LPU的時間段是固定的,但"和誰開會"——即激活哪個專家的權重——是可以在運行時變化的,通過"散射和聚集"能力實現靈活路由。

與英偉達協同:預填充歸GPU,解碼看場景

在與英偉達達成200億美元戰略合作後,Jonathan Ross描述了兩者在推理鏈路中的具體分工。

"預填充階段——也就是讀取輸入文本的階段——建議完全跑在GPU上,因爲這個階段高度可並行化,GPU非常擅長,"他說。解碼階段則根據用戶需求分級配置:成本敏感型用戶完全用GPU解碼;付費專業用戶採用GPU加LPU組合;極端性能場景可考慮純LPU解碼。

他預計,未來市場將看到更多LPU與GPU的混合部署形態,而非Groq芯片單獨銷售。"把兩者結合,就像把18輪卡車和配送貨車組合使用,你能構建一個更好的網絡。"

傑文斯悖論:算力越便宜,需求越大

對於AI算力市場的長期走勢,Jonathan Ross援引19世紀經濟學概念"傑文斯悖論"作出判斷:算力單位成本的下降,不會壓縮總需求,反而會催生更大的需求。

"傑文斯悖論的來源是一本關於煤炭的論著:每當蒸汽機效率提升,煤炭總消耗量反而增加,"他說。"當一項活動的成本降低,之前不盈利的活動變得可行,人們願意做更多實驗。隨着AI變得越來越便宜,對AI的需求只會不斷增加。"

他還指出,智能體(Agent)架構將進一步放大這一效應。AI將任務拆解爲並行子任務、讓多個智能體同時推進,以及AI調用AI的多層嵌套模式,將導致算力使用量呈指數級擴張。"AI使用AI再使用AI,這導致了使用量的指數級爆炸。"

Jonathan Ross的結論是,"成功災難"是不可避免的——Groq和英偉達爲市場提供的算力越多,市場想要的算力就越多。

以下爲訪談文字實錄:

主持人: Jonathan,我們其實都是谷歌的校友。我在谷歌時,團隊裏有個流傳的玩笑——如果當天用於在TPU上訓練模型的配額用完了,不如直接放假算了。我知道你是TPU的開創者,後來離開谷歌創立了自己的芯片公司。你在谷歌看到了什麼,讓你想要打造一些不一樣的東西?

Jonathan: 算力不夠用。當時發生的事情是,語音識別團隊訓練了一個模型,這個模型在轉錄任務上超過了人類水平,那是他們第一次做到這一點。問題是,他們沒辦法把它投入生產。他們實際上把部署範圍限定在了Nexus手機上——你應該記得,那是老款安卓手機。

主持人: 對,我用過。

Jonathan: 他們把範圍限定在Nexus,與其說是作爲一個功能,不如說是因爲算力太少,只能支撐Nexus用戶群的規模。正好在紐約,我和語音識別團隊共進午餐,他們提到了這個問題。我就以20%項目的形式開始,把他們的模型移植到FPGA上,設計了一個通用架構,結果發現推理端的需求相當迫切,最後演變成了一塊芯片。隨後Jeff Dean做了一個分析,說"考慮到我們在這上面要投入的資金和算力規模,不如直接做ASIC算了。"我當時的反應是:能有多難?結果發現非常難——但那時我們還不知道,就這麼跳進去了。

主持人: 我聽你以前提過"成功災難"這個詞,我覺得這個詞非常傳神,在谷歌我也有過好幾次這樣的體驗。

LPU vs. GPU:帕累託曲線與每Token成本

主持人: 英偉達GPU在訓練方面表現出色,但在推理階段存在內存瓶頸。Groq在內存架構上做了哪些改變來解決這個問題?

Jonathan: 首先要想清楚權衡取捨——沒有免費的午餐。你追求的是最低的每Token成本,因爲成本決定了你的算力容量。大家都在爭這個——如果我花同樣的錢只能得到一半的容量,那我真正關心的是每一美元能換多少Token。

當然,你同時也需要速度。權衡在於:如果你只追求最低的每Token成本,你就用GPU,用非常大的批量大小,速度會慢一些。我們用LPU做的事情,是能夠跨多顆芯片擴展,不依賴任何外部內存,把模型分散在這些芯片上,從而使用速度快得多的SRAM,讓Token生成更快,而成本並沒有更高。

如果你了解帕累託曲線,GPU和LPU的曲線形狀相當不同。在曲線的某些區間,GPU的經濟性更好;在另一些區間,特別是速度更快的那端,LPU的經濟性更好。把兩者結合起來,就填補了中間地帶。GPU、GPU加LPU的組合、以及純LPU,三者加在一起,在任何你想要的速度下,都能實現最優的每Token成本和最大的算力容量。

靜態調度與混合專家模型

主持人: Groq的另一個差異化之處是靜態調度——操作順序在編譯時就已預先確定。這對大語言模型推理來說有什麼優勢?

Jonathan: 我用日曆安排來打比方。如果我要進行一堆15分鐘的短會,我必須提前排好日程,因爲對方必須準時出現。但如果是一個5小時的長會,就不需要那麼精確了——你來了就聊,遲到30分鐘也不過是5小時裏的一小部分。

在推理場景中,你在做的是超低延遲、小批量的計算,所以你需要把所有操作都預先排好,讓每一段計算能迅速完成,及時釋放硬件供下一步使用,不至於讓後續的所有工作都在那裏等。訓練時這不那麼重要,推理時這絕對關鍵。

主持人: 當今最前沿的大語言模型大多采用混合專家架構,推理時每個查詢可能激活不同的專家子集。這在一塊採用靜態調度的芯片上是怎麼運作的?

Jonathan: 關鍵在於什麼東西被靜態調度了。在LPU上,我把這個15分鐘的時間段排好了,但和誰開會是可以變的。LPU有做"散射和聚集"的能力,意味着根據需要激活哪個專家,我們會去取不同的專家權重。運行時間仍然一樣,只是換了一個不同的專家。如果專家的大小不同,我們甚至可以路由到另一顆芯片,當然流水線裏會有短暫的氣泡,但確定性給了你更強的預測時序的能力,而不會限制你能運行什麼。

而且LPU架構對混合專家模型特別有利,因爲批量大小越小越好——而混合專家在批量大小上天然處於不利地位:從DRAM讀取數據時,你需要很大的批量(可能數百個)才能讓經濟賬算過來;而在LPU上,批量大小隻需要10左右就能跑通,這意味着你不需要等那麼多查詢積累起來才能執行,從而降低了延遲,提升了效率。LPU幾乎是爲專家模型量身定製的。

自回歸與擴散模型

主持人: 說到架構,當Transformer被下一代架構取代時,LPU需要完全重新設計,還是它與當前大語言模型的形態是正交的?

Jonathan: 這是個經典問題。LPU設計的時候,《Attention Is All You Need》那篇論文還沒有發表。注意力機制和當時已有的一些架構(比如卷積)有很多相似之處,雖然兩者相當不同,但歸根結底都是線性代數。如果你爲線性代數構建了一塊最優的芯片,你就爲大多數這類架構構建了一塊最優的芯片。

你可以選擇針對特定的矩陣乘法大小做優化,不同架構可能有差異。我見過一些人嘗試極度專用化,但最終贏得最多的幾乎每次都是靈活性。打個比方:如果我告訴你,我能讓運行速度快10倍,但代價是你永遠不能再改變模型,你會接受嗎?答案大概是不會——因爲算法本身可能就會有10倍的改進。最近就有一個改變注意力機制工作方式的進展,把規模縮小了10倍。算法改進的速度非常快,靈活性往往比優化本身更重要。

LPU架構在設計上特別注重易於編程,使得新架構出現時能被快速採用,最新的算法可以很快上線運行。

主持人: LPU中的L代表"語言"——這是否意味着視覺和音頻模型無法從同樣的加速中受益?

Jonathan: Groq雲目前最大的用戶群之一是語音轉文字的用戶,我們也做過一段時間的文字轉語音,原因是這類任務對實時性極其敏感。很多語音模型裏面還嵌有卷積層之類的東西,這正是通用架構的價值所在——否則這些語音任務根本沒辦法在上面跑。

更有意思的是,速度更快實際上還能提升質量,這有點反直覺。音頻處理可以把音頻切成非常小的片段來處理,但如果每次只聽一小段,你就缺乏完整的上下文,預測詞語就更難了。用較慢的芯片做音頻處理時,爲了滿足實時性要求,只能切成更小的片段,而這會提高錯誤率——就像讓兩個人同時轉錄一段演講,但每人每次只能聽5秒,錯誤率會大幅上升。LPU能以數百倍於實時速度的速度完成語音轉錄,所以可以處理大得多的片段,從而降低這些模型的錯誤率。

主持人: 我們談到的這些應用場景,語言推理和音頻,大多是自回歸的;而現在的視覺模型很多是基於擴散的,一些大語言模型也在用擴散架構。擴散大語言模型在GPU上比自回歸大語言模型快很多,這個排名在Groq芯片上還成立嗎?

Jonathan: 擴散模型受益於總算力量的大小。先給大家解釋一下什麼是自回歸——自回歸簡單來說就是:先推斷出第一個詞,再推斷下一個詞,就像下棋,我先想好這一步再走下一步,而不是一次性預判所有步驟。在語言中,要知道第100個詞是什麼,通常要先知道第99個詞是什麼。

當然你可以做一些分解:某些詞比其他詞更重要,先預測重要的詞,再在周圍填入其他詞。

我看到很多人在嘗試用擴散模型生成語言,但效果不太好。原因在於,在你還沒決定這裏要說什麼之前,很難確定那裏要說什麼。這和之前提到的音頻切片問題一樣——想象100個人同時寫一篇演講稿,每人都看不到其他人寫的內容。擴散之所以叫"擴散",是因爲信息在時間和空間中擴散,距離越遠,影響越弱。

從質量角度來看:如果你用自回歸與擴散分別生成音樂,自回歸版本會更有靈魂,更有深度,你會更喜歡,但可能有一兩聲雜音;純擴散版本則是你聽過的最純淨的電梯音樂,完全沒有靈魂。但如果把兩者結合起來,重要的音樂節點用自回歸加上下文來處理,其餘的用擴散來填充,效果就會大不相同。

就像我們把LPU和GPU組合起來用於大語言模型的解碼一樣,我認爲擴散大語言模型最終成功的版本,很可能也是把自回歸和擴散結合起來的。

Groq與英偉達Vera Rubin的協同

主持人: 英偉達在今年3月的GTC大會上發佈了專爲推理(尤其是智能體場景)設計的Vera Rubin超級計算機。GPU和Groq在推理時是如何協同工作的?

Jonathan: 我來打個比方。假設你要爲整個美國建立一套物流網絡,從零開始,你可以選擇18輪卡車或者配送貨車。配送貨車可以進任何車道,但裝載量小,單位成本更貴。最優解是兩者都要。

在這個比喻中,GPU是18輪卡車——能一次處理大量Token,但裝載和運輸需要一些時間;LPU更像配送貨車——效率不如前者,但在"最後一公里"比那個龐然大物更高效。就像之前談到的混合專家模型,LPU在其中某些部分上有優勢。把兩者結合起來,就像把18輪卡車和配送貨車組合使用,你能構建一個更好的網絡。

大語言模型的推理分兩個獨立部分:權重層和注意力層。我們的方案是把投影層放在LPU上,把注意力層放在GPU上,兩者各取所長。

主持人: 英偉達合作協議之後,我們應該預期Groq芯片繼續獨立銷售,還是會看到更多LPU加GPU的混合形態?

Jonathan: 我認爲你會看到更多混合形態。預填充階段——也就是讀取文本的階段——我們仍然建議完全跑在GPU上,因爲GPU非常擅長這個,而且這個階段對每Token的延遲不那麼敏感,是高度可並行化的,丟給GPU這輛18輪卡車就行。

解碼階段則要看情況:對於成本敏感的應用,比如免費用戶,可能會完全用GPU做解碼;如果是付費的專業用戶,他們對速度有更高要求,大概率會用GPU加LPU的組合;對於極端追求性能的任務,甚至可能純用LPU做解碼。總體而言,任何數據中心的配置都是:預填充完全在GPU上,解碼部分在LPU上、部分在GPU上。

智能體推理與規模經濟

主持人: Vera Rubin超級計算機主要針對智能體推理場景。過去一年,智能體應用迅速崛起,這如何改變了規模化推理的單位經濟和成本?

Jonathan: 首先,我認爲大多數人並不真正理解"智能體"是什麼,只是把這個詞當成流行語在用。讓我來真正解釋一下,因爲這非常重要。

智能體有點像AI領域的英偉達——它的核心是能夠把任務拆解成並行的子任務。CPU是串行的,GPU是並行的。如果你一個人完成一項任務,你只能一次做一件事,還會被各種等待卡住,效率不高。但如果你能把任務拆開,就能讓多人同時推進。AI也面臨類似的瓶頸——我們前面談到,在生成第99個Token之前無法生成第100個Token,但如果你能把問題拆解成沒有這種依賴關係的子任務,就可以讓多個智能體、多個上下文窗口同時工作。對於大多數問題,這是可行的。

還有另一個層面:AI使用AI。就像你在爲採訪做準備時會用AI來幫你準備問題,AI也會向另一個AI提問,讓它在後台處理,等結果回來再整合進自己的答案。任務分解給AI、AI再分發給其他AI,AI使用AI再使用AI,這導致了使用量的指數級爆炸。而且答案質量往往隨着並行子任務數量的增加而提升,因爲就像團隊規模更大、能做更多交叉驗證一樣,最終的答案更有依據。

AI能否替代CUDA內核工程師?

主持人: CUDA內核手工編寫難度極大。你認爲AI是否已經能夠自己寫出來?

Jonathan: 我認爲也許已經足夠好了,但這個問題不是非黑即白的。"足夠好"意味着什麼?你不是"寫內核"或"不寫內核"這種二選一的問題——關鍵在於這個內核有多好?效率如何?性能如何?與其他內核的融合是否容易?通用性如何?可複用性如何?隨着AI能力不斷提升,內核質量會持續提升,而你在一個特定內核上花的時間越多,這個內核就會越好。

有趣的是,Groq架構——LPU——實際上是無內核架構。當初設計的時候,我們還沒有大語言模型可以幫我們寫軟件,只能全靠自己,而且團隊規模小,所以我們構建了一塊編譯複雜度很低的芯片。就像AI隨着時間推移會生成越來越好的內核一樣,如果它要編譯的硬件越容易理解,它生成的內核就會更好。我們已經在用AI來編程LPU,效果很好,因爲這個問題對大語言模型來說很容易"腦補"。

主持人: AI降低了寫軟件的門檻,從你說的來看,硬件方面也開始出現同樣的趨勢。我們會看到更多人因爲門檻降低而去做硬件嗎?

Jonathan: 絕對會。你會看到更多人嘗試設計硬件。但我認爲有一個問題——硬件是物理的東西,需要做實驗。軟件開發的結果是即時反饋,可以快速迭代;硬件有供應鏈,有大額賭注。你會看到很多人去做芯片,因爲設計一顆芯片會變得很容易,但把它推向量產非常難。這會變成"小海龜問題"——世界上的供應資源是有限的,客戶在下注時,會選擇他們知道靠得住的。

大語言模型讓寫軟件、寫RTL(芯片的編程語言)變得更容易,做的人會更多,但真正能走到量產的,反而可能更少,因爲太難取捨了——客戶只想押注在能依賴的公司身上。

主持人: 這和軟件領域其實很像——在臥室裏做出原型很容易,但真正推向市場並保證可靠性就難多了。

Jonathan: 有一個關鍵區別。軟件發現了Bug,你可以打補丁。芯片出了錯,首先需要4到6個月重新流片。芯片是物理的東西,製造時要經歷60到70層的化學沉積,每層可能需要一天甚至更長時間,從你完成"流片"(即提交芯片掩膜版)到拿到可以測試的實物,有固定的物理時間。這個掩膜版本身就要幾千萬美元,做錯了就損失幾千萬。但這和告訴客戶"抱歉,還需要再等六個月才能拿到產品,我要做修改"相比,後者的代價更大。更何況,供應鏈的運作方式要求你必須先買晶圓,提前做出承諾——如果到時候沒有可交付的芯片,代價極爲慘重。

所以我不認爲你會看到那種"大家都來亂扔芯片"的情況,而是會看到很多規模較小的玩家做芯片,但勝出的只會是少數,因爲賭注太高,客戶只會選擇可以依賴的對象,尤其是隨着成本不斷攀升。

主持人: AI是否在一些外行人想不到的方面讓硬件設計變得更容易?

Jonathan: 有個很有意思的現象。我們注意到,過去硬件工程師從來不自己寫軟件,遇到需要寫軟件的時候,都會去找軟件工程師幫忙。但現在他們開始說:"我直接實現一個小的軟件測試,看看這個設計是否合理。"然後他們立刻得到反饋,發現"哦,這裏用起來比我想的要難"。

硬件和軟件開發本來涇渭分明,兩個領域有很多相似之處,但語言不同,思維方式也有微妙差別——做芯片時要考慮導線、門電路等物理約束,這讓硬件工程師對寫軟件有一種畏懼,軟件工程師對硬件也是一樣。但現在,一個硬件工程師只需要讓大語言模型寫一段軟件跑在自己的硬件上,發現跑不順,就能意識到哪裏需要改進。AI讓這種跨學科的自助服務成爲了現實,以前這些分離的學科之間有清晰的界限,現在界限開始模糊了,大家能夠伸手到相鄰的學科裏做一些事情。

主持人: 這和我們看到的軟件工程師和設計師之間的變化一樣——軟件工程師不需要等設計稿就能實現東西,很多設計師也在用代碼工具直接把想法做出來。

Jonathan: 是的,而且如果軟件工程師和硬件工程師之間有爭論,現在可以直接實現出來證明對方。

傑文斯悖論:算力越便宜,需求越大

主持人: 我們從谷歌的"成功災難"聊起,那你希望Groq和英偉達未來發生哪些"成功災難"?

Jonathan: 這裏要說到傑文斯悖論——算力的需求是無限的。只要文明還有未解決的問題,我們就需要更多算力。現在癌症還沒被治癒,人還會變老,而且算力還不夠,這就是三個現成的問題。只要這些問題存在,我們就必須繼續向前推進。

這意味着我們需要更智能的AI,需要更多算力讓更多AI並行運行、並行解決更多問題。隨着我們不斷進步,單位智能的成本會下降,然後就進入了傑文斯悖論——成本越低,人們越願意花。

傑文斯悖論的來源是19世紀的一本關於煤炭的論著:作者發現,每當蒸汽機效率提升,煤炭總消耗量反而增加。原因是,當一項活動的成本降低,之前不盈利的活動變得盈利可行,人們願意做更多這件事,願意做更多實驗、嘗試更多東西。隨着AI變得越來越便宜,對AI的需求會不斷增加,直到人們在AI上的支出越來越多,他們需要的算力也越來越多。

還有一個類比:如果你從地下抽出兩倍的石油,並不意味着兩倍的人能得到交通便利,因爲還需要有車。但一旦你訓練好一個模型,多提供兩倍的算力,就能讓兩倍的人使用它,解決兩倍的問題。每建起一座AI工廠,你立刻就能做更多的事,這會促使人們想做更多事,進而不斷壓低成本,傑文斯悖論也就一直在發揮作用。所以"成功災難"是不可避免的——我們爲世界提供的算力越多,人們想要的算力就越多。

AI時代應該培養什麼能力?

主持人: 最後,你有什麼想對這群技術敏銳、充滿好奇心的聽衆說的?

Jonathan: 很多人來問我,孩子應該學什麼?我的答案很簡單。我們今天的教育方式基於信息時代的思維——教孩子回答問題,給出答案。但有了AI之後,這件事翻轉了——變成了如何提出正確的問題。如果你能提出正確的問題,AI就能替你去找答案。

所以我給所有聽衆最大的建議是:開始學習如何問出更好的問題。教會你的孩子如何問出更好的問題。教育體系需要重構,以"提問"爲導向。

如果孩子們把你的問題輸入AI就能很容易地解決,那你並沒有在教他們如何在未來取得成功。但如果你給他們一個需要自己想出問題的挑戰,你才是在真正爲他們的未來做準備。

主持人: 這說得很有道理。我曾經從研究和創業的生活中休息了一段時間,因爲我發現直接和AI對話、問問題、學新東西,讓我感到極大的樂趣。我製作這個視頻的方式,就是藉助AI邊學硬件邊做——我可以問那些永遠不會出現在論文裏的"爲什麼不這樣做"的問題。非常感謝你今天的到來,真是一次非常愉快的對話。

Jonathan: 謝謝邀請。

編輯/Lee

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與象象銀行相關的任何投資建議。象象銀行竭力但無法保證上述全部內容的真實性、準確性和原創性。