談到AI算力,不僅僅只有GPU,這些芯片也是重要角色
與任何人談論云中的生成式人工智能,話題很快就會轉(zhuǎn)到 GPU(圖形處理單元)。但這可能是一個錯誤的目標。GPU 并不像人們想象的那么重要,幾年后,話題可能會轉(zhuǎn)向?qū)τ谠浦猩墒?AI 系統(tǒng)的開發(fā)和部署更為重要。
目前的假設是 GPU 對于促進生成 AI 模型所需的復雜計算是不可或缺的。雖然 GPU 在推進人工智能方面發(fā)揮著關(guān)鍵作用,但過分強調(diào)它們可能會妨礙探索和利用同樣有效且可能更可持續(xù)的替代方案。事實上,GPU 可能會像人工智能系統(tǒng)所需的其他資源(例如存儲和處理空間)一樣迅速成為單純的一個商品。重點應該放在設計和部署這些系統(tǒng)上,而不僅僅是它們運行的硬件上。
GPU淘金熱
GPU 的重要性在英偉達身上得到了很好的體現(xiàn)。在最近一個季度,英偉達公布了創(chuàng)紀錄的數(shù)據(jù)中心收入 145 億美元,比上一季度增長 41%,比去年同期增長 279%。它的 GPU 現(xiàn)在是人工智能處理的標準,甚至比游戲更重要。
GPU 最初是為了在 20 世紀 90 年代加速游戲中的 3D 圖形而設計的,早期的 GPU 架構(gòu)高度專門用于圖形計算,主要用于渲染圖像和處理與 3D 渲染相關(guān)的密集并行處理任務。這使得它們非常適合人工智能,因為它們擅長需要同時計算的任務。
GPU 真的很重要嗎?
GPU 需要CPU來協(xié)調(diào)操作。盡管這簡化了現(xiàn)代 GPU 架構(gòu)的復雜性和功能,但其效率也低于應有的水平。GPU 與 CPU結(jié)合運行,將特定任務卸載給 GPU。此外,這些CPU還管理軟件程序的整體操作。
除了效率問題之外,還需要完成不同部件的通信;拆卸模型、對模型進行部分處理,然后重新組裝輸出以進行綜合分析或推理的挑戰(zhàn);以及使用 GPU 進行深度學習和人工智能所固有的復雜性。這種分割和重新集成過程是分配計算任務以優(yōu)化性能的一部分,但它也有其自身的效率問題。
需要設計用于抽象和管理這些操作的軟件庫和框架。英偉達的 CUDA(統(tǒng)一計算設備架構(gòu))等技術(shù)提供了開發(fā)可利用 GPU 加速功能的軟件所需的編程模型和工具包。
人們對英偉達高度感興趣的一個核心原因是它提供了一個軟件生態(tài)系統(tǒng),使 GPU 能夠更有效地與應用程序一起工作,包括游戲、深度學習和生成式人工智能。如果沒有這些生態(tài)系統(tǒng),CUDA 和其他生態(tài)系統(tǒng)就不會具有相同的潛力。因此,焦點集中在英偉達身上,它目前擁有處理器和生態(tài)系統(tǒng)。
ASIC——GPU面臨最強競爭
去年12月,谷歌官宣了多模態(tài)大模型Gemini,包含了三個版本,其中Gemini Ultra版本甚至在大部分測試中完全擊敗了OpenAI的GPT-4。同時還丟出另一個重磅炸彈——TPU v5p,號稱是現(xiàn)在最強大的AI自研芯片。
TPU,全稱Tensor Processing Unit,即張量處理單元。所謂“張量(tensor)”,是一個包含多個數(shù)字(多維數(shù)組)的數(shù)學實體。目前,幾乎所有的機器學習系統(tǒng),都使用張量作為基本數(shù)據(jù)結(jié)構(gòu)。所以,張量處理單元,我們可以簡單理解為“AI處理單元”。
谷歌TPU就是基于ASIC專用芯片開發(fā),為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據(jù)算法需要進行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優(yōu)越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但ASIC芯片的算法是固定的,一旦算法變化就可能無法使用。
隨著人工智能算法不斷涌現(xiàn),ASIC專用芯片如何做到適應各種算法是最個大問題,如果像GPU那樣,通過架構(gòu)來適應各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒有優(yōu)勢了。這意味著玩AISC芯片需要強大實力,包括雄厚的資金,強大的技術(shù)實力和豐富的應用場景。
這里請注意,谷歌去年發(fā)布TPU v5p的時候,一同發(fā)布了多模態(tài)大模型Gemini,該模型在圖像、音頻、視頻和文本領域擁有強大的功能。與英偉達開放GPU購買策略不同,谷歌高端TPU主要供自家產(chǎn)品和服務運用,這才是關(guān)鍵。換句話說,谷歌高端TPU是基于自家多模態(tài)大模型Gemini開發(fā)的專用AI芯片,在自家的產(chǎn)品和服務上做到最優(yōu),性能表現(xiàn)絲毫不輸GPU。
公開的信息顯示,TPU v5p每個模塊有8960顆芯片,較之上代v4的4096有所提升,且每塊架構(gòu)內(nèi)的總浮點運算次數(shù)(FLOPs)增加至原來的四倍,吞吐能力達到驚人的4800Gbps。新型架構(gòu)在內(nèi)存及帶寬方面更為出色,高達95GB的高帶寬內(nèi)存(HBM)遠超TPU v4的32GB。
根據(jù)官方數(shù)據(jù)顯示,谷歌的TPU v5p在訓練大規(guī)模語言模型上性能表現(xiàn),達到了A100 GPU四倍,比起英偉達的頂配H100顯卡性能也絲毫不落下風。當然這只是谷歌基于自身的Gemini模型做的測試,肯定在研發(fā)階段就做了優(yōu)化和匹配。但足見TPU v5p性能之強,同時也可以說明,ASIC芯片在AI大模型應用方面有著絲毫不輸GPU的優(yōu)勢。
截至目前,谷歌、英特爾、英偉達都相繼發(fā)布TPU、DPU等ASIC芯片,國內(nèi)ICG、寒武紀、比特大陸、地平線、阿里巴巴等也都推出了深度神經(jīng)網(wǎng)絡加速的ASIC芯片。目前GPU應用范圍廣,市場非常成熟,但并不意味著其他的芯片就沒有機會,ASIC的發(fā)展勢頭依然很猛,正在成為GPU最強大的挑戰(zhàn)者。
DPU:數(shù)據(jù)中心算力基座
隨著信息技術(shù)的持續(xù)發(fā)展,數(shù)據(jù)中心網(wǎng)絡帶寬從100G邁入400G,甚至將提升至800G或1.6T。然而,作為提供算力的物理載體,受限于通用CPU的結(jié)構(gòu)的馮諾依曼瓶頸、摩爾定律逐漸失效等因素的影響,以CPU為網(wǎng)絡核心的數(shù)據(jù)處理能力難以支持大規(guī)模新型數(shù)據(jù)中心的網(wǎng)絡和數(shù)據(jù)的算力需求。
由此,DPU已經(jīng)成為繼CPU、GPU之后未來數(shù)據(jù)中心的第三顆主力芯片。DPU提供的高吞吐、低時延、基礎設施卸載能力,幫助數(shù)據(jù)中心完美的規(guī)避了“信息孤島”問題。未來的技術(shù)發(fā)展趨勢將會是高度集成化的片上數(shù)據(jù)中心的模式(Data Center Infrastructure on a chip),即一個GPU、CPU、DPU共存的時代。
聯(lián)通研究院曹暢博士曾在2023中國計算機大會上表示,DPU是銜接計算和網(wǎng)絡兩大領域的重要樞紐,云、網(wǎng)、算協(xié)同,通過資源的深度感知與一體化編排,可以實現(xiàn)算力發(fā)現(xiàn)和跨域互通,打通數(shù)據(jù)與計算節(jié)點的通路。DPU作為網(wǎng)絡和計算的銜接點,可解決數(shù)據(jù)傳輸?shù)摹白詈笠幻住眴栴}。通過DPU可以實現(xiàn)虛擬化層的全卸載和定制化的業(yè)務加速能力,具有更強的可編程能力。
