生成式AI浪潮只有GPU受益？打開(kāi)格局，這些芯片能讓AIGC更大眾化

2023-10-18 來(lái)源：賢集網(wǎng)

1286

近日，Intel舉辦了一場(chǎng)年度技術(shù)創(chuàng)新大會(huì)，AI自然是關(guān)鍵詞中的關(guān)鍵詞，“AI Everywhere”不僅體現(xiàn)在整個(gè)大會(huì)上，也體現(xiàn)在Intel的全線產(chǎn)品和解決方案中，當(dāng)然，作為軟硬件實(shí)力都在這個(gè)星球上屬于頂級(jí)行列的Intel，自然也是最有資格談?wù)揂I的巨頭之一。

AI無(wú)處不在，從產(chǎn)品到技術(shù)再到應(yīng)用都有截然不同的豐富場(chǎng)景，普通用戶(hù)能夠最直接感受到的當(dāng)屬AIGC，包括文生文、文生圖、圖生圖、文生視頻、圖生視頻等等。而要想實(shí)現(xiàn)足夠?qū)嵱玫腁IGC，從算力強(qiáng)大的硬件到參數(shù)豐富的大模型，從精確合理的算法到高效便捷的應(yīng)用，缺一不可。

我們知道，在過(guò)去，AIGC更多在云側(cè)服務(wù)器上，雖然性能、模型、算法都不是問(wèn)題，但一則需要大量的資金投入，二則存在延遲、隱私等方面的不足。因此，AIGC正越來(lái)越多地下沉到終端側(cè)，讓普通的PC電腦、智能手機(jī)也能跑AIGC，甚至可以離線執(zhí)行。

人人都能享受到AIGC

Intel中國(guó)技術(shù)部總經(jīng)理高宇先生在接受采訪時(shí)就表示，關(guān)于終端側(cè)運(yùn)行AIGC的研究已經(jīng)取得了豐碩的成果，比如最新的13代酷睿電腦，經(jīng)國(guó)有化已經(jīng)可以流暢運(yùn)行70億到180億參數(shù)的大模型，尤其是70億到130億參數(shù)的運(yùn)行效果相當(dāng)好。

當(dāng)然這些現(xiàn)在還處于起步階段，目前的優(yōu)化主要針對(duì)CPU處理器，下一步會(huì)充分發(fā)揮GPU核顯的性能潛力，而代號(hào)Meteor Lake的下一代酷睿Ultra除了有更強(qiáng)的CPU、GPU算力，還會(huì)首次集成NPU單元，一個(gè)專(zhuān)用的AI加速器，峰值算力超過(guò)11TOPS，三者結(jié)合可以達(dá)到更好的效果。

對(duì)于PC端側(cè)運(yùn)行AIGC應(yīng)用的具體落地實(shí)現(xiàn)，高宇舉了個(gè)例子，Intel正在打造的一個(gè)開(kāi)源框架BigDL-LLM，專(zhuān)門(mén)針對(duì)Intel硬件的低比特量化設(shè)計(jì)，支持INT3、INT4、INT5、INT8等各種低比特?cái)?shù)據(jù)精度，性能更好，內(nèi)存占用更少。

基于這個(gè)框架，使用i9-12900K處理器，只開(kāi)啟4個(gè)核心來(lái)運(yùn)行ChatGLM2 60億參數(shù)模型，生成效果就是相當(dāng)迅速的，而打開(kāi)全部8個(gè)P核、8個(gè)E核，效果更是堪稱(chēng)飛快，輸出性能達(dá)到了每個(gè)Token 47毫秒左右，已經(jīng)不弱于很多云側(cè)計(jì)算。

之所以對(duì)比兩種情況，因?yàn)橛袝r(shí)候需要將全部算力投入AI模型的運(yùn)算，而有時(shí)候可能還得兼顧其他任務(wù)。

可以看出，無(wú)論哪種情況，Intel PC側(cè)都已經(jīng)可以很好地完成相應(yīng)的AI工作，提供令人滿(mǎn)意的算力和效率。

此外，在LLaMA2 130億參數(shù)大語(yǔ)言模型、StarCoder 155億參數(shù)代碼大模型上，Intel酷睿處理器也都能獲得良好的運(yùn)行速度。

換到Arc GPU顯卡上，Intel硬件跑端側(cè)AI同樣神速，甚至更快，無(wú)論是ChatGLM2 60億參數(shù)，還是LLaMA2 130億參數(shù)、StarCoder 155億參數(shù)，都是如此，ChatGLM2模型中甚至可以縮短到20毫秒以下。

當(dāng)然，以上說(shuō)的大模型可能距離普通人還有些遠(yuǎn)，而任何一項(xiàng)技術(shù)要想大范圍普及，關(guān)鍵還是顛覆用戶(hù)的切身工作、生活、娛樂(lè)體驗(yàn)，AI當(dāng)然也不例外。

在高宇看來(lái)，基于以上大模型，AI在端側(cè)的典型應(yīng)用還是相當(dāng)豐富的，而且會(huì)越來(lái)越多，有時(shí)候效果會(huì)更勝于運(yùn)行在云側(cè)。

AIGC的底層基石：算力

AI的發(fā)展，一方面依賴(lài)于模型和算法，另一方面則依賴(lài)于芯片的算力。在電腦上，CPU擅長(zhǎng)數(shù)值計(jì)算，能夠推理出復(fù)雜的邏輯，缺點(diǎn)是計(jì)算速度較慢，不能并行處理任務(wù)。如果把CPU比作一個(gè)人的大腦，那么GPU和FPGA就相當(dāng)于四肢，可以幫助它執(zhí)行任務(wù)。

在訓(xùn)練單位方面，以ChatGPT為代表的人工智能大模型訓(xùn)練和推理需要強(qiáng)大的計(jì)算支持。ChatGPT單次訓(xùn)練所需算力約27.5PFlop/s-day，單顆NVIDIA V100芯片深度學(xué)習(xí)算力為125TFlops，則ChatGPT模型的訓(xùn)練至少需要1顆V100芯片計(jì)算220天（27.5*1000/125=220）才能完成。

在訓(xùn)練成本方面。GPT-3的數(shù)據(jù)訓(xùn)練需要45TB。訓(xùn)練該模型所需的算力是3640PF，總成本高達(dá)1200萬(wàn)美元。2021年，全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlop/s，而到2023年，全球大模型訓(xùn)練所需全部算力相當(dāng)于超過(guò)200萬(wàn)張A100顯卡。預(yù)計(jì)到2030年，全球算力規(guī)模將達(dá)到56ZFlps，年均增長(zhǎng)率約為65%。我國(guó)計(jì)算設(shè)備算力總規(guī)模達(dá)到202EFlops，占全球約33%。

算力硬件層是構(gòu)成AIGC產(chǎn)業(yè)的核心底座，AIGC需要大量的計(jì)算和數(shù)據(jù)處理，隨著AIGC產(chǎn)品持續(xù)升級(jí)對(duì)芯片算力提出更高要求，AI芯片算力和需求旺盛增長(zhǎng)。據(jù)Gartner數(shù)據(jù)，全球AI芯片市場(chǎng)規(guī)模有望在2021年達(dá)343億美元，2025年將逾700億美元，CAGR約為20%。

四類(lèi)芯片獲得發(fā)展動(dòng)力

AIGC算力硬件層，主要包括AI芯片、AI服務(wù)器和數(shù)據(jù)中心，其中AI芯片主要應(yīng)用于模型訓(xùn)練（training）和推斷（inference）兩個(gè)步驟，并主要可劃分為CPU、GPU、FPGA和ASIC四類(lèi)。

具體來(lái)看，CPU（Central Processing Unit）中央處理器是計(jì)算機(jī)的運(yùn)算和控制核心（Control Unit)，是信息處理、程序運(yùn)行的最終執(zhí)行單元，主要功能是完成計(jì)算機(jī)的數(shù)據(jù)運(yùn)算以及系統(tǒng)控制功能。

報(bào)告指出，在數(shù)據(jù)中心和新一代信息技術(shù)升級(jí)帶動(dòng)下，中國(guó)服務(wù)器市場(chǎng)規(guī)模2027年將達(dá)143.7億美元，根據(jù)服務(wù)器成本結(jié)構(gòu)構(gòu)成，CPU為核心芯片，服務(wù)器市場(chǎng)的增長(zhǎng)將帶動(dòng)服務(wù)器CPU需求上升。根據(jù)IDC數(shù)據(jù)，2022年全球服務(wù)器出貨量突破1516萬(wàn)臺(tái)，同比增長(zhǎng)12%，產(chǎn)值達(dá)1215.8億美金。

市場(chǎng)格局上，在2022年全球數(shù)據(jù)中心CPU市場(chǎng)中，英特爾以70.77%的市場(chǎng)份額排名第一，AMD以19.84%的份額緊隨其后，剩余廠商僅占據(jù)9.39%的市場(chǎng)份額，整體上處于壟斷局面。集微咨詢(xún)測(cè)算2022年全球CPU市場(chǎng)規(guī)模約為777億美元，其中全球服務(wù)器CPU市場(chǎng)約為233億美元。

目前國(guó)內(nèi)CPU廠商主有海光、海思、飛騰、龍芯、申威等。通過(guò)產(chǎn)品對(duì)比發(fā)現(xiàn)，國(guó)產(chǎn)服務(wù)器CPU性能已接近Intel中端產(chǎn)品水平，但整體上國(guó)內(nèi)CPU廠商仍在工藝制程、運(yùn)算速度（主頻）、多任務(wù)處理（核心與線程數(shù)）方面落后于國(guó)際先進(jìn)水平。

GPU（圖形處理器），最初是為了解決CPU在圖形處理領(lǐng)域性能不足的問(wèn)題而誕生。GPU架構(gòu)內(nèi)主要為計(jì)算單元，采用極簡(jiǎn)的流水線進(jìn)行設(shè)計(jì)，適合處理高度線程化、相對(duì)簡(jiǎn)單的并行計(jì)算，在圖像渲染等涉及大量重復(fù)運(yùn)算的領(lǐng)域擁有更強(qiáng)運(yùn)算能力，并演進(jìn)出GPGPU，即通用計(jì)算圖形處理器（general-purpose GPU）以更好支持通用計(jì)算，GPGPU減弱了GPU圖形顯示部分的能力，將其余部分全部投入到通用計(jì)算中，同時(shí)增加了專(zhuān)用向量、張量、矩陣運(yùn)算指令，提升了浮點(diǎn)運(yùn)算的精度和性能，以實(shí)現(xiàn)人工智能、專(zhuān)業(yè)計(jì)算等加速應(yīng)用。

GPU因其強(qiáng)大的并行計(jì)算能力而廣泛應(yīng)用于人工智能、圖像渲染、科學(xué)計(jì)算等領(lǐng)域。AI、自動(dòng)駕駛與游戲市場(chǎng)是GPU需求增長(zhǎng)的主要場(chǎng)景，其中AI領(lǐng)域大語(yǔ)言模型的持續(xù)推出以及參數(shù)量的不斷增長(zhǎng)有望驅(qū)動(dòng)模型訓(xùn)練端、推理GPU需求快速增長(zhǎng)，2021年全球GPU市場(chǎng)規(guī)模為334.7億美元，預(yù)計(jì)2030年將達(dá)到4773.7億美元，CAGR（2021-2030）為34.35%。

從國(guó)內(nèi)市場(chǎng)來(lái)看，2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億元，預(yù)計(jì)2027年市場(chǎng)規(guī)模將達(dá)345.57億元，CAGR（2020-2027）為32.8%。

全球GPU芯片市場(chǎng)主要由海外廠商占據(jù)壟斷地位，國(guó)產(chǎn)廠商加速布局。全球GPU市場(chǎng)被英偉達(dá)、英特爾和AMD三強(qiáng)壟斷，英偉達(dá)憑借其自身CUDA生態(tài)在AI及高性能計(jì)算占據(jù)絕對(duì)主導(dǎo)地位，英偉達(dá)高端GPU占據(jù)較大份額（超過(guò)70%）；國(guó)內(nèi)市場(chǎng)中，景嘉微、天數(shù)智芯、壁仞科技、登臨科技等企業(yè)基本處于起步階段。

FPGA，是一種硬件可重構(gòu)的集成電路芯片，通過(guò)在硅片上預(yù)先設(shè)計(jì)實(shí)現(xiàn)具有可編程特性，可通過(guò)軟件重新配置芯片內(nèi)部的資源來(lái)實(shí)現(xiàn)不同功能，廣泛應(yīng)用于數(shù)據(jù)中心、航空航天工程、人工智能、工業(yè)、物聯(lián)網(wǎng)以及汽車(chē)等領(lǐng)域。在5G通信、人工智能等迭代升級(jí)周期頻繁、技術(shù)不確定性較大的領(lǐng)域，F(xiàn)PGA是較為理想的解決方案。

報(bào)告預(yù)測(cè)，2020-2026年全球FPGA出貨量有望從5.11億顆增至8.25顆，CAGR為8.3%，F(xiàn)PGA市場(chǎng)規(guī)模從55.85億美元增至96.9億美元，CAGR為9.6%。

中國(guó)FPGA市場(chǎng)2020年的市場(chǎng)規(guī)模約150.3億元，預(yù)計(jì)2025年中國(guó)FPGA市場(chǎng)規(guī)模將達(dá)到332.2億元，復(fù)合增速為17.2%。FPGA需要由FPGA芯片、EDA軟件及IP方案組成的軟硬件生態(tài)系統(tǒng)共同支撐實(shí)現(xiàn)功能，邏輯容量、制程、SerDes速率等關(guān)鍵指標(biāo)體現(xiàn)FPGA硬件技術(shù)水平，F(xiàn)PGA EDA軟件工具非常復(fù)雜，F(xiàn)PGA軟硬件生態(tài)系統(tǒng)建立了極高的行業(yè)壁壘。

全球FPGA市場(chǎng)主要被賽靈思（AMD）和Altera（英特爾）占據(jù)，目前市占率分別為52%和35%；中國(guó)FPGA廠商中紫光國(guó)微、復(fù)旦微電和安路科技在2021年中國(guó)的本土市場(chǎng)的市占率超過(guò)15%。受益于國(guó)產(chǎn)化加速推進(jìn)，中國(guó)FPGA廠商將擁有巨大成長(zhǎng)空間。

ASIC芯片，是為特定用途而定制的集成電路，具有高性能、低能耗的特點(diǎn)，專(zhuān)用化程度最高，其特點(diǎn)同時(shí)適合AI訓(xùn)練和推理階段的使用。

目前全球ASIC市場(chǎng)并未形成明顯的頭部廠商，國(guó)產(chǎn)廠商快速發(fā)展；國(guó)外谷歌、英特爾等公司在ASIC布局較早，已經(jīng)有較為成型的產(chǎn)品。目前國(guó)產(chǎn)廠商海思、遂原科技和寒武紀(jì)的產(chǎn)品在整體性能上也與谷歌比肩。未來(lái)國(guó)產(chǎn)廠商有望在ASIC領(lǐng)域繼續(xù)保持技術(shù)優(yōu)勢(shì)，突破國(guó)外廠商在AI芯片的壟斷格局。

AIGC熱潮帶動(dòng)AI服務(wù)器需求飆升，也使部分高端存儲(chǔ)芯片受益。

本期報(bào)告指出，隨著AIGC的逐漸成熟，為存儲(chǔ)器帶來(lái)對(duì)應(yīng)顯存量的提升。其中包括單臺(tái)服務(wù)器加速卡數(shù)量的增長(zhǎng)、單張AI加速卡中顯存容量的增長(zhǎng)；AI服務(wù)器中將會(huì)有更高的內(nèi)存滿(mǎn)插率及后續(xù)CPU新平臺(tái)有望支持更多的內(nèi)存模組通道；相比于普通服務(wù)器固態(tài)硬盤(pán)占比有望大幅提升。

在AI服務(wù)器中應(yīng)用的存儲(chǔ)芯片主要包括：高帶寬存儲(chǔ)器（HBM）、DRAM和SSD，針對(duì)AI服務(wù)器的工作場(chǎng)景需要提供更大的容量、更高的性能、更低的延遲和更高的響應(yīng)速度。

分品類(lèi)看，HBM（High Bandwidth Memory，高帶寬存儲(chǔ)器）是可以實(shí)現(xiàn)高帶寬的高附加值DRAM產(chǎn)品。HBM將多個(gè)DDR芯片3D堆疊在一起后和主芯片封裝在一起，有高帶寬、低功耗等特點(diǎn)。

以HBM為代表的超高帶寬內(nèi)存技術(shù)有力支撐了AIGC開(kāi)發(fā)，而生成式模型也會(huì)加速HBM內(nèi)存進(jìn)一步增大容量和增大帶寬，AIGC發(fā)展將帶動(dòng)第三代HBM量?jī)r(jià)齊升，預(yù)計(jì)2023-2025年HBM市場(chǎng)CAGR有望成長(zhǎng)至40-45%以上，至2025年市場(chǎng)規(guī)模有望達(dá)25億美元，市場(chǎng)需求快速提升。

隨著中國(guó)智能化、數(shù)字化、信息化技術(shù)的深入發(fā)展，各大領(lǐng)域?qū)τ诟咝阅軆?chǔ)存器產(chǎn)品的需求將持續(xù)增長(zhǎng)，加之HBM應(yīng)用領(lǐng)域向智能駕駛、通信設(shè)備等領(lǐng)域拓展，HBM需求量將保持較高的增速。

而對(duì)于服務(wù)器核心存儲(chǔ)器，與消費(fèi)級(jí)SSD相比，企業(yè)級(jí)SSD產(chǎn)品需要具備更快傳輸速度、更大單盤(pán)容量、更高使用壽命以及更高的可靠性要求。

企業(yè)級(jí)SSD下游客戶(hù)主要來(lái)自云計(jì)算,占總市場(chǎng)規(guī)模的份額達(dá)到67%,企業(yè)級(jí)SSD將充分受益云基礎(chǔ)設(shè)施增量。根據(jù)Yole數(shù)據(jù)，全球SSD市場(chǎng)規(guī)模在2022年為290億美元，總出貨量為3.52億塊，其中大約5500萬(wàn)塊是企業(yè)SSD，其余為消費(fèi)級(jí)SSD。預(yù)計(jì)2028年市場(chǎng)規(guī)模會(huì)達(dá)到670億美元，出貨量為4.72億塊，復(fù)合年增長(zhǎng)率為15%。

本期報(bào)告，集微咨詢(xún)?cè)敿?xì)梳理了AI芯片領(lǐng)域國(guó)內(nèi)企業(yè)發(fā)展情況，指出AI發(fā)展的海量數(shù)據(jù)對(duì)數(shù)據(jù)處理提出極高要求，AI芯片需求快速增長(zhǎng)，盡管全球AI芯片市場(chǎng)被英偉達(dá)壟斷，然而國(guó)產(chǎn)AI算力芯片賽道正燃起星星之火。目前，國(guó)內(nèi)已涌現(xiàn)出了如寒武紀(jì)、海光信息等優(yōu)質(zhì)AI算力芯片上市公司，非上市AI算力芯片公司如沐曦、天數(shù)智芯、壁仞科技等亦在產(chǎn)品端有持續(xù)突破。

從不同細(xì)分市場(chǎng)看，經(jīng)過(guò)多年發(fā)展，國(guó)產(chǎn)CPU初步形成六大廠商齊頭并進(jìn)格局。“十五”期間，國(guó)家啟動(dòng)發(fā)展國(guó)產(chǎn)CPU的泰山計(jì)劃，863計(jì)劃也提出自主研發(fā)CPU。2006年核高基專(zhuān)項(xiàng)啟動(dòng)，國(guó)產(chǎn)CPU領(lǐng)域迎來(lái)了新一輪的國(guó)家支持。鯤鵬、飛騰、龍芯、兆芯、海光、申威等一批優(yōu)質(zhì)國(guó)產(chǎn)CPU企業(yè)再度啟航。