生成式AI浪潮只有GPU受益?打開(kāi)格局,這些芯片能讓AIGC更大眾化
近日,Intel舉辦了一場(chǎng)年度技術(shù)創(chuàng)新大會(huì),AI自然是關(guān)鍵詞中的關(guān)鍵詞,“AI Everywhere”不僅體現(xiàn)在整個(gè)大會(huì)上,也體現(xiàn)在Intel的全線產(chǎn)品和解決方案中,當(dāng)然,作為軟硬件實(shí)力都在這個(gè)星球上屬于頂級(jí)行列的Intel,自然也是最有資格談?wù)揂I的巨頭之一。
AI無(wú)處不在,從產(chǎn)品到技術(shù)再到應(yīng)用都有截然不同的豐富場(chǎng)景,普通用戶(hù)能夠最直接感受到的當(dāng)屬AIGC,包括文生文、文生圖、圖生圖、文生視頻、圖生視頻等等。而要想實(shí)現(xiàn)足夠?qū)嵱玫腁IGC,從算力強(qiáng)大的硬件到參數(shù)豐富的大模型,從精確合理的算法到高效便捷的應(yīng)用,缺一不可。
我們知道,在過(guò)去,AIGC更多在云側(cè)服務(wù)器上,雖然性能、模型、算法都不是問(wèn)題,但一則需要大量的資金投入,二則存在延遲、隱私等方面的不足。因此,AIGC正越來(lái)越多地下沉到終端側(cè),讓普通的PC電腦、智能手機(jī)也能跑AIGC,甚至可以離線執(zhí)行。
人人都能享受到AIGC
Intel中國(guó)技術(shù)部總經(jīng)理高宇先生在接受采訪時(shí)就表示,關(guān)于終端側(cè)運(yùn)行AIGC的研究已經(jīng)取得了豐碩的成果,比如最新的13代酷睿電腦,經(jīng)國(guó)有化已經(jīng)可以流暢運(yùn)行70億到180億參數(shù)的大模型,尤其是70億到130億參數(shù)的運(yùn)行效果相當(dāng)好。
當(dāng)然這些現(xiàn)在還處于起步階段,目前的優(yōu)化主要針對(duì)CPU處理器,下一步會(huì)充分發(fā)揮GPU核顯的性能潛力,而代號(hào)Meteor Lake的下一代酷睿Ultra除了有更強(qiáng)的CPU、GPU算力,還會(huì)首次集成NPU單元,一個(gè)專(zhuān)用的AI加速器,峰值算力超過(guò)11TOPS,三者結(jié)合可以達(dá)到更好的效果。
對(duì)于PC端側(cè)運(yùn)行AIGC應(yīng)用的具體落地實(shí)現(xiàn),高宇舉了個(gè)例子,Intel正在打造的一個(gè)開(kāi)源框架BigDL-LLM,專(zhuān)門(mén)針對(duì)Intel硬件的低比特量化設(shè)計(jì),支持INT3、INT4、INT5、INT8等各種低比特?cái)?shù)據(jù)精度,性能更好,內(nèi)存占用更少。
基于這個(gè)框架,使用i9-12900K處理器,只開(kāi)啟4個(gè)核心來(lái)運(yùn)行ChatGLM2 60億參數(shù)模型,生成效果就是相當(dāng)迅速的,而打開(kāi)全部8個(gè)P核、8個(gè)E核,效果更是堪稱(chēng)飛快,輸出性能達(dá)到了每個(gè)Token 47毫秒左右,已經(jīng)不弱于很多云側(cè)計(jì)算。
之所以對(duì)比兩種情況,因?yàn)橛袝r(shí)候需要將全部算力投入AI模型的運(yùn)算,而有時(shí)候可能還得兼顧其他任務(wù)。
可以看出,無(wú)論哪種情況,Intel PC側(cè)都已經(jīng)可以很好地完成相應(yīng)的AI工作,提供令人滿(mǎn)意的算力和效率。
此外,在LLaMA2 130億參數(shù)大語(yǔ)言模型、StarCoder 155億參數(shù)代碼大模型上,Intel酷睿處理器也都能獲得良好的運(yùn)行速度。
換到Arc GPU顯卡上,Intel硬件跑端側(cè)AI同樣神速,甚至更快,無(wú)論是ChatGLM2 60億參數(shù),還是LLaMA2 130億參數(shù)、StarCoder 155億參數(shù),都是如此,ChatGLM2模型中甚至可以縮短到20毫秒以下。
當(dāng)然,以上說(shuō)的大模型可能距離普通人還有些遠(yuǎn),而任何一項(xiàng)技術(shù)要想大范圍普及,關(guān)鍵還是顛覆用戶(hù)的切身工作、生活、娛樂(lè)體驗(yàn),AI當(dāng)然也不例外。
在高宇看來(lái),基于以上大模型,AI在端側(cè)的典型應(yīng)用還是相當(dāng)豐富的,而且會(huì)越來(lái)越多,有時(shí)候效果會(huì)更勝于運(yùn)行在云側(cè)。
AIGC的底層基石:算力
AI的發(fā)展,一方面依賴(lài)于模型和算法,另一方面則依賴(lài)于芯片的算力。在電腦上,CPU擅長(zhǎng)數(shù)值計(jì)算,能夠推理出復(fù)雜的邏輯,缺點(diǎn)是計(jì)算速度較慢,不能并行處理任務(wù)。如果把CPU比作一個(gè)人的大腦 ,那么GPU和FPGA就相當(dāng)于四肢,可以幫助它執(zhí)行任務(wù)。
在訓(xùn)練單位方面,以ChatGPT為代表的人工智能大模型訓(xùn)練和推理需要強(qiáng)大的計(jì)算支持。ChatGPT單次訓(xùn)練所需算力約27.5PFlop/s-day,單顆NVIDIA V100芯片深度學(xué)習(xí)算力為125TFlops,則ChatGPT模型的訓(xùn)練至少需要1顆V100芯片計(jì)算220天(27.5*1000/125=220)才能完成。
在訓(xùn)練成本方面。GPT-3的數(shù)據(jù)訓(xùn)練需要45TB。訓(xùn)練該模型所需的算力是3640PF,總成本高達(dá)1200萬(wàn)美元。2021年,全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlop/s,而到2023年,全球大模型訓(xùn)練所需全部算力相當(dāng)于超過(guò)200萬(wàn)張A100顯卡。預(yù)計(jì)到2030年,全球算力規(guī)模將達(dá)到56ZFlps,年均增長(zhǎng)率約為65%。我國(guó)計(jì)算設(shè)備算力總規(guī)模達(dá)到202EFlops,占全球約33%。
算力硬件層是構(gòu)成AIGC產(chǎn)業(yè)的核心底座,AIGC需要大量的計(jì)算和數(shù)據(jù)處理,隨著AIGC產(chǎn)品持續(xù)升級(jí)對(duì)芯片算力提出更高要求,AI芯片算力和需求旺盛增長(zhǎng)。據(jù)Gartner數(shù)據(jù),全球AI芯片市場(chǎng)規(guī)模有望在2021年達(dá)343億美元,2025年將逾700億美元,CAGR約為20%。
四類(lèi)芯片獲得發(fā)展動(dòng)力
AIGC算力硬件層,主要包括AI芯片、AI服務(wù)器和數(shù)據(jù)中心,其中AI芯片主要應(yīng)用于模型訓(xùn)練(training)和推斷(inference)兩個(gè)步驟,并主要可劃分為CPU、GPU、FPGA和ASIC四類(lèi)。
具體來(lái)看,CPU(Central Processing Unit)中央處理器是計(jì)算機(jī)的運(yùn)算和控制核心(Control Unit),是信息處理、程序運(yùn)行的最終執(zhí)行單元,主要功能是完成計(jì)算機(jī)的數(shù)據(jù)運(yùn)算以及系統(tǒng)控制功能。
報(bào)告指出,在數(shù)據(jù)中心和新一代信息技術(shù)升級(jí)帶動(dòng)下,中國(guó)服務(wù)器市場(chǎng)規(guī)模2027年將達(dá)143.7億美元,根據(jù)服務(wù)器成本結(jié)構(gòu)構(gòu)成,CPU為核心芯片,服務(wù)器市場(chǎng)的增長(zhǎng)將帶動(dòng)服務(wù)器CPU需求上升。根據(jù)IDC數(shù)據(jù),2022年全球服務(wù)器出貨量突破1516萬(wàn)臺(tái),同比增長(zhǎng)12%,產(chǎn)值達(dá)1215.8億美金。
市場(chǎng)格局上,在2022年全球數(shù)據(jù)中心CPU市場(chǎng)中,英特爾以70.77%的市場(chǎng)份額排名第一,AMD以19.84%的份額緊隨其后,剩余廠商僅占據(jù)9.39%的市場(chǎng)份額,整體上處于壟斷局面。集微咨詢(xún)測(cè)算2022年全球CPU市場(chǎng)規(guī)模約為777億美元,其中全球服務(wù)器CPU市場(chǎng)約為233億美元。
目前國(guó)內(nèi)CPU廠商主有海光、海思、飛騰、龍芯、申威等。通過(guò)產(chǎn)品對(duì)比發(fā)現(xiàn),國(guó)產(chǎn)服務(wù)器CPU性能已接近Intel中端產(chǎn)品水平,但整體上國(guó)內(nèi)CPU廠商仍在工藝制程、運(yùn)算速度(主頻)、多任務(wù)處理(核心與線程數(shù))方面落后于國(guó)際先進(jìn)水平。
GPU(圖形處理器),最初是為了解決CPU在圖形處理領(lǐng)域性能不足的問(wèn)題而誕生。GPU架構(gòu)內(nèi)主要為計(jì)算單元,采用極簡(jiǎn)的流水線進(jìn)行設(shè)計(jì),適合處理高度線程化、相對(duì)簡(jiǎn)單的并行計(jì)算,在圖像渲染等涉及大量重復(fù)運(yùn)算的領(lǐng)域擁有更強(qiáng)運(yùn)算能力,并演進(jìn)出GPGPU,即通用計(jì)算圖形處理器(general-purpose GPU)以更好支持通用計(jì)算,GPGPU減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計(jì)算中,同時(shí)增加了專(zhuān)用向量、張量、矩陣運(yùn)算指令,提升了浮點(diǎn)運(yùn)算的精度和性能,以實(shí)現(xiàn)人工智能、專(zhuān)業(yè)計(jì)算等加速應(yīng)用。
GPU因其強(qiáng)大的并行計(jì)算能力而廣泛應(yīng)用于人工智能、圖像渲染、科學(xué)計(jì)算等領(lǐng)域。AI、自動(dòng)駕駛與游戲市場(chǎng)是GPU需求增長(zhǎng)的主要場(chǎng)景,其中AI領(lǐng)域大語(yǔ)言模型的持續(xù)推出以及參數(shù)量的不斷增長(zhǎng)有望驅(qū)動(dòng)模型訓(xùn)練端、推理GPU需求快速增長(zhǎng),2021年全球GPU市場(chǎng)規(guī)模為334.7億美元,預(yù)計(jì)2030年將達(dá)到4773.7億美元,CAGR(2021-2030)為34.35%。
從國(guó)內(nèi)市場(chǎng)來(lái)看,2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億元,預(yù)計(jì)2027年市場(chǎng)規(guī)模將達(dá)345.57億元,CAGR(2020-2027)為32.8%。
全球GPU芯片市場(chǎng)主要由海外廠商占據(jù)壟斷地位,國(guó)產(chǎn)廠商加速布局。全球GPU市場(chǎng)被英偉達(dá)、英特爾和AMD三強(qiáng)壟斷,英偉達(dá)憑借其自身CUDA生態(tài)在AI及高性能計(jì)算占據(jù)絕對(duì)主導(dǎo)地位,英偉達(dá)高端GPU占據(jù)較大份額(超過(guò)70%);國(guó)內(nèi)市場(chǎng)中,景嘉微、天數(shù)智芯、壁仞科技、登臨科技等企業(yè)基本處于起步階段。
FPGA,是一種硬件可重構(gòu)的集成電路芯片,通過(guò)在硅片上預(yù)先設(shè)計(jì)實(shí)現(xiàn)具有可編程特性,可通過(guò)軟件重新配置芯片內(nèi)部的資源來(lái)實(shí)現(xiàn)不同功能,廣泛應(yīng)用于數(shù)據(jù)中心、航空航天工程、人工智能、工業(yè)、物聯(lián)網(wǎng)以及汽車(chē)等領(lǐng)域。在5G通信、人工智能等迭代升級(jí)周期頻繁、技術(shù)不確定性較大的領(lǐng)域,F(xiàn)PGA是較為理想的解決方案。
報(bào)告預(yù)測(cè),2020-2026年全球FPGA出貨量有望從5.11億顆增至8.25顆,CAGR為8.3%,F(xiàn)PGA市場(chǎng)規(guī)模從55.85億美元增至96.9億美元,CAGR為9.6%。
中國(guó)FPGA市場(chǎng)2020年的市場(chǎng)規(guī)模約150.3億元,預(yù)計(jì)2025年中國(guó)FPGA市場(chǎng)規(guī)模將達(dá)到332.2億元,復(fù)合增速為17.2%。FPGA需要由FPGA芯片、EDA軟件及IP方案組成的軟硬件生態(tài)系統(tǒng)共同支撐實(shí)現(xiàn)功能,邏輯容量、制程、SerDes速率等關(guān)鍵指標(biāo)體現(xiàn)FPGA硬件技術(shù)水平,F(xiàn)PGA EDA軟件工具非常復(fù)雜,F(xiàn)PGA軟硬件生態(tài)系統(tǒng)建立了極高的行業(yè)壁壘。
全球FPGA市場(chǎng)主要被賽靈思(AMD)和Altera(英特爾)占據(jù),目前市占率分別為52%和35%;中國(guó)FPGA廠商中紫光國(guó)微、復(fù)旦微電和安路科技在2021年中國(guó)的本土市場(chǎng)的市占率超過(guò)15%。受益于國(guó)產(chǎn)化加速推進(jìn),中國(guó)FPGA廠商將擁有巨大成長(zhǎng)空間。
ASIC芯片,是為特定用途而定制的集成電路,具有高性能、低能耗的特點(diǎn),專(zhuān)用化程度最高,其特點(diǎn)同時(shí)適合AI訓(xùn)練和推理階段的使用。
目前全球ASIC市場(chǎng)并未形成明顯的頭部廠商,國(guó)產(chǎn)廠商快速發(fā)展;國(guó)外谷歌、英特爾等公司在ASIC布局較早,已經(jīng)有較為成型的產(chǎn)品。目前國(guó)產(chǎn)廠商海思、遂原科技和寒武紀(jì)的產(chǎn)品在整體性能上也與谷歌比肩。未來(lái)國(guó)產(chǎn)廠商有望在ASIC領(lǐng)域繼續(xù)保持技術(shù)優(yōu)勢(shì),突破國(guó)外廠商在AI芯片的壟斷格局。
AIGC熱潮帶動(dòng)AI服務(wù)器需求飆升,也使部分高端存儲(chǔ)芯片受益。
本期報(bào)告指出,隨著AIGC的逐漸成熟,為存儲(chǔ)器帶來(lái)對(duì)應(yīng)顯存量的提升。其中包括單臺(tái)服務(wù)器加速卡數(shù)量的增長(zhǎng)、單張AI加速卡中顯存容量的增長(zhǎng);AI服務(wù)器中將會(huì)有更高的內(nèi)存滿(mǎn)插率及后續(xù)CPU新平臺(tái)有望支持更多的內(nèi)存模組通道;相比于普通服務(wù)器固態(tài)硬盤(pán)占比有望大幅提升。
在AI服務(wù)器中應(yīng)用的存儲(chǔ)芯片主要包括:高帶寬存儲(chǔ)器(HBM)、DRAM和SSD,針對(duì)AI服務(wù)器的工作場(chǎng)景需要提供更大的容量、更高的性能、更低的延遲和更高的響應(yīng)速度。
分品類(lèi)看,HBM(High Bandwidth Memory,高帶寬存儲(chǔ)器)是可以實(shí)現(xiàn)高帶寬的高附加值DRAM產(chǎn)品。HBM將多個(gè)DDR芯片3D堆疊在一起后和主芯片封裝在一起,有高帶寬、低功耗等特點(diǎn)。
以HBM為代表的超高帶寬內(nèi)存技術(shù)有力支撐了AIGC開(kāi)發(fā),而生成式模型也會(huì)加速HBM內(nèi)存進(jìn)一步增大容量和增大帶寬,AIGC發(fā)展將帶動(dòng)第三代HBM量?jī)r(jià)齊升,預(yù)計(jì)2023-2025年HBM市場(chǎng)CAGR有望成長(zhǎng)至40-45%以上,至2025年市場(chǎng)規(guī)模有望達(dá)25億美元,市場(chǎng)需求快速提升。
隨著中國(guó)智能化、數(shù)字化、信息化技術(shù)的深入發(fā)展,各大領(lǐng)域?qū)τ诟咝阅軆?chǔ)存器產(chǎn)品的需求將持續(xù)增長(zhǎng),加之HBM應(yīng)用領(lǐng)域向智能駕駛、通信設(shè)備等領(lǐng)域拓展,HBM需求量將保持較高的增速。
而對(duì)于服務(wù)器核心存儲(chǔ)器,與消費(fèi)級(jí)SSD相比,企業(yè)級(jí)SSD產(chǎn)品需要具備更快傳輸速度、更大單盤(pán)容量、更高使用壽命以及更高的可靠性要求。
企業(yè)級(jí)SSD下游客戶(hù)主要來(lái)自云計(jì)算,占總市場(chǎng)規(guī)模的份額達(dá)到67%,企業(yè)級(jí)SSD將充分受益云基礎(chǔ)設(shè)施增量。根據(jù)Yole數(shù)據(jù),全球SSD市場(chǎng)規(guī)模在2022年為290億美元,總出貨量為3.52億塊,其中大約5500萬(wàn)塊是企業(yè)SSD,其余為消費(fèi)級(jí)SSD。預(yù)計(jì)2028年市場(chǎng)規(guī)模會(huì)達(dá)到670億美元,出貨量為4.72億塊,復(fù)合年增長(zhǎng)率為15%。
本期報(bào)告,集微咨詢(xún)?cè)敿?xì)梳理了AI芯片領(lǐng)域國(guó)內(nèi)企業(yè)發(fā)展情況,指出AI發(fā)展的海量數(shù)據(jù)對(duì)數(shù)據(jù)處理提出極高要求,AI芯片需求快速增長(zhǎng),盡管全球AI芯片市場(chǎng)被英偉達(dá)壟斷,然而國(guó)產(chǎn)AI算力芯片賽道正燃起星星之火。目前,國(guó)內(nèi)已涌現(xiàn)出了如寒武紀(jì)、海光信息等優(yōu)質(zhì)AI算力芯片上市公司,非上市AI算力芯片公司如沐曦、天數(shù)智芯、壁仞科技等亦在產(chǎn)品端有持續(xù)突破。
從不同細(xì)分市場(chǎng)看,經(jīng)過(guò)多年發(fā)展,國(guó)產(chǎn)CPU初步形成六大廠商齊頭并進(jìn)格局。“十五”期間,國(guó)家啟動(dòng)發(fā)展國(guó)產(chǎn)CPU的泰山計(jì)劃,863計(jì)劃也提出自主研發(fā)CPU。2006年核高基專(zhuān)項(xiàng)啟動(dòng),國(guó)產(chǎn)CPU領(lǐng)域迎來(lái)了新一輪的國(guó)家支持。鯤鵬、飛騰、龍芯、兆芯、海光、申威等一批優(yōu)質(zhì)國(guó)產(chǎn)CPU企業(yè)再度啟航。
