被炒至30萬元一顆!這顆英偉達(dá)芯片對產(chǎn)業(yè)的影響分析
3月21日,英偉達(dá)在美國召開年度開發(fā)者大會(GTC)上表示,ChatGPT等生成式AI的出現(xiàn),標(biāo)志著AI的“iPhone”時刻來臨,以英偉達(dá)H100為代表的AI 訓(xùn)練芯片有望迎來量價齊升。
英偉達(dá)DGX——AI大語言模型背后的核心引擎
2023年3月15日,OpenAI正式官宣了多模態(tài)大模型GPT4,其能力已接近人類水平。通過以搜索引擎和辦公軟件為支點,AI下游應(yīng)用多點開花。GPT4作為大型多模態(tài)模型支持圖像和文本的輸入,背后是大語言模型的演進(jìn)與參數(shù)量、訓(xùn)練數(shù)據(jù)量的指數(shù)級增長,帶動AI服務(wù)器需求量快速上漲。 AI邁入大模型時代,參數(shù)量過千億 資料來源:浙商證券 根據(jù)GTC2023,DGX配有8個H100GPU模組,H100配有Transformer引擎,旨在支持類似ChatGPT的大模型。這8個H100模組通過NVLINKSwitch彼此相連,以實現(xiàn)全面無阻塞通信。8個H100協(xié)同工作,形成一個巨型GPU。通過400Gbps超低延遲的NVIDIAQuantumInfiniBand進(jìn)行網(wǎng)絡(luò)內(nèi)計算,將成千上萬個DGX節(jié)點連接成一臺AI超級計算機(jī),并不斷擴(kuò)展應(yīng)用范圍,成為全球客戶構(gòu)建AI基礎(chǔ)設(shè)施的藍(lán)圖。
NVIDIA DGXH 100 超級計算機(jī)結(jié)構(gòu) 資料來源:GTC2023 根據(jù)英偉達(dá)測算,要完成一次10000億參數(shù)大語言模型的訓(xùn)練,使用4096顆A100 GPU約需4周時間,使用4096顆H100GPU約需1周時間。按每臺服務(wù)器配備8顆H100GPU計算,則完成一次萬億參數(shù)的大語言模型訓(xùn)練需約500臺服務(wù)器,配備8個H100GPU的服務(wù)器價格約為40萬美元,則單個大語言模型訓(xùn)練驅(qū)動AI訓(xùn)練服務(wù)器約2億美元需求。 從下游需求看,ChatGPT、文心一言等AIGC大模型帶來計算資源需求井噴,催生AI服務(wù)器需求快速增長。據(jù)IDC數(shù)據(jù),2021年全球AI服務(wù)器市場規(guī)模156億美元,預(yù)計到2025年全球AI服務(wù)器市場將達(dá)到318億美元,21-25CAGR為19.5%;2021年中國AI服務(wù)器市場規(guī)模達(dá)52億美元,預(yù)計2025年中國AI服務(wù)器市場規(guī)模將達(dá)到105億元,2021-2025年的CAGR為19.0%。按照中高端服務(wù)器GPU占比35%-60%測算,則2025年全球AI服務(wù)器GPU芯片規(guī)模不低于111億美元。
資料來源:IDC
下游客戶看,2022年AI服務(wù)器采購量中,北美四大云端供應(yīng)商微軟、谷歌、Meta、亞馬遜合計占比約66%,而中國近年來AI建設(shè)浪潮持續(xù)升溫,字節(jié)跳動年采購占比達(dá)6.2%,騰訊、阿里巴巴、百度緊接其后,分別約為2.3%、1.5%與1.5%。 資料來源:IDC 近期,隨著市場熱度及終端需求飆升,英偉達(dá)最新的顯卡H100芯片在美國電商平臺eBay上的售價已經(jīng)超過4萬美元,甚至有些賣家標(biāo)價高達(dá)6.5萬美元。短期來看,作為服務(wù)器GPU領(lǐng)導(dǎo)者,英偉達(dá)將直接受益于AIGC大熱帶來的核心算力硬件性能需求提升。 資料來源:英偉達(dá)、芯八哥整理
AI訓(xùn)練芯片競爭格局
從全球市場來看,英偉達(dá)和AMD為AI訓(xùn)練GPU芯片領(lǐng)域代表性廠商,二者占據(jù)市場絕大部分份額,Intel和谷歌為代表競爭對手仍處于早期階段。 資料來源:IDC 具體而言,目前AI訓(xùn)練市場主要采用英偉達(dá)V100/A100/H100芯片,以及AMD推出的AI訓(xùn)練芯片包括MI250/250X/300等。 資料來源:芯八哥整理 中國市場方面,英偉達(dá)占比超過92%,呈現(xiàn)出“一家獨大”,但以寒武紀(jì)及華為海思為代表的國產(chǎn)廠商取得了一定突破。 資料來源:IDC 具體來看,近年來國內(nèi)AI訓(xùn)練芯片進(jìn)展較快,但與英偉達(dá)在性能和生態(tài)有一定差距。以云邃T20產(chǎn)品為例,其32位單精度浮點性能達(dá)32TFLOPS,高于A100的19.5TFLOPS,且在功耗上更具優(yōu)勢,但內(nèi)存寬帶不足A100的1/3,在應(yīng)對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的帶寬需求上仍有差距。寒武紀(jì)去年年底推出思元590系列可能在部分模型上由于其ASIC專用性表現(xiàn)出更優(yōu)異的性能,但仍需要后期適配和技術(shù)支持。 資料來源:各公司官網(wǎng)、芯八哥整理
H100對產(chǎn)業(yè)格局的影響分析
當(dāng)前,AI正在成為這個時代最具影響力的技術(shù)力量,各類 AI+應(yīng)用即將落地,像ChatGPT對話機(jī)器人,以及特斯拉即將自動駕駛中引入AI學(xué)習(xí)框架,傳統(tǒng)應(yīng)用在引入AI后將迎來巨變。可以看到,英偉達(dá)發(fā)布H100后,逐漸完成了由 GPU 顯卡供應(yīng)商向軟硬件一體 AI 解決方案供應(yīng)商的轉(zhuǎn)變后,形成了競爭對手難以企及的平臺化優(yōu)勢。 具體來看,其相對于競爭對手而言,對于產(chǎn)業(yè)格局的影響力在于: (1)硬件端產(chǎn)品布局齊全且性能突出,公司在數(shù)據(jù)中心業(yè)務(wù)中完成CPU+DPU+GPU的組合布局。數(shù)據(jù)中心GPU市占率遙遙領(lǐng)先,H100、A100等高端訓(xùn)練卡供不應(yīng)求,且性能大幅度領(lǐng)先競爭對手AMD的同代產(chǎn)品,而英特爾仍處于起步階段。 (2)軟件端前瞻布局,競爭對手稀少。CUDA平臺是目前最適合深度學(xué)習(xí)、AI訓(xùn)練的GPU架構(gòu)。主要競爭對手AMD的ROCm平臺在用戶生態(tài)和性能優(yōu)化上還存在差距。其本身豐富的工具、領(lǐng)先的技術(shù)疊加沒有競爭對手的先發(fā)優(yōu)勢將持續(xù)鞏固公司在元宇宙以及數(shù)字工業(yè)領(lǐng)域的優(yōu)勢。 短期內(nèi),AIGC產(chǎn)品與應(yīng)用的步落地催生了巨大的算力需求,英偉達(dá)將直接受益于AIGC大熱帶來的核心算力硬件性能需求提升,H100為代表的業(yè)務(wù)有望迎來量價齊升。 長期來看,以H100為代表的軟硬件結(jié)合的平臺化布局隨著未來AI應(yīng)用范圍的深入和拓展,英偉達(dá)有望成為平臺化布局的最大受益者。
