AMD叫板英偉達(dá)為何吃力不討好?國產(chǎn)GPU不能只看算力
近日,芯片巨頭AMD推出全新AI GPU MI300系列芯片,與英偉達(dá)在AI 算力市場展開競爭。
AMD首席執(zhí)行官蘇姿豐介紹稱,MI300X提供的高帶寬內(nèi)存(HBM)密度是英偉達(dá)H100的2.4倍,HBM帶寬是競品的1.6倍。華爾街分析師也普遍認(rèn)為,AMD的這款芯片將對目前掌握AI芯片市場逾八成份額的英偉達(dá)構(gòu)成有力挑戰(zhàn),這款MI300X加速器,有望替代英偉達(dá)的同類產(chǎn)品。
然而,市場對本次新品的反響似乎并不熱烈。截至隔夜收盤,AMD股價下跌超3.6%,被挑戰(zhàn)的英偉達(dá)不跌反漲,股價單日大漲3.90%。
躥紅的英偉達(dá)
2022年ChatGPT橫空出世,把AI 行業(yè)的發(fā)展推向了一個新的高潮,生成式 AI 需要基于海量的數(shù)據(jù)進(jìn)行推理訓(xùn)練,高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著AI的東風(fēng),英偉達(dá)坐上了“算力霸主”的寶座。
據(jù)悉,微軟用幾億美元,耗費(fèi)上萬張英偉達(dá)A100芯片打造超算平臺,只為給ChatGPT和新版必應(yīng)提供更好的算力。不僅如此,微軟還在Azure的60多個數(shù)據(jù)中心部署了幾十萬張GPU,用于ChatGPT的推理。特斯拉CEO馬斯克也購買了約1萬個GPU,用于公司的兩個數(shù)據(jù)中心之一。除此之外,像亞馬遜、阿里、百度等眾多科技公司都在競相部署AI芯片。
供需的極度不平衡讓英偉達(dá)的GPU一芯難求,開啟漲價。據(jù)市場消息人士透露,英偉達(dá)的A100和H100 AI GPU訂單還在不斷增加,A800和H800的售價已上漲40%,新訂單交期可能要延長到12月份。
在炙手可熱的AI浪潮下,英偉達(dá)賺得盆滿缽滿。英偉達(dá)表示,其截至 7 月的本季度銷售額預(yù)計將達(dá) 110 億美元,較華爾街之前的估計高出 50%以上。不過,作為AI的基礎(chǔ)設(shè)施,算力芯片環(huán)節(jié)的“一家獨(dú)大”顯然不是有利于行業(yè)長遠(yuǎn)發(fā)展的生態(tài),市場迫切需要引入新的競爭者,AMD的出現(xiàn)或許有望“分擔(dān)”AI市場的壓力。
AMD叫板英偉達(dá)
MI300是AMD發(fā)布的第一款數(shù)據(jù)中心、高性能計算機(jī)群(HPC)級的APU,采用與英偉達(dá)Grace Hopper相同的CPU+GPU架構(gòu),但是硬件參數(shù)更高。
MI300在CPU部分集成了24個ZEN4內(nèi)核,GPU部分集成了6塊使用CDNA3架構(gòu)的芯片,擁有1460億個晶體管,比英特爾GPU Ponte Vecchio多460億個晶體管,比英偉達(dá)H100多660億個晶體管,而且MI300的統(tǒng)一內(nèi)存可降低不同內(nèi)存間來回復(fù)制、同步和轉(zhuǎn)換數(shù)據(jù)所導(dǎo)致的編程復(fù)雜性。
封裝工藝方面,MI300使用最近爆火的3D Chiplet封裝技術(shù),而GH200則使用CoWoS(2.5D)封裝,3D對比2.5D的優(yōu)勢在于性能更高、延遲和功耗更低。
從硬件參數(shù)上來看,AMD MI300已經(jīng)具備和英偉達(dá)叫板的能力,但顯卡領(lǐng)域完善軟件生態(tài)比堆硬件參數(shù)更難,AMD的軟件生態(tài)能否貼合人工智能行業(yè)的市場需求,是MI300能否搶走英偉達(dá)既有市場的重要影響因素。
英偉達(dá)壟斷人工智能訓(xùn)練芯片市場的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達(dá),首先需要兼容英偉達(dá)的CUDA生態(tài),AMD為此推出ROCm生態(tài)圈,并實現(xiàn)通過HIP完全兼容CUDA。
作為AMD的GPU軟件開發(fā)框架,HIP對應(yīng)的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代碼轉(zhuǎn)換,轉(zhuǎn)碼后可在AMD GPU上編譯運(yùn)行,基于HIP開發(fā)的應(yīng)用也可用于AMD和英偉達(dá)的GPU上。
在此背景下,同一個數(shù)據(jù)中心內(nèi),理論上可以同時使用AMD和英偉達(dá)的GPU,但不同公司的GPU產(chǎn)品對數(shù)據(jù)精度的標(biāo)準(zhǔn)和計算方法及順序配置不同,混合使用GPU難免會導(dǎo)致計算精度缺失等問題,直接影響模型訓(xùn)練效果。
而且從技術(shù)層面來看,兼容意味著被動、落后,因為CUDA每一次升級,ROCm都需要做出對應(yīng)升級,技術(shù)團(tuán)隊無法將所有精力用于ROCm生態(tài)圈的迭代上,應(yīng)用場景和使用體驗都會落后于英偉達(dá)。
回顧二者發(fā)展歷程,英偉達(dá)2007年發(fā)布CUDA,AMD2016年才發(fā)布ROCm,前者自問世起就支持Linux、Windows多平臺,后者則長期只能支持Linux系統(tǒng),且不支持部分Linux的更新,并于今年4月才登錄Windows平臺。
同樣是今年4月,AMD剛解決消費(fèi)級產(chǎn)品與ROCm的適配,此前僅支持AMD高端GPU,限制了市場份額的提升。最后就是由于切入時間更晚,AMD開發(fā)者數(shù)量遠(yuǎn)低于英偉達(dá)的400萬。
對比CUDA和ROCm的開發(fā)活躍度,在全球最大的開發(fā)者社區(qū)之一StackOverflow中,“CUDA”的標(biāo)簽下有超過14000個問題討論,而ROCm在“amd-rocm”的標(biāo)簽下只有不到100個問題討論。在Github上,貢獻(xiàn)CUDA軟件包倉庫的開發(fā)者超過32600位,而ROCm只有不到600個。
為改變這種被動局面,AMD也在積極豐富其軟件生態(tài)。雖然目前僅有部分SKU支持Windows系統(tǒng),但主流Radeon顯卡用戶可以開始試用過去僅專業(yè)顯卡才能使用的AMD ROCm(5.6.0Alpha)。
今年1季度,AMD宣布ROCm系統(tǒng)融入PyTorch2.0框架,目前TensorFlow和Caffe深度學(xué)習(xí)框架也已加入第五代ROCm。
故此,從軟件生態(tài)方面來看,現(xiàn)有的AMD MI300還不足以威脅英偉達(dá)的市場份額,想撼動英偉達(dá)在人工智能行業(yè)的地位,AMD還需時間。
國產(chǎn)GPU迎來發(fā)展黃金期
龐大的市場需求和歐美的芯片封鎖,迫使得國產(chǎn)GPU被推到了聚光燈下,迎來了絕佳的發(fā)展期。有業(yè)內(nèi)人士稱:“國產(chǎn)GPU在信創(chuàng)方面已經(jīng)實現(xiàn)逐步替代,AI&數(shù)據(jù)中心、智能汽車、游戲等應(yīng)用領(lǐng)域的國產(chǎn)GPU需求量也有極大的提升,國產(chǎn)GPU迎來發(fā)展黃金期,我們看好國產(chǎn)GPU公司的發(fā)展與投資機(jī)遇?!?/span>
近日,國內(nèi)多個GPU廠商,從老牌的景嘉微,到初創(chuàng)的沐曦,都順應(yīng)市場需求,相繼推出了各自在GPU領(lǐng)域的最新拳頭產(chǎn)品。
中天恒星:6月15日在北京發(fā)布國產(chǎn)自主GPU架構(gòu)“天狼星”,擁有完全自主知識產(chǎn)權(quán),自研核心架構(gòu)確保產(chǎn)品迭代自主可控,同時擁有完備的交付能力,并已實現(xiàn)量產(chǎn)。
景嘉微:成功研發(fā)JM54 系列、JM72 系列、JM92 系列三代 GPU 產(chǎn)品。應(yīng)用于臺式機(jī)、筆記本、一體機(jī)、服務(wù)器、工控機(jī)、自助終端等設(shè)備。
天數(shù)智芯:6月10日發(fā)布天垓100加速卡的算力集群,已經(jīng)具備支持百億級參數(shù)大模型訓(xùn)練的能力。是國內(nèi)第一款全自研、GPU 架構(gòu)下的云端訓(xùn)練芯片,實現(xiàn)了我國通用GPU從0到1的重大突破。
芯動科技:芯動發(fā)布的“風(fēng)華 2 號”是一款集超低功耗、強(qiáng)渲染、4K 高清三屏顯示、4K 視頻解碼及智能 AI 計算于一體的桌面和筆記本 GPU,實現(xiàn)了多個自研技術(shù)的創(chuàng)新突破。
摩爾線程:基于MUSA架構(gòu)打造了兩顆全功能GPU芯片“蘇堤”和“春曉”;面向信創(chuàng)市場推出了桌面級顯卡MTT S10、MTT S30和MTT S50。
沐曦:6 月 14 日宣布曦云系列的最新產(chǎn)品MXC500成功點亮,產(chǎn)品直接對標(biāo)英偉達(dá) A100,采用通用 GPU 架構(gòu),兼容 CUDA。
盡管國產(chǎn)GPU的推出步伐不斷加快,其中也不乏一些對標(biāo)國際高端GPU的產(chǎn)品,但不得不承認(rèn),國產(chǎn)GPU要走向真正成熟可靠,實現(xiàn)完全國產(chǎn)替代還有很長的距離。
國產(chǎn)GPU整個商業(yè)生態(tài)尚未成熟
在芯片“斷供”之前,國內(nèi)購買海外高端GPU芯片之路暢通,很少有客戶在重大項目采購時會考慮國產(chǎn)GPU,都普遍傾向海外最先進(jìn)、最穩(wěn)定的產(chǎn)品,以保證項目順利完成。究其原因有二,一是畢竟國產(chǎn)GPU的發(fā)展才剛剛起步,在性能和穩(wěn)定性方面尚未取得長時間,多項目的驗證,不少國產(chǎn)GPU在實際應(yīng)用中出現(xiàn)了工作負(fù)載低,芯片性能不穩(wěn)定,兼容性差的情況。二是軟件生態(tài)不夠完善,如果一個芯片沒有與之配套的軟件生態(tài),則很難真正形成大面積的應(yīng)用。
在當(dāng)下GPU應(yīng)用最火的AI大模型訓(xùn)練中,騰訊云新一代HCC(High-Performance Computing Cluster)高性能計算集群使用的是英偉達(dá)最新代次H800 GPU;阿里曾在 2018-2019 年采購了上萬塊英偉達(dá)的V100和T4 GPU用于近年來的云計算和大模型訓(xùn)練,其他字節(jié)、百度、美團(tuán)、B站等都清一色采購英偉達(dá)的A100、H100 GPU或是去年禁令后英偉達(dá)專門推出的減配版 A800、H800 GPU。
這使得國產(chǎn)GPU在國內(nèi)鮮有大企業(yè)應(yīng)用成功的案例,大部分還僅僅圍繞在PC、圖形渲染領(lǐng)域,或是應(yīng)用在專門的軍事、政府等部門。商業(yè)市場的大門,只是開了一條縫。
另外,國產(chǎn)GPU廠商的硬件架構(gòu),軟件API接口不盡相同,客戶基本只能多選一,兼容和替換都不夠靈活,比較難實現(xiàn)技術(shù)生態(tài)的統(tǒng)一。
只靠算力,無法做英偉達(dá)的PlanB
英偉達(dá)的強(qiáng)不只是體現(xiàn)在硬件產(chǎn)品上,在軟件平臺中,英偉達(dá)也有自己的護(hù)城河。
CUDA就是英偉達(dá)推出的基于GPU的并行計算平臺和編程模型,可以用來加速大規(guī)模數(shù)據(jù)并行計算,使得GPU可以用于更加廣泛的科學(xué)計算和工程計算等領(lǐng)域。CUDA的良好生態(tài)系統(tǒng)吸引了眾多學(xué)術(shù)機(jī)構(gòu)和高性能計算中心的關(guān)注和使用,也為英偉達(dá)提供了強(qiáng)有力的市場競爭優(yōu)勢?,F(xiàn)在AMD也在做同樣的事情,只是英偉達(dá)已經(jīng)占了先發(fā)優(yōu)勢,AMD搭建起來可能會更為艱難。
CUDA的重要性不言而喻,但是提供CUDA兼容層,需要廠商具備足夠的研發(fā)實力,上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司,因此是否兼容CUDA也成為衡量AI芯片公司的標(biāo)的之一。
至于是否一定要兼容CUDA,業(yè)界有著不同見解。專家稱,在小模型上CUDA仍然很重要,但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主,那CUDA還是有很大的影響力,而如果是以大模型為主,對于CUDA的依賴就越來越小了。
總而言之,重視軟件配適開發(fā)至關(guān)重要。
對于建立國產(chǎn)IT系統(tǒng)的行動建議包括:設(shè)置合理國產(chǎn)系統(tǒng)及芯片性能要求和驗證目的,從非關(guān)鍵應(yīng)用開始嘗試導(dǎo)入部分國產(chǎn)芯片;加強(qiáng)軟件配適開發(fā),確保軟件對不同系統(tǒng)的兼容性、穩(wěn)定性和運(yùn)營性能;建立加強(qiáng)對國內(nèi)基礎(chǔ)IT軟硬件廠商的投資,確保廠商對產(chǎn)品開發(fā)計劃的影響力;優(yōu)先考慮國內(nèi)供應(yīng)鏈和成熟平臺,積極采用半導(dǎo)體創(chuàng)新技術(shù)。
