都說算力才是大模型的基礎(chǔ),那什么樣的算力芯片才是“順應(yīng)”潮流?
自去年年底大模型“熱潮”席卷而來,半導(dǎo)體業(yè)內(nèi)對于大模型需要什么樣的硬件的問題眾說紛紜。當(dāng)前國內(nèi)外大模型的數(shù)量已發(fā)展到以百千計(jì),大模型參數(shù)量也發(fā)展到千億級。在這種趨勢下,算力芯片究竟該如何適應(yīng)大模型不斷增長的算力需求?
從集群的角度看問題:提高帶寬與存儲
“大模型時(shí)代,從單卡效率看問題的視角已經(jīng)落伍了,對硬件設(shè)備的審視要更多地從集群的角度去看?!?燧原科技產(chǎn)品市場總經(jīng)理高平在接受《中國電子報(bào)》采訪時(shí)說道。
在當(dāng)前計(jì)算機(jī)采用的馮·諾依曼的體系架構(gòu)下,計(jì)算和存儲是分離的。一項(xiàng)任務(wù)的完成,既需要高算力,又需要大存儲量和高效互聯(lián)作為支持。長期以來,廠商對于處理器效率提升的關(guān)注點(diǎn)都放在算力上。而大模型訓(xùn)練,動輒需要上千張甚至上萬張算力芯片組成的集群。這使得原本沒有特別受到重視的存儲量和帶寬一下子成為制約集群效率的瓶頸,也成為各廠商最為關(guān)注的技術(shù)指標(biāo)。
沐曦集成電路(上海)有限公司聯(lián)合創(chuàng)始人、CMO孫爾俊在接受《中國電子報(bào)》記者采訪時(shí)表示,大模型需要緩存上千億的參數(shù)量,單個(gè)芯片的存儲量越大,整個(gè)集群所需要的芯片數(shù)量就越少,片間花費(fèi)的傳輸時(shí)間就相應(yīng)地會更低,從而更有利于提高整個(gè)集群的計(jì)算效率。這意味著,如果單卡存儲容量不夠,原本用1000張卡就能完成加速的工作,需要擴(kuò)展到更多的芯片上完成,卡間互聯(lián)所需要的時(shí)間會被拉長,整個(gè)系統(tǒng)的效率也由此降低。
片間帶寬是另一個(gè)備受關(guān)注的指標(biāo)。芯片存儲量和片間互聯(lián)帶寬,就像是支撐大模型硬件基礎(chǔ)的一體兩面。如果把大模型訓(xùn)練比作貨物運(yùn)輸?shù)倪^程,存儲量就像是每輛卡車的裝載量,而帶寬就像是高速公路的并行車道數(shù)。二者共同決定了整個(gè)訓(xùn)練任務(wù)多久才能完成。
由此,如何提高算力芯片的單片存儲和片間帶寬,成為算力芯片廠商需要考慮的問題。
在提高芯片存儲量方面,業(yè)界采取的依然是提升晶體管密度和加大存儲面積兩種思路。一方面采用更先進(jìn)的工藝,另一方面采用3D封裝,將存儲貼在芯片上。
相比之下,帶寬提升更困難一些。高平表示:“帶寬提升在很長時(shí)間內(nèi)都是芯片設(shè)計(jì)領(lǐng)域的難點(diǎn)。相比于算力成倍數(shù)的提升,帶寬的提升一直不大。工藝功耗等因素限制了數(shù)據(jù)傳輸?shù)臅r(shí)鐘頻率,成本與芯片面積限制了傳輸?shù)耐ǖ罃?shù)量?!币虼耍瑯I(yè)界出現(xiàn)了許多另辟蹊徑的討論,例如通過使存儲與計(jì)算模塊靠得更近以縮短傳輸距離,或者采取改變計(jì)算與存儲排列方式的存算一體的架構(gòu)等。
天數(shù)智芯副總裁鄒翾分享了天數(shù)的經(jīng)驗(yàn)——通過優(yōu)化算法、片間通訊協(xié)議和通訊物理層來系統(tǒng)化的緩解帶寬瓶頸:“流行的大模型算法在硬件工程化中還有很多的調(diào)優(yōu)空間,框架層有多種拓?fù)浣Y(jié)構(gòu)可以平衡單點(diǎn)計(jì)算與傳輸速度,有效降低帶寬需求;互聯(lián)技術(shù)方面,我們在協(xié)議層也采用了私有的協(xié)議,可以提高有效數(shù)據(jù)傳輸?shù)男?;在物理層未來可供選擇的非電技術(shù)也有進(jìn)一步提升帶寬的空間?!彼€提到,未來應(yīng)用的性能需要在系統(tǒng)架構(gòu)上優(yōu)化。一來大模型的工作負(fù)載可以結(jié)合節(jié)點(diǎn)配置的情況和傳輸能力進(jìn)行調(diào)整,二來傳輸方式可以不僅限于電互聯(lián),還可以利用光互聯(lián)等其他技術(shù)。軟硬件系統(tǒng)級聯(lián)合調(diào)優(yōu)還有很大的空間,可以進(jìn)一步壓縮對于芯片硬件帶寬的需求。
提升“軟”實(shí)力:優(yōu)化工具與云服務(wù)
“對于很多客戶來說,硬件就是個(gè)黑盒子,他們并不關(guān)心芯片內(nèi)部的架構(gòu)是什么樣的。他們直接接觸的,是產(chǎn)品的軟件。”一位算力芯片領(lǐng)域資深專家告訴《中國電子報(bào)》記者,“與全球算力芯片領(lǐng)軍企業(yè)相比,算力芯片的后起之秀們在硬件上實(shí)現(xiàn)趕超相對容易,軟件反而是短板?!?/span>
“好用”,是大模型對算力芯片軟件棧最基礎(chǔ)的要求。
這個(gè)要求在大模型出現(xiàn)之前便已經(jīng)存在。大模型的“遍地開花”對于軟件的要求并沒有根本性的變化,仍需要相適配的軟件持續(xù)調(diào)優(yōu)。
軟件的優(yōu)化,最需要客戶與算力芯片企業(yè)的協(xié)同。作為算力芯片軟件配套方面的“老大哥”,英偉達(dá)CUDA的制勝秘訣,就是擁有相當(dāng)數(shù)量的客戶群體,并充分了解客戶需求。通過與客戶溝通,持續(xù)進(jìn)行軟件調(diào)優(yōu),使產(chǎn)品更好用、更易用。
而對于國內(nèi)算力芯片企業(yè)而言,不少企業(yè)接到的單個(gè)訂單量比較大,足夠維持企業(yè)的正常運(yùn)轉(zhuǎn),但客戶數(shù)量較少,這對于發(fā)展企業(yè)自己的軟件棧并不是一件好事?!皬能浖慕嵌葋碚f,一個(gè)客戶無論買100張卡還是買10張卡,能夠給我們帶來的反饋是一樣的。我們希望有更多的企業(yè)給我們具體的反饋,這樣軟件迭代優(yōu)化的速度也會更快?!?某算力芯片企業(yè)表示。
能不能做得像英偉達(dá)CUDA一樣?這是算力芯片企業(yè)最常被問到的問題。
對于獨(dú)立開發(fā)軟件的企業(yè)而言,由于客戶已經(jīng)形成了使用CUDA的習(xí)慣,為了幫助客戶盡快適應(yīng)從CUDA軟件向新環(huán)境的遷移,在自研軟件的界面設(shè)計(jì)上,會主動選擇貼合客戶使用習(xí)慣的設(shè)計(jì),從而幫助客戶更輕松地完成遷移。
“加大在軟件上的投入,已經(jīng)是一個(gè)共識。幾乎所有AI芯片公司軟件團(tuán)隊(duì)一定比硬件團(tuán)隊(duì)人更多、投入更大。芯片公司越來越像軟件公司,將研發(fā)的重點(diǎn)放在軟件棧上面?!睒I(yè)界專家表示。
此外,提供云服務(wù)也是算力芯片企業(yè)提升影響力、拓展客戶面的重要實(shí)現(xiàn)方式。成本低是云服務(wù)的核心優(yōu)勢。對于一些初創(chuàng)企業(yè)或者是規(guī)模較小的團(tuán)隊(duì)而言,購買算力芯片需要的成本較高,而通過云租賃的方式獲得算力資源,可以以較低的成本緩解算力不足的問題。當(dāng)前,谷歌、英偉達(dá)、阿里云、金山云等都已經(jīng)具備為大模型提供云端算力的能力。
大算力芯片的核心能力:通用、通用,還是通用
1、系統(tǒng)越來越大,對通用靈活性的要求遠(yuǎn)高于對性能的要求
在云和邊緣數(shù)據(jù)中心,都是清一色的服務(wù)器。這些服務(wù)器,可以服務(wù)各行各業(yè)、各種不同類型的場景的服務(wù)端工作任務(wù)的處理。CSP每年投入數(shù)以億計(jì)資金,上架數(shù)以萬計(jì)的各種型號、各種配置的服務(wù)器的時(shí)候,嚴(yán)格來說,它并不知道,具體的某臺服務(wù)器最終會售賣給哪個(gè)用戶,這個(gè)用戶到底會在服務(wù)器上面跑什么應(yīng)用。并且,未來,這個(gè)用戶的服務(wù)器資源回收之后再賣個(gè)下一個(gè)用戶,下一個(gè)用戶又用來干什么,也是不知道的。因此,對CSP來說,最理想的狀態(tài)是,存在一種服務(wù)器,足夠通用,即不管是哪種用戶哪種應(yīng)用運(yùn)行其上,都足夠高效快捷并且低成本。只有這樣,系統(tǒng)才夠簡單而穩(wěn)定,運(yùn)維才能簡單并且高效。然后要做的,就是把這種服務(wù)器大規(guī)模復(fù)制(大規(guī)模復(fù)制意味著單服務(wù)器成本的更快速下降)。
云和邊緣服務(wù)器場景,對系統(tǒng)的靈活性的要求遠(yuǎn)高于對性能的要求,需要提供的是綜合性的通用解決方案。最直接的例子就是以CPU為核心的服務(wù)器:CPU通用靈活性是最好的,如果CPU的性能夠用,大家絕對不喜歡用各種加速;如今是CPU性能不夠,逼迫著大家不得不去使用各種硬件加速。
數(shù)據(jù)中心硬件加速最大的教訓(xùn)是:在提升性能的同時(shí),最好不要損失系統(tǒng)的靈活性。其言下之意就是:目前各類加速芯片的優(yōu)化方案損失了靈活性,從而使得芯片的落地很困難。這是目前全行業(yè)的痛點(diǎn)所在。
2、集群計(jì)算,對芯片的彈性可擴(kuò)展能力提出了更高的要求
傳統(tǒng)的情況下,一個(gè)芯片對應(yīng)一個(gè)系統(tǒng)。我們關(guān)注業(yè)務(wù)常見的需求,并把它實(shí)現(xiàn)在芯片的功能和特征里。但在集群計(jì)算,特別是目前云網(wǎng)邊端不斷融合的超大集群計(jì)算形式下,則需要關(guān)注的是“以不變應(yīng)萬變”,即足夠通用的、數(shù)以萬計(jì)的計(jì)算設(shè)備組成的大規(guī)模計(jì)算集群,如何去覆蓋數(shù)以百萬計(jì)的眾多計(jì)算場景的問題。
這樣,對芯片內(nèi)的資源彈性和芯片的可擴(kuò)展性就提出了很高的要求,我們需要把數(shù)以萬計(jì)的計(jì)算芯片的計(jì)算資源合并到一個(gè)計(jì)算資源池,然后還可以非常方便的快速切分和重組,供不同規(guī)格計(jì)算任務(wù)的使用。
3、芯片研發(fā)成本越來越高,需要芯片的大規(guī)模落地,來攤薄研發(fā)成本
摩爾定律預(yù)示了:芯片工藝的發(fā)展,會使得晶體管數(shù)量大約每兩年提升一倍。雖然工藝的進(jìn)步逐步進(jìn)入瓶頸,但Chiplet越來越成為行業(yè)發(fā)展的重點(diǎn),這使得芯片的晶體管數(shù)量可以再一次數(shù)量級的提升。
在先進(jìn)工藝的設(shè)計(jì)成本方面,知名半導(dǎo)體研究機(jī)構(gòu)Semiengingeering統(tǒng)計(jì)了不同工藝下芯片所需費(fèi)用(費(fèi)用包括了):
28nm節(jié)點(diǎn)開發(fā)芯片只需要5130萬美元;
16nm節(jié)點(diǎn)則需要1億美元;
7nm節(jié)點(diǎn)需要2.97億美元;
到了5nm節(jié)點(diǎn),費(fèi)用高達(dá)5.42億美元;
3nm節(jié)點(diǎn)的研發(fā)費(fèi)用,預(yù)計(jì)將接近10億美元。
就意味著,大芯片需要足夠通用,足夠大范圍落地,才能在商業(yè)邏輯上成立。做一個(gè)保守的估算:
終端場景,(大)芯片的銷售量至少需要達(dá)到數(shù)千萬級才能有效攤薄一次性的研發(fā)成本;
在數(shù)據(jù)中心場景,則需要50萬甚至100萬以上的銷售量,才能有效攤薄研發(fā)成本。
最后
全新的AI時(shí)代正呼嘯而來,海量數(shù)據(jù)洪流和大模型應(yīng)用需求爆發(fā)將繼續(xù)拉動算力規(guī)模成倍增長。
盡管目前主流的算力方案仍是英偉達(dá)一騎絕塵,但從長遠(yuǎn)計(jì),我國通用GPU企業(yè)大有可為。對算力需求的激增提供了一個(gè)巨大市場,此時(shí)國外計(jì)算芯片供應(yīng)緊張和出口限制,又將為國內(nèi)芯片公司提供更多的機(jī)會。
這對于國產(chǎn)芯努力構(gòu)建自主創(chuàng)新架構(gòu)、滿足市場對性價(jià)比和能效比的多元需求,無疑是一個(gè)極佳的時(shí)間窗口。誰能率先拿出完善的國產(chǎn)化替代方案,誰便能從龐大的AI算力市場分一杯羹。
