行業(yè)巨頭都在打造靠異構(gòu)算力,這種架構(gòu)已經(jīng)“搶跑”
根據(jù)IDC的預(yù)測(cè),到2023年,中國(guó)的人工智能芯片出貨量將達(dá)到133.5萬(wàn)片,同比增長(zhǎng)22.5%。這一預(yù)測(cè)得到了11月29日在北京舉行的2023人工智能計(jì)算大會(huì)的證實(shí)。
會(huì)上,與大模型和生成式人工智能的發(fā)展相關(guān)的智能算力市場(chǎng)的增長(zhǎng)被強(qiáng)調(diào),智能算力規(guī)模增速快于通用算力,預(yù)計(jì)2022年至2027年中國(guó)智能算力規(guī)模年均復(fù)合增長(zhǎng)率將達(dá)到33.9%,而同期通用算力規(guī)模年均復(fù)合增長(zhǎng)率僅為16.6%。 業(yè)內(nèi)人士指出,打造異構(gòu)算力、建立開(kāi)放生態(tài)、突破高性能算力瓶頸已成為共識(shí)。目前,許多大模型企業(yè)都愿意主動(dòng)適配國(guó)產(chǎn)芯片,這將為國(guó)產(chǎn)芯片帶來(lái)新的發(fā)展機(jī)遇。
“通用”與“專用”相向而行
從20世紀(jì)60年代的字符終端時(shí)代到如今的智能計(jì)算時(shí)代,數(shù)據(jù)的量和質(zhì)都發(fā)生了顯著的變化。以文本、圖表為主的結(jié)構(gòu)化數(shù)據(jù)比例不斷下降,融媒體數(shù)據(jù)、實(shí)時(shí)處理的傳感級(jí)數(shù)據(jù)等非結(jié)構(gòu)數(shù)據(jù),以及深度學(xué)習(xí)的元數(shù)據(jù)的持續(xù)激增,將越來(lái)越多種類、精度的數(shù)據(jù)以更快的速度進(jìn)行傳輸和處理,并成為智能計(jì)算的剛需。
作為通用處理器的代表型廠商,英特爾已經(jīng)將異構(gòu)計(jì)算作為應(yīng)對(duì)AI時(shí)代算力挑戰(zhàn)的關(guān)鍵戰(zhàn)略。如果將數(shù)據(jù)看作食材,CPU就相當(dāng)于“瑞士軍刀”,適用于一切食材,卻不一定能將所有食材處理得又快又好。GPU、FPGA、DSP等專用處理器的加入,讓計(jì)算架構(gòu)能更有效地應(yīng)對(duì)場(chǎng)景化數(shù)據(jù)。
“異構(gòu)計(jì)算的產(chǎn)業(yè)的基礎(chǔ)是數(shù)據(jù)的爆炸式增長(zhǎng),這其實(shí)是我們發(fā)展異構(gòu)計(jì)算的主要驅(qū)動(dòng)力?!庇⑻貭柤軜?gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清在接受《中國(guó)電子報(bào)》采訪時(shí)指出,“CPU提供的是通用型計(jì)算的能力,解決的問(wèn)題很廣義。但是GPU、FPGA,或者AI加速芯片解決的是特定領(lǐng)域的問(wèn)題。現(xiàn)在很多數(shù)據(jù)的產(chǎn)生都有一定的特點(diǎn),以至于在CPU上的運(yùn)算效果不一定是最理想的,在GPU或者其他并行計(jì)算能力高的芯片上會(huì)跑得更好,這是異構(gòu)計(jì)算的主要驅(qū)動(dòng)力?!?/span>
作為專用處理器廠商,賽靈思從器件向異構(gòu)平臺(tái)的轉(zhuǎn)變也已開(kāi)始。賽靈思大中華區(qū)核心市場(chǎng)業(yè)務(wù)發(fā)展總監(jiān)酆毅向《中國(guó)電子報(bào)》記者指出,智能駕駛正在從ADAS逐漸向全面自動(dòng)駕駛持續(xù)演進(jìn),傳感器數(shù)量的增多勢(shì)必會(huì)帶來(lái)爆炸式的數(shù)據(jù)增長(zhǎng),這就需要汽車具備強(qiáng)大的異構(gòu)計(jì)算平臺(tái)。在工業(yè)視覺(jué)領(lǐng)域,機(jī)器人技術(shù)、工業(yè)PC、I/O的模塊、智能傳感器、人機(jī)界面等都在產(chǎn)生不同類型的數(shù)據(jù)。在專業(yè)音視頻和廣播領(lǐng)域,從內(nèi)容采集到內(nèi)容消費(fèi)的全部過(guò)程也需要遠(yuǎn)程管理不同的服務(wù)器和計(jì)算平臺(tái)。
“單獨(dú)的計(jì)算架構(gòu),無(wú)法滿足越來(lái)越多樣的開(kāi)發(fā)需求,因此,異構(gòu)計(jì)算是未來(lái)的發(fā)展之路?!臂阂阒赋觯鞍殡S工藝的進(jìn)步,F(xiàn)PGA也打破了傳統(tǒng)的應(yīng)用邊界,進(jìn)入到AI、數(shù)據(jù)中心、視頻處理、自動(dòng)駕駛、5G等新興領(lǐng)域中。而FPGA也通過(guò)集成標(biāo)量處理引擎、自適應(yīng)硬件引擎和智能引擎,完成了從器件到異構(gòu)平臺(tái)的轉(zhuǎn)變。”
三大廠商引領(lǐng)異構(gòu)計(jì)算
現(xiàn)在隨著5G、AI、云計(jì)算等新興領(lǐng)域?qū)τ?jì)算量的需求,已經(jīng)超過(guò)了通用CPU的發(fā)展速度,僅通過(guò)提升CPU時(shí)鐘頻率和內(nèi)核數(shù)量而提高計(jì)算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸,所以需要GPU、FPGA、DSP,現(xiàn)在還多了DPU,這些計(jì)算單元去配合CPU進(jìn)行并行計(jì)算,大家分工協(xié)作,“專人干專事”,以此來(lái)很好的滿足這些計(jì)算需求。
而英特爾、AMD、英偉達(dá)三大廠商最近的一些列集中的動(dòng)作更是把異構(gòu)計(jì)算推上了風(fēng)口浪尖:
英特爾CPU+GPU新架構(gòu)Falcon Shores
英特爾在最近的投資者會(huì)議中提出了一個(gè)新架構(gòu)——Falcon Shores。這是一款將X86和Xe GPU 整合到一個(gè)Xeon插槽中的新架構(gòu)。該架構(gòu)將利用英特爾埃米時(shí)代工藝技術(shù)、下一代封裝、英特爾正在開(kāi)發(fā)的新型超帶寬共享內(nèi)存以及領(lǐng)先的I/O技術(shù)。他們預(yù)計(jì),相對(duì)于當(dāng)前平臺(tái),F(xiàn)alcon Shores將提供超過(guò)5倍的每瓦性能、超過(guò)5倍的計(jì)算密度增加以及超過(guò)5倍的內(nèi)存容量和帶寬提升。
英偉達(dá)Grace CPU
2021年4月,英偉達(dá)公布了其首款代號(hào)為Grace的CPU產(chǎn)品,這是專為人工智能和超算使用需求打造的。該產(chǎn)品采用下一代Arm Neoverse內(nèi)核,在NVIDIA放出的設(shè)計(jì)示圖中,Grace CPU是以MCM(Multi-Chip Module,多芯片模組)形式構(gòu)成,包括CPU、GPU、DPU和帶有ECC的LPDDR5x的新型高帶寬內(nèi)存子系統(tǒng),輔以使用 NVLink 通道技術(shù)??梢哉f(shuō)是專為連接英偉達(dá)GPU所設(shè)計(jì)。據(jù)悉,Grace預(yù)計(jì)在2023年發(fā)布。
對(duì)于英偉達(dá)來(lái)說(shuō),Grace CPU的研發(fā)將對(duì)其意義深遠(yuǎn),使其不必完全受制于AMD和英特爾在CPU上的的合作關(guān)系,可以說(shuō)是自立自強(qiáng)的一個(gè)表現(xiàn)。因?yàn)榧词笹PU的并行能力不斷提高,但GPU終究在加速運(yùn)算中扮演資料運(yùn)算,仍需搭配CPU執(zhí)行基本的系統(tǒng),以及由CPU 發(fā)號(hào)運(yùn)算的命令,所以GPU和CPU之間的溝通很重要。而x86架構(gòu)的CPU又受限PCIe頻寬的影響,GPU與CPU之間溝通效率很低,無(wú)法滿足巨量數(shù)據(jù)傳輸處理效率需求,此前英偉達(dá)為了解決這個(gè)問(wèn)題,研發(fā)了高速通道技術(shù)NVLink,但合作伙伴只有較冷門的IBM Power,而市場(chǎng)占有率較大的英特爾和AMD都有自身的加速器,自然也不會(huì)加入英偉達(dá)的支援陣列。
AMD收購(gòu)賽靈思,補(bǔ)齊FPGA產(chǎn)品線
近日AMD完成了對(duì)賽靈思的收購(gòu),AMD的CPU和賽靈思的FPGA,未來(lái)也將走向CPU+FPGA的異構(gòu)整合中。因?yàn)?,這條路英特爾已經(jīng)趟過(guò),收購(gòu)了Altera之后,F(xiàn)PGA產(chǎn)品線在英特爾中發(fā)揮的不錯(cuò),2018 年,英特爾宣布將“Skylake”至強(qiáng)SP處理器 Arria 10 FPGA 混合在一個(gè)封裝中的產(chǎn)品。FPGA在現(xiàn)成CPU 上運(yùn)行的編程語(yǔ)言和用于實(shí)現(xiàn)某些功能或軟件堆棧的定制ASIC之間的邊界仍然具有吸引力。
總之,收購(gòu)賽靈思之后,AMD 設(shè)計(jì)的每個(gè)計(jì)算設(shè)備,無(wú)論是單芯片還是封裝中的Chiplet集合,都可以在 AMD 認(rèn)為合適的時(shí)候添加一些可編程邏輯。
英特爾向GPU擴(kuò)展的動(dòng)作很大,英偉達(dá)研究CPU自立自強(qiáng)的決心也很大,氣勢(shì)正旺的AMD有了FPGA也如虎添翼。隨著三大廠商逐漸補(bǔ)齊產(chǎn)品線,異構(gòu)計(jì)算或?qū)⑦M(jìn)入全面爆發(fā)。未來(lái),異構(gòu)計(jì)算會(huì)越來(lái)越多的取代原來(lái)通用計(jì)算不擅長(zhǎng)的部分。
國(guó)內(nèi)芯片廠商跟進(jìn)
不同于國(guó)際大廠在各方面實(shí)力雄厚,國(guó)內(nèi)廠商難以在短時(shí)間內(nèi)形成如此全的產(chǎn)品線,但是國(guó)產(chǎn)芯片廠商現(xiàn)在已經(jīng)漸漸開(kāi)始選擇通過(guò)投資和合作的方式埋下異構(gòu)的種子。
2021年11月,GPU芯片企業(yè)壁仞科技,與IDG資本、字節(jié)跳動(dòng)等共同參與了國(guó)產(chǎn)DPU初創(chuàng)企業(yè)云脈芯聯(lián)數(shù)億元的天使輪投資。據(jù)壁仞科技創(chuàng)始人、董事長(zhǎng)、CEO張文透露,除了DPU之外,從布局整體計(jì)算產(chǎn)業(yè)出發(fā),壁仞科技正在密切關(guān)注國(guó)產(chǎn)CPU的最新發(fā)展,未來(lái)形成CPU+GPU+DPU的全國(guó)產(chǎn)系統(tǒng)級(jí)解決方案。
日前,DPU芯片廠商云豹智能與AI芯片廠商燧原科技達(dá)成了戰(zhàn)略合作,共同研發(fā)和提供大規(guī)模高性能AI算力平臺(tái)解決方案?;谠票悄茉葡鯠PU和燧原科技云燧T20率先推出了DataDirectPathStorage解決方案,為AI訓(xùn)練儲(chǔ)存訪問(wèn)提供更高效的解決方案。在傳統(tǒng)解決方案中,云燧T20訪問(wèn)存儲(chǔ)時(shí),需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存,再由系統(tǒng)內(nèi)存搬移到目標(biāo)設(shè)備。而基于DataDirectPath Storage技術(shù),云燧T20可通過(guò)DPU直接獲得數(shù)據(jù),從而繞過(guò)系統(tǒng)內(nèi)存和CPU,讓數(shù)據(jù)訪問(wèn)速度更快,訪問(wèn)延遲更短,系統(tǒng)開(kāi)銷更小。
此外,國(guó)內(nèi)還有異構(gòu)處理器IP提供商華夏芯,通過(guò)自主設(shè)計(jì)的Unity統(tǒng)一指令集架構(gòu)和基于此架構(gòu)的CPU、DSP、GPU、AI專用處理器系列IP與SoC,在提升性能價(jià)格比的同時(shí),顯著降低計(jì)算芯片研發(fā)成本和研發(fā)復(fù)雜度,同時(shí)縮短研發(fā)周期,減少開(kāi)發(fā)人員工作量和降低開(kāi)發(fā)門檻。據(jù)悉,華夏芯的Unity和英特爾的OneAPI都是為了簡(jiǎn)化編程環(huán)境,但不同的是,OneAPI是面向不同體系架構(gòu)的統(tǒng)一編程環(huán)境,Unity是面向不同微架構(gòu)的統(tǒng)一體系架構(gòu)和統(tǒng)一編程環(huán)境。
RISC-V架構(gòu)與異構(gòu)計(jì)算相當(dāng)適配
在異構(gòu)計(jì)算的框架下,RISC-V可謂是如有得水,其提供了遠(yuǎn)超x86架構(gòu)和ARM架構(gòu)的靈活性,并因?yàn)槭呛笃鸺軜?gòu),沒(méi)有歷史包袱,創(chuàng)新限制更少,因此RISC-V在異構(gòu)計(jì)算時(shí)代擁有廣闊的應(yīng)用前景。
RISC-V在異構(gòu)計(jì)算領(lǐng)域的發(fā)展前景是極好的,當(dāng)然所面對(duì)的挑戰(zhàn)也不小。我們都知道,對(duì)于RISC-V而言,其在異構(gòu)計(jì)算方面的進(jìn)展和在高性能方面的進(jìn)展是同步,異構(gòu)計(jì)算可以被看作是RISC-V沖擊高性能計(jì)算市場(chǎng)的重要抓手,那么面臨的挑戰(zhàn)其實(shí)和基于RISC-V實(shí)現(xiàn)高性能計(jì)算便較為一致,當(dāng)然也會(huì)有一些挑戰(zhàn)是從異構(gòu)計(jì)算理念出發(fā)的。
實(shí)際上,電子發(fā)燒友網(wǎng)此前的報(bào)道有過(guò)此方面的表述,相關(guān)言論來(lái)自中國(guó)科學(xué)院軟件研究所總工程師武延軍研究員。對(duì)于RISC-V在高性能領(lǐng)域的硬件發(fā)展,他表示,“當(dāng)RISC-V生態(tài)發(fā)展到一定程度后,將不會(huì)再籠統(tǒng)地說(shuō)一個(gè)處理器有多少個(gè)核,主頻多少,算力多少。而是講一個(gè)處理器中有多少種類型的核心,每一個(gè)核心有怎樣的定制能力。這些不同類型的核心集中在一個(gè)平臺(tái)上,能夠滿足豐富的應(yīng)用場(chǎng)景需求。”
很顯然,RISC-V想要在異構(gòu)計(jì)算領(lǐng)域有所作為,產(chǎn)品的豐富度和定制性要能夠完美展現(xiàn),比如目前異構(gòu)計(jì)算延伸出了“XPU”的概念,RISC-V對(duì)此都要進(jìn)行實(shí)現(xiàn)。并且,XPU理念現(xiàn)階段還是以ARM架構(gòu)為主導(dǎo),RISC-V需要先模仿后超越,全面釋放自己的模塊化和靈活性優(yōu)勢(shì)。在此過(guò)程中,基于RISC-V打造的計(jì)算芯片還需要滿足通用標(biāo)準(zhǔn),未來(lái)也主導(dǎo)通用互聯(lián)標(biāo)準(zhǔn)。
武延軍研究員也在軟件層面講到了RISC-V后續(xù)需要強(qiáng)化的點(diǎn),“往高性能去發(fā)展,對(duì)于上面的軟件生態(tài)是一個(gè)非常大的挑戰(zhàn)??梢钥吹侥壳斑€有很多核心的基礎(chǔ)軟件沒(méi)有很好地跑在RISC-V平臺(tái)上。這里可能會(huì)有指令集規(guī)范還不成熟的問(wèn)題,但更多的是這些基礎(chǔ)軟件包之前都是在x86和ARM平臺(tái)上面跑,從維護(hù)者、社區(qū)的角度,還沒(méi)有把RISC-V當(dāng)成Tier-1或者First-Class-Citizen去對(duì)待。這里面有理念問(wèn)題,有投入問(wèn)題,也有商業(yè)利益回報(bào)問(wèn)題。”他對(duì)此講到。
因此,RISC-V做異構(gòu)計(jì)算其實(shí)并不只是單純豐富芯片種類,提升芯片性能,也需要完善軟件生態(tài),這個(gè)難度可能比硬件更大。但無(wú)論前路如何充滿荊棘,異構(gòu)計(jì)算都是RISC-V必須把握好的一個(gè)產(chǎn)業(yè)大趨勢(shì),在處理器架構(gòu)方面,RISC-V要想實(shí)現(xiàn)和x86架構(gòu)以及ARM架構(gòu)三分天下,不能一直靠模仿ARM,而異構(gòu)計(jì)算有足夠的市場(chǎng)容量和市場(chǎng)廣度讓RISC-V走出自己的路,這是至關(guān)重要的。
