行業(yè)巨頭都在打造靠異構(gòu)算力，這種架構(gòu)已經(jīng)“搶跑”

2023-11-30 來(lái)源：賢集網(wǎng)

2227

根據(jù)IDC的預(yù)測(cè)，到2023年，中國(guó)的人工智能芯片出貨量將達(dá)到133.5萬(wàn)片，同比增長(zhǎng)22.5%。這一預(yù)測(cè)得到了11月29日在北京舉行的2023人工智能計(jì)算大會(huì)的證實(shí)。

會(huì)上，與大模型和生成式人工智能的發(fā)展相關(guān)的智能算力市場(chǎng)的增長(zhǎng)被強(qiáng)調(diào)，智能算力規(guī)模增速快于通用算力，預(yù)計(jì)2022年至2027年中國(guó)智能算力規(guī)模年均復(fù)合增長(zhǎng)率將達(dá)到33.9%，而同期通用算力規(guī)模年均復(fù)合增長(zhǎng)率僅為16.6%。業(yè)內(nèi)人士指出，打造異構(gòu)算力、建立開(kāi)放生態(tài)、突破高性能算力瓶頸已成為共識(shí)。目前，許多大模型企業(yè)都愿意主動(dòng)適配國(guó)產(chǎn)芯片，這將為國(guó)產(chǎn)芯片帶來(lái)新的發(fā)展機(jī)遇。

“通用”與“專用”相向而行

從20世紀(jì)60年代的字符終端時(shí)代到如今的智能計(jì)算時(shí)代，數(shù)據(jù)的量和質(zhì)都發(fā)生了顯著的變化。以文本、圖表為主的結(jié)構(gòu)化數(shù)據(jù)比例不斷下降，融媒體數(shù)據(jù)、實(shí)時(shí)處理的傳感級(jí)數(shù)據(jù)等非結(jié)構(gòu)數(shù)據(jù)，以及深度學(xué)習(xí)的元數(shù)據(jù)的持續(xù)激增，將越來(lái)越多種類、精度的數(shù)據(jù)以更快的速度進(jìn)行傳輸和處理，并成為智能計(jì)算的剛需。

作為通用處理器的代表型廠商，英特爾已經(jīng)將異構(gòu)計(jì)算作為應(yīng)對(duì)AI時(shí)代算力挑戰(zhàn)的關(guān)鍵戰(zhàn)略。如果將數(shù)據(jù)看作食材，CPU就相當(dāng)于“瑞士軍刀”，適用于一切食材，卻不一定能將所有食材處理得又快又好。GPU、FPGA、DSP等專用處理器的加入，讓計(jì)算架構(gòu)能更有效地應(yīng)對(duì)場(chǎng)景化數(shù)據(jù)。

“異構(gòu)計(jì)算的產(chǎn)業(yè)的基礎(chǔ)是數(shù)據(jù)的爆炸式增長(zhǎng)，這其實(shí)是我們發(fā)展異構(gòu)計(jì)算的主要驅(qū)動(dòng)力?！庇⑻貭柤軜?gòu)、圖形和軟件集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理謝曉清在接受《中國(guó)電子報(bào)》采訪時(shí)指出，“CPU提供的是通用型計(jì)算的能力，解決的問(wèn)題很廣義。但是GPU、FPGA，或者AI加速芯片解決的是特定領(lǐng)域的問(wèn)題。現(xiàn)在很多數(shù)據(jù)的產(chǎn)生都有一定的特點(diǎn)，以至于在CPU上的運(yùn)算效果不一定是最理想的，在GPU或者其他并行計(jì)算能力高的芯片上會(huì)跑得更好，這是異構(gòu)計(jì)算的主要驅(qū)動(dòng)力?！?/span>

作為專用處理器廠商，賽靈思從器件向異構(gòu)平臺(tái)的轉(zhuǎn)變也已開(kāi)始。賽靈思大中華區(qū)核心市場(chǎng)業(yè)務(wù)發(fā)展總監(jiān)酆毅向《中國(guó)電子報(bào)》記者指出，智能駕駛正在從ADAS逐漸向全面自動(dòng)駕駛持續(xù)演進(jìn)，傳感器數(shù)量的增多勢(shì)必會(huì)帶來(lái)爆炸式的數(shù)據(jù)增長(zhǎng)，這就需要汽車具備強(qiáng)大的異構(gòu)計(jì)算平臺(tái)。在工業(yè)視覺(jué)領(lǐng)域，機(jī)器人技術(shù)、工業(yè)PC、I/O的模塊、智能傳感器、人機(jī)界面等都在產(chǎn)生不同類型的數(shù)據(jù)。在專業(yè)音視頻和廣播領(lǐng)域，從內(nèi)容采集到內(nèi)容消費(fèi)的全部過(guò)程也需要遠(yuǎn)程管理不同的服務(wù)器和計(jì)算平臺(tái)。

“單獨(dú)的計(jì)算架構(gòu)，無(wú)法滿足越來(lái)越多樣的開(kāi)發(fā)需求，因此，異構(gòu)計(jì)算是未來(lái)的發(fā)展之路?！臂阂阒赋觯鞍殡S工藝的進(jìn)步，F(xiàn)PGA也打破了傳統(tǒng)的應(yīng)用邊界，進(jìn)入到AI、數(shù)據(jù)中心、視頻處理、自動(dòng)駕駛、5G等新興領(lǐng)域中。而FPGA也通過(guò)集成標(biāo)量處理引擎、自適應(yīng)硬件引擎和智能引擎，完成了從器件到異構(gòu)平臺(tái)的轉(zhuǎn)變。”

三大廠商引領(lǐng)異構(gòu)計(jì)算

現(xiàn)在隨著5G、AI、云計(jì)算等新興領(lǐng)域?qū)τ?jì)算量的需求，已經(jīng)超過(guò)了通用CPU的發(fā)展速度，僅通過(guò)提升CPU時(shí)鐘頻率和內(nèi)核數(shù)量而提高計(jì)算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸，所以需要GPU、FPGA、DSP，現(xiàn)在還多了DPU，這些計(jì)算單元去配合CPU進(jìn)行并行計(jì)算，大家分工協(xié)作，“專人干專事”，以此來(lái)很好的滿足這些計(jì)算需求。

而英特爾、AMD、英偉達(dá)三大廠商最近的一些列集中的動(dòng)作更是把異構(gòu)計(jì)算推上了風(fēng)口浪尖：

英特爾CPU+GPU新架構(gòu)Falcon Shores

英特爾在最近的投資者會(huì)議中提出了一個(gè)新架構(gòu)——Falcon Shores。這是一款將X86和Xe GPU 整合到一個(gè)Xeon插槽中的新架構(gòu)。該架構(gòu)將利用英特爾埃米時(shí)代工藝技術(shù)、下一代封裝、英特爾正在開(kāi)發(fā)的新型超帶寬共享內(nèi)存以及領(lǐng)先的I/O技術(shù)。他們預(yù)計(jì)，相對(duì)于當(dāng)前平臺(tái)，F(xiàn)alcon Shores將提供超過(guò)5倍的每瓦性能、超過(guò)5倍的計(jì)算密度增加以及超過(guò)5倍的內(nèi)存容量和帶寬提升。

英偉達(dá)Grace CPU

2021年4月，英偉達(dá)公布了其首款代號(hào)為Grace的CPU產(chǎn)品，這是專為人工智能和超算使用需求打造的。該產(chǎn)品采用下一代Arm Neoverse內(nèi)核，在NVIDIA放出的設(shè)計(jì)示圖中，Grace CPU是以MCM（Multi-Chip Module，多芯片模組）形式構(gòu)成，包括CPU、GPU、DPU和帶有ECC的LPDDR5x的新型高帶寬內(nèi)存子系統(tǒng)，輔以使用 NVLink 通道技術(shù)?？梢哉f(shuō)是專為連接英偉達(dá)GPU所設(shè)計(jì)。據(jù)悉，Grace預(yù)計(jì)在2023年發(fā)布。

對(duì)于英偉達(dá)來(lái)說(shuō)，Grace CPU的研發(fā)將對(duì)其意義深遠(yuǎn)，使其不必完全受制于AMD和英特爾在CPU上的的合作關(guān)系，可以說(shuō)是自立自強(qiáng)的一個(gè)表現(xiàn)。因?yàn)榧词笹PU的并行能力不斷提高，但GPU終究在加速運(yùn)算中扮演資料運(yùn)算，仍需搭配CPU執(zhí)行基本的系統(tǒng)，以及由CPU 發(fā)號(hào)運(yùn)算的命令，所以GPU和CPU之間的溝通很重要。而x86架構(gòu)的CPU又受限PCIe頻寬的影響，GPU與CPU之間溝通效率很低，無(wú)法滿足巨量數(shù)據(jù)傳輸處理效率需求，此前英偉達(dá)為了解決這個(gè)問(wèn)題，研發(fā)了高速通道技術(shù)NVLink，但合作伙伴只有較冷門的IBM Power，而市場(chǎng)占有率較大的英特爾和AMD都有自身的加速器，自然也不會(huì)加入英偉達(dá)的支援陣列。

AMD收購(gòu)賽靈思，補(bǔ)齊FPGA產(chǎn)品線

近日AMD完成了對(duì)賽靈思的收購(gòu)，AMD的CPU和賽靈思的FPGA，未來(lái)也將走向CPU+FPGA的異構(gòu)整合中。因?yàn)?，這條路英特爾已經(jīng)趟過(guò)，收購(gòu)了Altera之后，F(xiàn)PGA產(chǎn)品線在英特爾中發(fā)揮的不錯(cuò)，2018 年，英特爾宣布將“Skylake”至強(qiáng)SP處理器 Arria 10 FPGA 混合在一個(gè)封裝中的產(chǎn)品。FPGA在現(xiàn)成CPU 上運(yùn)行的編程語(yǔ)言和用于實(shí)現(xiàn)某些功能或軟件堆棧的定制ASIC之間的邊界仍然具有吸引力。

總之，收購(gòu)賽靈思之后，AMD 設(shè)計(jì)的每個(gè)計(jì)算設(shè)備，無(wú)論是單芯片還是封裝中的Chiplet集合，都可以在 AMD 認(rèn)為合適的時(shí)候添加一些可編程邏輯。

英特爾向GPU擴(kuò)展的動(dòng)作很大，英偉達(dá)研究CPU自立自強(qiáng)的決心也很大，氣勢(shì)正旺的AMD有了FPGA也如虎添翼。隨著三大廠商逐漸補(bǔ)齊產(chǎn)品線，異構(gòu)計(jì)算或?qū)⑦M(jìn)入全面爆發(fā)。未來(lái)，異構(gòu)計(jì)算會(huì)越來(lái)越多的取代原來(lái)通用計(jì)算不擅長(zhǎng)的部分。

國(guó)內(nèi)芯片廠商跟進(jìn)

不同于國(guó)際大廠在各方面實(shí)力雄厚，國(guó)內(nèi)廠商難以在短時(shí)間內(nèi)形成如此全的產(chǎn)品線，但是國(guó)產(chǎn)芯片廠商現(xiàn)在已經(jīng)漸漸開(kāi)始選擇通過(guò)投資和合作的方式埋下異構(gòu)的種子。

2021年11月，GPU芯片企業(yè)壁仞科技，與IDG資本、字節(jié)跳動(dòng)等共同參與了國(guó)產(chǎn)DPU初創(chuàng)企業(yè)云脈芯聯(lián)數(shù)億元的天使輪投資。據(jù)壁仞科技創(chuàng)始人、董事長(zhǎng)、CEO張文透露，除了DPU之外，從布局整體計(jì)算產(chǎn)業(yè)出發(fā)，壁仞科技正在密切關(guān)注國(guó)產(chǎn)CPU的最新發(fā)展，未來(lái)形成CPU+GPU+DPU的全國(guó)產(chǎn)系統(tǒng)級(jí)解決方案。

日前，DPU芯片廠商云豹智能與AI芯片廠商燧原科技達(dá)成了戰(zhàn)略合作，共同研發(fā)和提供大規(guī)模高性能AI算力平臺(tái)解決方案?；谠票悄茉葡鯠PU和燧原科技云燧T20率先推出了DataDirectPathStorage解決方案，為AI訓(xùn)練儲(chǔ)存訪問(wèn)提供更高效的解決方案。在傳統(tǒng)解決方案中，云燧T20訪問(wèn)存儲(chǔ)時(shí)，需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存，再由系統(tǒng)內(nèi)存搬移到目標(biāo)設(shè)備。而基于DataDirectPath Storage技術(shù)，云燧T20可通過(guò)DPU直接獲得數(shù)據(jù)，從而繞過(guò)系統(tǒng)內(nèi)存和CPU，讓數(shù)據(jù)訪問(wèn)速度更快，訪問(wèn)延遲更短，系統(tǒng)開(kāi)銷更小。

此外，國(guó)內(nèi)還有異構(gòu)處理器IP提供商華夏芯，通過(guò)自主設(shè)計(jì)的Unity統(tǒng)一指令集架構(gòu)和基于此架構(gòu)的CPU、DSP、GPU、AI專用處理器系列IP與SoC，在提升性能價(jià)格比的同時(shí)，顯著降低計(jì)算芯片研發(fā)成本和研發(fā)復(fù)雜度，同時(shí)縮短研發(fā)周期，減少開(kāi)發(fā)人員工作量和降低開(kāi)發(fā)門檻。據(jù)悉，華夏芯的Unity和英特爾的OneAPI都是為了簡(jiǎn)化編程環(huán)境，但不同的是，OneAPI是面向不同體系架構(gòu)的統(tǒng)一編程環(huán)境，Unity是面向不同微架構(gòu)的統(tǒng)一體系架構(gòu)和統(tǒng)一編程環(huán)境。

RISC-V架構(gòu)與異構(gòu)計(jì)算相當(dāng)適配

在異構(gòu)計(jì)算的框架下，RISC-V可謂是如有得水，其提供了遠(yuǎn)超x86架構(gòu)和ARM架構(gòu)的靈活性，并因?yàn)槭呛笃鸺軜?gòu)，沒(méi)有歷史包袱，創(chuàng)新限制更少，因此RISC-V在異構(gòu)計(jì)算時(shí)代擁有廣闊的應(yīng)用前景。

RISC-V在異構(gòu)計(jì)算領(lǐng)域的發(fā)展前景是極好的，當(dāng)然所面對(duì)的挑戰(zhàn)也不小。我們都知道，對(duì)于RISC-V而言，其在異構(gòu)計(jì)算方面的進(jìn)展和在高性能方面的進(jìn)展是同步，異構(gòu)計(jì)算可以被看作是RISC-V沖擊高性能計(jì)算市場(chǎng)的重要抓手，那么面臨的挑戰(zhàn)其實(shí)和基于RISC-V實(shí)現(xiàn)高性能計(jì)算便較為一致，當(dāng)然也會(huì)有一些挑戰(zhàn)是從異構(gòu)計(jì)算理念出發(fā)的。

實(shí)際上，電子發(fā)燒友網(wǎng)此前的報(bào)道有過(guò)此方面的表述，相關(guān)言論來(lái)自中國(guó)科學(xué)院軟件研究所總工程師武延軍研究員。對(duì)于RISC-V在高性能領(lǐng)域的硬件發(fā)展，他表示，“當(dāng)RISC-V生態(tài)發(fā)展到一定程度后，將不會(huì)再籠統(tǒng)地說(shuō)一個(gè)處理器有多少個(gè)核，主頻多少，算力多少。而是講一個(gè)處理器中有多少種類型的核心，每一個(gè)核心有怎樣的定制能力。這些不同類型的核心集中在一個(gè)平臺(tái)上，能夠滿足豐富的應(yīng)用場(chǎng)景需求。”

很顯然，RISC-V想要在異構(gòu)計(jì)算領(lǐng)域有所作為，產(chǎn)品的豐富度和定制性要能夠完美展現(xiàn)，比如目前異構(gòu)計(jì)算延伸出了“XPU”的概念，RISC-V對(duì)此都要進(jìn)行實(shí)現(xiàn)。并且，XPU理念現(xiàn)階段還是以ARM架構(gòu)為主導(dǎo)，RISC-V需要先模仿后超越，全面釋放自己的模塊化和靈活性優(yōu)勢(shì)。在此過(guò)程中，基于RISC-V打造的計(jì)算芯片還需要滿足通用標(biāo)準(zhǔn)，未來(lái)也主導(dǎo)通用互聯(lián)標(biāo)準(zhǔn)。

武延軍研究員也在軟件層面講到了RISC-V后續(xù)需要強(qiáng)化的點(diǎn)，“往高性能去發(fā)展，對(duì)于上面的軟件生態(tài)是一個(gè)非常大的挑戰(zhàn)?？梢钥吹侥壳斑€有很多核心的基礎(chǔ)軟件沒(méi)有很好地跑在RISC-V平臺(tái)上。這里可能會(huì)有指令集規(guī)范還不成熟的問(wèn)題，但更多的是這些基礎(chǔ)軟件包之前都是在x86和ARM平臺(tái)上面跑，從維護(hù)者、社區(qū)的角度，還沒(méi)有把RISC-V當(dāng)成Tier-1或者First-Class-Citizen去對(duì)待。這里面有理念問(wèn)題，有投入問(wèn)題，也有商業(yè)利益回報(bào)問(wèn)題。”他對(duì)此講到。

因此，RISC-V做異構(gòu)計(jì)算其實(shí)并不只是單純豐富芯片種類，提升芯片性能，也需要完善軟件生態(tài)，這個(gè)難度可能比硬件更大。但無(wú)論前路如何充滿荊棘，異構(gòu)計(jì)算都是RISC-V必須把握好的一個(gè)產(chǎn)業(yè)大趨勢(shì)，在處理器架構(gòu)方面，RISC-V要想實(shí)現(xiàn)和x86架構(gòu)以及ARM架構(gòu)三分天下，不能一直靠模仿ARM，而異構(gòu)計(jì)算有足夠的市場(chǎng)容量和市場(chǎng)廣度讓RISC-V走出自己的路，這是至關(guān)重要的。