ARM最強(qiáng)CPU路線圖再更新,邊緣AI才是未來主要收入市場
2022年9月,Arm正式宣布推出了全新的Neoverse V2平臺(代號“Demeter”)。Arm稱,該平臺可滿足大型互聯(lián)網(wǎng)和 HPC 客戶的需求,并在不增加功耗和面積的情況下,進(jìn)一步推動云工作負(fù)載性能。
在不久前的Hot Chip 2023活動上,Arm披露了關(guān)于Neoverse V2的更多細(xì)節(jié)。目前英偉達(dá)(NVIDIA)應(yīng)該是Neoverse V2平臺的第一個客戶。
Neoverse V2:IPC性能提升了13%,擁有4個128位SVE2矢量引擎
Arm 于 2020 年 9 月將其 Neoverse 核心和 CPU 設(shè)計分為三個系列,分別為V系列高性能核心(具有雙倍向量引擎)、N系列核心(專注于整數(shù)性能)、 E系列核心(入門級,重點(diǎn)關(guān)注能源效率和邊緣的芯片)。近幾年來,該路線圖已經(jīng)擴(kuò)展和更新了很多次,最新的路線圖(帶有 N2 平臺添加的 CSS 子系統(tǒng)變體)已在 Hot Chips 上展示:
Arm 院士兼首席 CPU 架構(gòu)師 Magnus Bruce 在 Hot Chips 上介紹了 V2 平臺,談?wù)摿嗽摷軜?gòu)以及與 V1 平臺相比的變化。下面這張圖表很好地總結(jié)了這一點(diǎn):
“這個管道的基礎(chǔ)是一個預(yù)運(yùn)行分支預(yù)測器,這個分支預(yù)測器充當(dāng)指令預(yù)取器,它將提取與分支解耦。”Magnus Bruce 解釋道:“大型分支預(yù)測結(jié)構(gòu)可以覆蓋非常大的實(shí)際服務(wù)器工作負(fù)載。我們使用在發(fā)布后讀取的物理寄存器文件,允許非常大的發(fā)射隊列,而無需存儲數(shù)據(jù)。這對于解鎖ILP(指令級并行性)是必要的。我們使用低延遲和專用L2緩存、具有最先進(jìn)的預(yù)取算法的低延遲L1和專用L2高速緩存以及積極的存儲-加載轉(zhuǎn)發(fā),以保持內(nèi)核具有最小的氣泡和停滯。來自系統(tǒng)的動態(tài)反饋機(jī)制允許核心調(diào)節(jié)攻擊性并主動防止系統(tǒng)擁塞。這些基本概念使我們能夠提高機(jī)器的寬度和深度,同時保持快速預(yù)測失誤恢復(fù)所需的短管道。”
重要的是,V2是基于新的Armv9指令集的實(shí)現(xiàn),旨在顛覆該架構(gòu),與十多年來定義Arm芯片的許多代Armv8架構(gòu)相比,它帶來了性能、安全性和可擴(kuò)展性的增強(qiáng)。
V2芯片的架構(gòu)調(diào)整是微妙的,但顯然是有效的。但同樣明顯的是,其13%的性能改進(jìn)與Arm早在2019年就設(shè)定的30%的每時鐘指令性能(IPC)改進(jìn)目標(biāo)相去甚遠(yuǎn)。
借助 V2 內(nèi)核,Arm 架構(gòu)師又添加了兩個單周期算術(shù)邏輯單元 (ALU),并增加了問題隊列的大小,并將謂詞運(yùn)算符的帶寬加倍,這些調(diào)整加上其他一些調(diào)整,又增加了 3.3%核心性能在 2.8 GHz 主頻下歸一化。
與 V1 核心一樣,V2 核心有兩個加載/存儲管道和一個加載管道,但表后備緩沖區(qū) (TLB) 上的條目增加了——從 40 個條目增加到 48 個條目——并且各種存儲和讀取隊列也增加了變得更大。
這一變化和其他變化使 V2 核心性能又增加了 3%。
除了英偉達(dá)之外,還有誰會采用Neoverse V2?
近年來,隨著云計算及人工智能技術(shù)的快速發(fā)展,頭部的大型服務(wù)器及云服務(wù)提供商都紛紛開始針對其工作負(fù)載大量定制或者設(shè)計各類處理器,但是設(shè)計一款好的處理器確實(shí)很困難,這也使得Arm面向云端的處理器IP大受歡迎。
據(jù)介紹,Neoverse V2 平臺(代號“Demeter”)配備最新的 V 系列核心和產(chǎn)業(yè)廣泛部署的 Arm CMN-700 mesh 互連技術(shù)。Neoverse V2 將為云和 HPC 工作負(fù)載提供市場領(lǐng)先的整型性能,并引入若干 Armv9 架構(gòu)安全增強(qiáng)功能,是迄今為止 Arm 為服務(wù)器設(shè)計的最好的核心。
這也是為什么英偉達(dá)(NVIDIA)選擇了Arm Neoverse V2內(nèi)核及其他組件打造的72核的名為“Grace”服務(wù)器CPU,它是英偉達(dá)系統(tǒng)架構(gòu)中不可或缺的一部分,可支持傳統(tǒng)HPC仿真和建模工作負(fù)載的全CPU計算,并提供輔助內(nèi)存和計算能力。憑借四個128位 SVE2 矢量引擎等,Demeter核心可以運(yùn)行經(jīng)典的 HPC 工作負(fù)載以及某些 AI 推理工作負(fù)載,甚至可能是在某些情況下重新訓(xùn)練人工智能模型。如果設(shè)計中可能有 16 到 256 個內(nèi)核,那么觸發(fā)器當(dāng)然可以堆疊起來。
除了英偉達(dá)之外還有誰會在他們的服務(wù)器CPU設(shè)計中使用 Neoverse V2平臺?
AWS 很可能會在其未來的 Graviton4 服務(wù)器處理器中采用 Neoverse V2 ,并在其當(dāng)前的 Graviton3 處理器中使用代號為“Zeus” 的Neoverse V1 內(nèi)核。
目前尚不清楚谷歌在傳聞中正在開發(fā)的兩個定制 Arm 服務(wù)器芯片中使用了什么內(nèi)核?傳聞其中一個是與 Marvell 合作,另一個是自己的團(tuán)隊自研,很可能是使用了Neoverse V2內(nèi)核。
Ampere Computing 已在其 192 核“Siryn”AmpereOne 芯片中從 Arm 的Neoverse N1 內(nèi)核切換為自己的內(nèi)核(我們稱之為 A1)。
印度高級計算發(fā)展中心 (C-DAC) 正在為 HPC 工作負(fù)載構(gòu)建自己的“Aum”處理器,它基于Arm的Neoverse V1核心。
富士通、Arm 和日本 RIKEN 實(shí)驗(yàn)室聯(lián)合為“Fugaku”超級計算機(jī)使用的48 核 A64FX 處理器打造的定制 Arm 內(nèi)核中的 512 位向量可以被視為一種Neoverse V0 核心在于 SVE 設(shè)計最初是為 A64FX 創(chuàng)建的。
阿里巴巴正在其自主研發(fā)的 128 核倚天710處理器中使用 代號為“Perseus”的Neoverse N2 核心,如果它認(rèn)為需要在標(biāo)準(zhǔn)服務(wù)器中支持更多向量和矩陣數(shù)學(xué),則可以在后續(xù)倚天芯片中切換到Neoverse V2 核心鑒于人工智能算法的使用越來越多,這些算法對此類數(shù)學(xué)運(yùn)算的要求很高。此外,華為海思在其 64 核鯤鵬920服務(wù)器芯片中也采用了Arm的 Neoverse“Ares”N1 內(nèi)核,出于同樣的原因,它也對升級Neoverse V2核心有需求。
Arm發(fā)布第五代GPU架構(gòu)
5月29日,Arm宣布推出了2023全面計算解決方案(TCS23)。該方案提供了一整套針對特定工作負(fù)載而設(shè)計與優(yōu)化的最新IP,可作為一個完整系統(tǒng)無縫地協(xié)同工作,從而滿足日益增長的移動用戶體驗(yàn)需求。
Arm高級副總裁兼終端事業(yè)部總經(jīng)理 Chris Bergey介紹稱,TCS23包含了基于全新第五代GPU架構(gòu)、可實(shí)現(xiàn)終極視覺體驗(yàn)的全新Arm Immortalis GPU,助力 Arm面向下一代人工智能(AI)保持性能領(lǐng)先的全新Armv9 CPU 集群,以及可為數(shù)百萬Arm開發(fā)者提供更易訪問軟件的全新增強(qiáng)技術(shù)。
Arm今年推出的最新GPU產(chǎn)品采用了全新的第五代GPU架構(gòu),該架構(gòu)是Arm迄今為止最高效的GPU架構(gòu),重新定義了部分圖形管道,以優(yōu)化內(nèi)存帶寬,從而讓總體系統(tǒng)效率與功耗優(yōu)化高達(dá)14%,使下一代游戲和實(shí)時 3D 應(yīng)用成為可能,同時帶來更順暢、并與 PC 端和游戲主機(jī)媲美的游戲體驗(yàn)。
延遲頂點(diǎn)著色(Deferred Vertex Shading, DVS)是第五代 GPU 架構(gòu)新引入的圖形功能,可重新定義數(shù)據(jù)流,有助于合作伙伴擴(kuò)展核心數(shù)量,達(dá)到更高的性能水平。DVS 的優(yōu)勢已經(jīng)在包括《原神》和《堡壘之夜》等許多流行游戲中得到體現(xiàn)。
此次推出的首款基于第五代架構(gòu)GPU——Immortalis-G720,則專為旗艦智能手機(jī)而設(shè)計。它與上一代產(chǎn)品相比,其性能和能效分別提高了15%,系統(tǒng)級效率更躍升了40%,從而帶來更高質(zhì)量的圖形渲染,實(shí)現(xiàn)更身臨其境的視覺感受。
同時,Arm 也推出新的Arm Mali-G720 和 Mali-G620,旨在將高端移動圖形功能快速地推向更廣大的消費(fèi)終端市場。
Arm的機(jī)會在邊緣?
總之,Arm在AI領(lǐng)域的未來業(yè)務(wù)收入,不太可能像英偉達(dá)一樣,來自訓(xùn)練大數(shù)據(jù)模型所需的大量芯片。
與其相反,Arm更有可能成為邊緣AI領(lǐng)域的主要參與者,也就是在智能手機(jī)等設(shè)備上執(zhí)行的AI過程,而不是在ChatGPT等云端執(zhí)行AI。
為了實(shí)現(xiàn)這一點(diǎn),智能設(shè)備需要采用低功耗但高性能的芯片,能夠執(zhí)行AI應(yīng)用所需的計算。Arm正在為用戶設(shè)計這些芯片架構(gòu)。
Counterpoint Eesearch研究總監(jiān)Peter Richardson說:“如果在智能手機(jī)或汽車上運(yùn)行AI系統(tǒng),需要優(yōu)化AI模型以在本地運(yùn)行,這些CPU幾乎肯定是基于Arm的架構(gòu)?!?/span>
Arm在其IPO文件中表示,其設(shè)計的CPU可以運(yùn)行AI工作負(fù)載,目前市場上的每款智能手機(jī)都能有效運(yùn)行AI推理應(yīng)用,例如語音識別、圖像識別等。
然而,Radio Free Mobile創(chuàng)始人Richard Windsor認(rèn)為,Arm的收入不太可能在3-5年內(nèi)從AI帶來的好處中受益。
他表示:“軟銀希望將Arm作為一家像英偉達(dá)一樣的AI公司對外推銷。我是在終端設(shè)備上運(yùn)行AI的堅定支持者,從長遠(yuǎn)來看,這對服務(wù)提供商來說具有非常大的經(jīng)濟(jì)意義。但是目前,Arm還沒有獲得這些收入?!?/span>
