存算一體闖入智能駕駛芯片“江湖”,五類玩家誰會最先勝出?
沒錯,后摩智能瞄準萬物智能亮相的第一張王牌,就是一款智能駕駛芯片,劍指自動駕駛市場。
也許在一些人看來,2023年的智駕芯片已處于爭搶上車的關(guān)鍵階段,而此時向市場拋出一款新產(chǎn)品,后摩智能是否抓得住落地窗口?挑戰(zhàn)叢生的行業(yè)環(huán)境,對后摩智能而言,這無疑是一場關(guān)鍵的自駕芯片市場搶位戰(zhàn)。
押寶智駕芯片,后摩鴻途?H30應(yīng)運而生
基于存算一體重構(gòu)智能駕駛芯片,是后摩智能面向萬物智能未來的第一階段目標,亦是早期戰(zhàn)略聚焦方向。
原因無他,需求是最為關(guān)鍵的決定性因素。在吳強看來,人們平均每天將近1/8的時間都是在駕駛場景,智能駕駛無疑將成為未來智能生活最重要的組成部分之一,“智能駕駛的終局是要替代人類駕駛,用傳感器替代眼睛,用各式各樣的算法填補意識與靈魂,而底層智駕芯片則扮演著人類大腦的角色?!彼f。
從這一角度看,智駕芯片一定需要無限接近人腦的計算方式和效率,而存算一體所擁有遠超傳統(tǒng)芯片架構(gòu)的高計算效率,這點技術(shù)優(yōu)勢正與未來智駕芯片的關(guān)鍵需求高度吻合。
在這個機遇下,鴻途?H30芯片應(yīng)運而生。
作為后摩智能首款存算一體大算力AI芯片,H30芯片采用12nm制程工藝,在Int8精度下最高物理算力可達256Tops,典型功耗不超過35W。在相同工藝下,基于傳統(tǒng)架構(gòu)的AI芯片SoC能效比多為2Tops/W,而基于存算一體架構(gòu)的H30 SoC能效比高達7.3Tops/W,整體具有高計算效率、低計算延時、低工藝依賴等特點。
實際上,H30頗具差異化的特點其實是底層架構(gòu)創(chuàng)新所帶來的優(yōu)勢。
簡單來說,過去傳統(tǒng)架構(gòu)芯片產(chǎn)品的效率提升多采用算法和芯片的深度耦合,將算法固化到芯片中,這一定程度上損失了芯片的通用性。而基于存算一體技術(shù),H30能夠從底層架構(gòu)進行創(chuàng)新,在不損失通用性的情況下,實現(xiàn)性價比更高的效率提升。
也就是說,盡管H30是一款相對通用的智能駕駛芯片,但它與其他大部分專用智駕芯片相比,不僅實現(xiàn)了性能和計算效率翻倍,支持更多算法模型,同時功耗卻只有它們的二分之一。
為了保證H30的核心競爭力,提高產(chǎn)品的易用性、降低客戶遷移門檻并加速落地,后摩智能還基于H30推出了智能駕駛硬件平臺力馭,以及軟件開發(fā)工具鏈后摩大道兩款產(chǎn)品。
其中,力馭平臺作為一款域控制器,主要面向末端物流無人小車、乘用車智能駕駛、車路協(xié)同等場景。其CPU算力為200Kdmips,AI算力為256Tops,支持多傳感器輸入,系統(tǒng)可靠性進一步提升。同時,力馭平臺功耗僅為85W,支持靈活散熱方式,便捷部署成本大大降低。
后摩大道則支持Pytorch、TensorFlow、ONNX等主流開源框架,編程兼容CUDA前端語法,并支持SIMD和SIMT兩種編程模型,無侵入式的底層架構(gòu)創(chuàng)新設(shè)計也使H30更為高效、易用。
綜合來看,力馭平臺和后摩大道兩款產(chǎn)品更多是解決H30的易用性和快速遷移性問題,在這兩款產(chǎn)品的輔助下,H30也將實現(xiàn)更快速的應(yīng)用落地,從而進一步推動大算力智能駕駛場景的普及應(yīng)用。
比亞迪或要成立單獨的智能駕駛芯片研發(fā)部門
據(jù)國內(nèi)媒體報道,比亞迪規(guī)劃院的智能駕駛研發(fā)負責(zé)人王歡已經(jīng)離職,其負責(zé)的智能駕駛開發(fā)部被分拆整合,該部門超500名員工,大部分被分流進韓冰負責(zé)的電子集成部。此次調(diào)整完成后,電子集成部總監(jiān)韓冰已經(jīng)成為比亞迪規(guī)劃院的智能駕駛研發(fā)負責(zé)人。
不過,編者從比亞迪方面了解到,王歡并非智能駕駛研發(fā)部責(zé)任,且目前并未出現(xiàn)人員分流。
據(jù)報道,韓冰還在同步籌備比亞迪的智能駕駛芯片設(shè)計團隊。編者了解到,目前比亞迪內(nèi)部并未成立智能駕駛芯片團隊。
雖然比亞迪董事長王傳福曾表示,自動駕駛是被資本裹挾、是忽悠。但是比亞迪還是在智能化領(lǐng)域加速投入。
今年3月,比亞迪曾宣布與人工智能芯片制造商NVIDIA深化合作,拓寬NVDIA DRIVE Orin中央計算平臺的應(yīng)用范圍。雙方相信,未來汽車將具有可編程的能力,汽車整個生命周期內(nèi)可通過軟件更新帶來新功能和服務(wù)。
同時,DRIVE Orin集中式計算平臺將被應(yīng)用到下一代王朝以及海洋系列車型中。資料顯示,作為NVIDIA的最新一代智能汽車中央電腦,單Orin即可提供高達254TOPS的性能,能夠處理同時運行的大量應(yīng)用程序和深度神經(jīng)網(wǎng)絡(luò)。
為何是存算一體?
后摩采用了存算一體這種新的底層架構(gòu)來設(shè)計芯片。
所謂存算一體,從字面意思上來說,就是存儲和計算融為一體。
首先需要明確的一點是,所有的 AI 算法包括深度學(xué)習(xí),本質(zhì)上是在下達指令,做大量的乘加計算,體現(xiàn)在芯片層面,則是一大堆晶體管的開開閉閉。
在過去按照馮·諾依曼架構(gòu)設(shè)計的芯片下,AI 計算過程簡單理解是這樣的:數(shù)據(jù)通過設(shè)備輸入到存儲器,處理器(計算單元)從存儲器中獲取指令和數(shù)據(jù),進行計算,處理完后輸出結(jié)果,寫回存儲器。
這種架構(gòu)的顯著特點是計算單元與存儲單元分離,在執(zhí)行計算時,數(shù)據(jù)在二者之間高頻地遷移,在面對常規(guī)計算量時,這樣做尚足以勝任工作,然而隨著自動駕駛、ChatGPT 等大數(shù)據(jù)模型出現(xiàn),對于算力需求急劇提升,馮·諾依曼架構(gòu)開始遭遇瓶頸。
舉例來說,以矩陣乘法為主的 Transformer 類計算,大多數(shù)的步驟是在訪問內(nèi)存,而非執(zhí)行計算,盡管大量數(shù)據(jù)頻繁在計算單元與存儲單元之間移動,但由于存儲器讀寫的速度不夠快,導(dǎo)致數(shù)據(jù)被「堵塞」在訪存過程中,并未真正投入計算,由此使得計算系統(tǒng)的有效帶寬大大降低,系統(tǒng)算力的增長舉步維艱。
盡管可以通過多核 (如 CPU)/眾核 (如 GPU) 并行加速技術(shù)提升算力,但這將帶來功耗和成本的提升。
應(yīng)用存算一體新架構(gòu),可以解決這個難題,其底層邏輯是將 AI 計算中大量乘加計算的權(quán)重部分,直接留在存儲單元中計算,以優(yōu)化數(shù)據(jù)傳輸路徑,從而大幅提升計算效率。
而這正是后摩智能設(shè)計智能駕駛芯片 IP 的思路,公司聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮分享道,通過在傳統(tǒng)的 SRAM 電路旁,加入包括 Activation Driver、乘法器、加法樹、累加器等定制化電路結(jié)構(gòu),后摩成功實現(xiàn)高能效的存內(nèi)并行乘加運算。
「計算電路緊挨著存儲單元,數(shù)據(jù)被讀出的同時可以在原地進行乘加計算,相較于(馮·諾伊曼架構(gòu)下)Row by Row 的數(shù)據(jù)讀取方式,極大地提高了并行性?!?/span>
這樣的 IP 設(shè)計擁有超高的計算密度,使得「大算力」得以實現(xiàn);基于 SRAM 的純數(shù)字設(shè)計,還滿足全精度要求;架構(gòu)上是完全的存內(nèi)計算,也減少了訪存功耗。
基于此,后摩面向智能駕駛場景打造了專用 IPU(Intelligence Processing Unit,處理器架構(gòu))——天樞架構(gòu)。
陳亮表示,取名「天樞」在于其設(shè)計理念借鑒融合了庭院式的中國傳統(tǒng)住宅和現(xiàn)代高層公寓樓的不同風(fēng)格。
在他看來,庭院式代表著集中式的存儲和計算架構(gòu),特斯拉 FSD 芯片正是如此,通過堆積大量芯片資源以及高并行性,帶來性能提升。
然而,這在遇到算力要求更大、計算靈活性要求更高的場景下,容易受到數(shù)據(jù)規(guī)模的限制,此時計算效率急劇下降,數(shù)據(jù)的并行性和計算資源的并行性無法匹配。
「這樣的架構(gòu)設(shè)計類似于古典中式庭院,它向內(nèi)合圍成一個小的院子,集各種功能于一身,使得人與人、人和自然之間可以非常高效溝通,但是因為院落面積終究有限,所能容納的居住人數(shù)也有限,且設(shè)計和建造這樣的庭院難度和成本極大,所以它的可拓展性就比較差?!?/span>
而現(xiàn)代西式的高層公寓就截然不同,其采用完全相同的獨立小單元,可以在三維空間中自由拓展,以容納更多的人,類比芯片結(jié)構(gòu),就是將一個算力很大的核切分成若干個小核,細分到極致?!覆贿^這樣的架構(gòu)下,人和自然之間、人和人之間的溝通效率就會變得很低?!?/span>
后摩的做法是融合了中式庭院和西式高樓的特點,陳亮解釋道,先打造一個優(yōu)美的庭院,以大布局設(shè)計保障計算資源利用效率,在此基礎(chǔ)上,再借鑒現(xiàn)代高層建筑的方式,以多核/多硬件線程的方式靈活擴展算力,「這樣我們就實現(xiàn)了芯片效率、靈活性和可擴展性的完美平衡?!?/span>
五類玩家角逐智駕芯片市場
對于當前的智駕芯片競爭格局,主要包括5類玩家。先將視野聚焦于國內(nèi)市場,第一類為地平線、黑芝麻智能、芯礪智能、后摩智能等國內(nèi)初創(chuàng)型玩家,其中芯礪智能、后摩智能的技術(shù)路線又較為不同。
值得注意的是,芯片一直是國內(nèi)汽車產(chǎn)業(yè)鏈中的薄弱環(huán)節(jié)。根據(jù)公開信息顯示,汽車芯片國產(chǎn)化率不足5%。這也意味著,破局一直是產(chǎn)業(yè)界和資本市場的聚焦點。
地平線智能駕駛產(chǎn)品規(guī)劃與市場總經(jīng)理呂鵬認為,芯片賽道破局確實難度較高,但智駕芯片正處于高速發(fā)展期,迭代速度很快,每一代智駕芯片其實都有一個相應(yīng)的市場窗口期?!赋鮿?chuàng)型玩家破局的關(guān)鍵,是抓住窗口期推出合適的產(chǎn)品,且能確保產(chǎn)品達到一定的成熟度(包括芯片可靠性、穩(wěn)定性,工具鏈的成熟性等)?!?/span>
額日特則強調(diào),黑芝麻智能作為Tier2,在做好硬件設(shè)計的同時,積極尋求和軟件算法公司的合作,以此構(gòu)建更加健全的生態(tài)體系,增加客戶的使用粘性,為現(xiàn)階段競爭的關(guān)鍵點。
從產(chǎn)品上來看,2016年成立的黑芝麻智能,2019年8月發(fā)布華山一號自動駕駛芯片A500,算力5-10TOPS;2020年6月發(fā)布華山二號A1000L、A1000,算力分別達16TOPS、58TOPS,16nm制程。根據(jù)披露的信息,其已經(jīng)與江淮、吉利,東風(fēng)等多家車企達成量產(chǎn)合作。
“國內(nèi)智能電動汽車的崛起,一定會帶來供應(yīng)鏈的崛起?!焙竽χ悄墚a(chǎn)品副總裁信曉旭表達了這樣的觀點。
回溯汽車產(chǎn)業(yè)發(fā)展歷史,美日汽車產(chǎn)業(yè)的興盛均帶動了本土供應(yīng)鏈的崛起。而在傳統(tǒng)燃油車時代,國內(nèi)主機廠話語權(quán)低,但在智能電動變革浪潮中,自主品牌已經(jīng)占據(jù)先機,這也有利于本土tier1、芯片廠商的快速成長。
第二類玩家,為華為、寒武紀行歌等跨界玩家。
華為方面,作為ICT領(lǐng)域的巨頭,其開展智能汽車業(yè)務(wù)最早可追溯至2012年,2019年5月正式成立一級部門智能汽車解決方案事業(yè)部,2020年發(fā)布MDC610計算平臺,采用晟騰610芯片,單片算力可達 200 TOPS。
高工智能汽車研究院監(jiān)測數(shù)據(jù)顯示,目前,華為智駕芯片已經(jīng)在北汽極狐、問界(今年4月)、阿維塔、廣汽埃安、哪吒等品牌實現(xiàn)上車。
寒武紀行歌方面,其母公司為2016年成立的AI芯片廠商寒武紀,2020年7月成為“國內(nèi)AI芯片第一股”,2021年1月成立寒武紀行歌,專注智能駕駛芯片。
產(chǎn)品方面,根據(jù)對外披露的信息,寒武紀行歌將于2022-2023年,面向行泊一體市場、L4市場,分別推出SD5223、SD5226,算力分別為16TOPS、400+TOPS,后者為7nm制程。
將視野轉(zhuǎn)至國際市場,第三類玩家為最被市場矚目的英偉達、高通、英特爾(2017年收購Mobileye)、安霸等消費電子、AI視覺芯片巨頭。
高工智能汽車注意到,當智駕、座艙的大算力需求浪潮涌來,這些在PC、手機賽道長期深耕,擁有強大護城河的巨頭們,旋即將觸手伸向這一想象力巨大的新興細分賽道,意圖復(fù)制其在原有領(lǐng)域的地位。
以英偉達為例,作為全球頭部智能計算平臺型公司,2015年開始發(fā)力汽車領(lǐng)域,2020年上車的Xavier,16nm制程,算力30TOPS;2022年上車的orin,7nm制程,算力254TOPS;計劃在2024年量產(chǎn)的thor,4nm制程,算力達到2000TFLOPS@FP8,支撐下一代中央計算架構(gòu)。
高通,作為手機芯片巨頭,其在汽車領(lǐng)域的切入點為通訊和座艙芯片,從820A到8155、8295,占據(jù)中高端智能座艙市場的主要份額。
2020年1月,高通發(fā)布Snapdragon Ride自動駕駛計算平臺,含5nm驍龍8540、7nm驍龍9000,單板算力360TOPS,去年開始陸續(xù)上車;計劃于2024年量產(chǎn)的Snapdragon Ride Flex,綜合AI算力可達2000TOPS,同樣支持中央計算架構(gòu)。
英特爾方面,作為PC芯片巨頭,2017年以153億美元收購Mobileye,后者為視覺ADAS領(lǐng)域的開拓者,憑借“視覺算法+芯片”方案在L0-L2市場位居頭部地位。根據(jù)披露的信息,截至2022年底,Mobileye的SoC及方案累積搭載1.35億輛汽車,2022年,其出貨量約為3370萬套。
安霸方面,作為AI視覺芯片玩家,根據(jù)對外披露的信息,其2021年收購4D毫米波雷達算法公司傲酷。2022年1月,安霸發(fā)布AI域控制器CV3系列芯片,5nm制程、算力高達500 eTOPS。
第四類玩家,為TI、瑞薩等傳統(tǒng)汽車芯片巨頭。
瑞薩,2018年2月發(fā)布R-CAR V3H,并借助博世、電裝等Tier1在智能前視一體機放量;2022年3月,發(fā)布R-Car V4H,7nm制程,深度學(xué)習(xí)性能達34 TOPS,用于ADAS和AD解決方案的中央處理,計劃于2024年二季度開始量產(chǎn)。
TI主流的智駕產(chǎn)品包括TDA4 VL、TDA4 VM、TDA4 VH,算力分別為 4TOPS、8TOPS、32 TOPS,其中8TOPS的TDA4 VM已經(jīng)量產(chǎn),在輕量級行泊一體域控賽道成為主流選擇。
智駕芯片的第五類玩家,為特斯拉、大華股份(持股零跑汽車)、芯擎科技(吉利系)等車企自研玩家。后續(xù),還會有不少車企會涉足芯片定制甚至是自研。
特斯拉方面,其經(jīng)歷了從外購到自研芯片的歷程。2014-2016年采用Mobileye EyeQ3芯片,2016年~2019年基于DRIVE PX 2 AI計算平臺,2017年開啟芯片自研,2019年自研的FSD芯片上車,14nm制程,搭載2顆,算力達到144TOPS。
大華股份方面,其持股零跑汽車,后者也被稱為“大華系”的第二次創(chuàng)業(yè)。根據(jù)公開信息,2017年,零跑汽車決定自研智駕芯片,2020年10月,凌芯01發(fā)布,該芯片由零跑提出主體需求、主體架構(gòu),由芯昇科技(脫胎于大華股份芯片研究院)設(shè)計,28nm制程,單芯片4.2TOPS。
結(jié)語
就在鴻途?H30 正待上車的時間節(jié)點,后摩智能又開啟了第二代智能駕駛芯片產(chǎn)品鴻途?H50 的研發(fā),后者基于新一代更先進的天璇架構(gòu)設(shè)計,支持自然散熱條件,整體計算效率更高,預(yù)計將于 2024 年推出,支持客戶 2025 年的量產(chǎn)車型。
隨著后摩在存算一體方向持續(xù)發(fā)力,悄然間,一個新的智能駕駛芯片時代開啟了。
