英偉達(dá)B200芯片及新架構(gòu)發(fā)布，加碼具身智能

2024-03-26 來源：Ai芯天下

3760

關(guān)鍵詞：人工智能 GPU 臺(tái)積電

發(fā)布最強(qiáng)芯片B200，可組超級(jí)芯片GB200

英偉達(dá)全新推出的GPU平臺(tái)Blackwell，兼容Hopper的普通系統(tǒng)以及連接Grace CPU的專用系統(tǒng)。

該平臺(tái)催生了B200芯片，其晶體管數(shù)量高達(dá)2080億，遠(yuǎn)超H100的800億。

這一顯著增長(zhǎng)意味著B200芯片具有強(qiáng)大的并行計(jì)算能力，英偉達(dá)宣稱其為全球領(lǐng)先的人工智能芯片。

B200能夠在十萬億級(jí)參數(shù)模型上實(shí)現(xiàn)高效的AI訓(xùn)練和實(shí)時(shí)的LLM（大語(yǔ)言模型）推理。

B200由兩個(gè)超大型Die（裸片）封裝組合而成，內(nèi)含超過2080億個(gè)晶體管，較前一代的800億個(gè)晶體管數(shù)量翻了一番。

此外，整塊芯片還封裝有192GB高速HBM3e顯存，以滿足高性能計(jì)算的需求。

通過將Grace CPU與兩個(gè)B200 GPU結(jié)合，形成了超級(jí)芯片GB200。

與H00芯片相比，GB200為大模型推理負(fù)載提供了30倍的性能提升，同時(shí)降低了25%的成本和能耗。

與相同數(shù)量的英偉達(dá)H100 Tensor Core GPU相比，GB200 NVL72在LLM推理工作負(fù)載方面的性能最多可提升30倍，成本和能耗最多可降低25倍。

此外，英偉達(dá)還發(fā)布了基于GB200的DGX Super Pod一站式AI超算解決方案。

該方案采用高效液冷機(jī)架，配置8套DGX GB200系統(tǒng)，即288顆Grace CPU和576顆B200 GPU，內(nèi)存總量達(dá)240TB。

其FP4精度計(jì)算性能高達(dá)每秒11.5百億億次，相比上一代產(chǎn)品，推理性能提升30倍，訓(xùn)練性能提升4倍。

值得注意的是，英偉達(dá)此次轉(zhuǎn)向多芯片設(shè)計(jì)，放棄了傳統(tǒng)的單體芯片策略。

這一轉(zhuǎn)變?cè)从贐200所采用的臺(tái)積電改進(jìn)版N4P工藝，在晶體管密度上并未實(shí)現(xiàn)顯著突破。

與此同時(shí)，H100芯片已接近其理論最大尺寸。因此，采用雙芯片設(shè)計(jì)似乎是一種合理的選擇。

[Blackwell]成為下一代AI平臺(tái)

Blackwell是一款專為數(shù)據(jù)中心設(shè)計(jì)的先進(jìn)芯片平臺(tái)，針對(duì)當(dāng)前熱門的AI大模型進(jìn)行優(yōu)化，顯著提升了訓(xùn)練和推理性能以及能效。

與英偉達(dá)的Grace CPU和新一代網(wǎng)絡(luò)芯片等產(chǎn)品相結(jié)合，Blackwell共同構(gòu)成了一個(gè)完整的生成式AI解決方案。

Blackwell不僅僅是一款芯片，更是一個(gè)全新的技術(shù)平臺(tái)。

基于該平臺(tái)，英偉達(dá)衍生出了包括GPU、AI超級(jí)芯片、服務(wù)器、大型計(jì)算集群和云服務(wù)在內(nèi)的多套解決方案，為用戶提供全方位的技術(shù)支持。

新款GPU架構(gòu)[Blackwell]以美國(guó)數(shù)學(xué)家David Harold Blackwell命名，其中的GPU芯片B200采用了臺(tái)積電4NP制造工藝。

在訓(xùn)練方面，Blackwell架構(gòu)展示了顯著效率。以往90天內(nèi)，訓(xùn)練一個(gè)1.8萬億參數(shù)規(guī)模的模型需要8000個(gè)Hopper架構(gòu)的GPU，并消耗15兆瓦的功率。

而現(xiàn)在，僅需2000個(gè)Blackwell架構(gòu)的GPU，功率降低至4兆瓦，即可在相同時(shí)間內(nèi)完成任務(wù)。

在推理領(lǐng)域，Blackwell架構(gòu)的芯片性能是先前Hopper架構(gòu)芯片的30倍。

除了硬件性能的提升，Blackwell還引入了第二代Transformer引擎。

該引擎通過為每個(gè)神經(jīng)元使用4位而不是8位，實(shí)現(xiàn)了計(jì)算、帶寬和模型大小的兩倍提升。

同時(shí)，配備的第五代NVLink技術(shù)為每個(gè)GPU提供了1.8TB/s的雙向吞吐量，確保了多達(dá)576個(gè)GPU之間的無縫高速通信。

目前，亞馬遜云科技、戴爾科技、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉和xAI等知名企業(yè)已計(jì)劃采用Blackwell產(chǎn)品，以推動(dòng)其AI技術(shù)和應(yīng)用的進(jìn)一步發(fā)展。

發(fā)布人形機(jī)器人，加碼具身智能

英偉達(dá)在達(dá)到上一個(gè)萬億市值的過程中，主要得益于其在GPU與算力領(lǐng)域的卓越表現(xiàn)。展望未來，公司預(yù)測(cè)機(jī)器人開發(fā)領(lǐng)域?qū)⒊蔀槠涫兄翟鲩L(zhǎng)的新動(dòng)力。

今年初，英偉達(dá)資深科學(xué)家Jim Fan宣布成立GEAR工作室，其研究成果和研究環(huán)境為英偉達(dá)的新機(jī)器人解決方案奠定了堅(jiān)實(shí)的基礎(chǔ)。

英偉達(dá)近期發(fā)布了名為Project GR00T的人形機(jī)器人基礎(chǔ)模型。這一模型具備通用性，可以作為機(jī)器人的核心處理器，使機(jī)器人具備學(xué)習(xí)和執(zhí)行各種任務(wù)的能力。

通過語(yǔ)言、視頻和人類演示，GR00T能夠理解自然語(yǔ)言，模仿人類動(dòng)作，并快速學(xué)習(xí)協(xié)調(diào)性、靈活性以及其他技能，從而與現(xiàn)實(shí)世界融合并與人類進(jìn)行互動(dòng)。

此外，英偉達(dá)對(duì)其針對(duì)機(jī)器人市場(chǎng)的Isaac機(jī)器人平臺(tái)進(jìn)行了重大更新。

新推出的Jetson Thor人形機(jī)器人計(jì)算機(jī)，基于Thor芯片，能夠執(zhí)行復(fù)雜任務(wù)并處理多個(gè)傳感器數(shù)據(jù)。

該計(jì)算機(jī)具備每秒800萬億次8位浮點(diǎn)運(yùn)算的AI性能，可以運(yùn)行GR00T等多模態(tài)生成式AI模型，并簡(jiǎn)化設(shè)計(jì)和集成流程。

英偉達(dá)正在構(gòu)建三大平臺(tái)——IAI、Omniverse和ISAAC，這些平臺(tái)均與機(jī)器人產(chǎn)業(yè)緊密相關(guān)。

IAI搭載DGX系列產(chǎn)品，用于模擬物理世界；Omniverse搭載RTX和OVX系列產(chǎn)品，驅(qū)動(dòng)數(shù)字孿生的計(jì)算系統(tǒng)；而ISAAC則搭載AGX系列，驅(qū)動(dòng)人工智能機(jī)器人。

同時(shí)，ISAAC Lab整合了ISAAC MANIPULATOR加速庫(kù)平臺(tái)和ISAAC PERCEPTOR軟件庫(kù)，分別用于提升機(jī)械臂的靈敏度和精確度以及服務(wù)機(jī)器人的感知能力。

英偉達(dá)透露，他們正在與多家人形機(jī)器人公司合作開發(fā)一個(gè)綜合AI平臺(tái)，包括1X Technologies、Agility Robotics、Apptronik、波士頓動(dòng)力公司、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等。

這一戰(zhàn)略舉措有望為英偉達(dá)帶來下一個(gè)萬億市值的增長(zhǎng)空間。

結(jié)尾：

在黃仁勛看來，英偉達(dá)站在計(jì)算科學(xué)和物理等一切科學(xué)的交叉點(diǎn)，成為新工業(yè)革命的引擎。

除了硬件系統(tǒng)，英偉達(dá)也利用生成式 AI 構(gòu)建了一系列元宇宙、工業(yè)數(shù)字孿生、機(jī)器人訓(xùn)練軟件體系。

如今，黃仁勛已經(jīng)在生成式AI領(lǐng)域拔得頭籌，帶領(lǐng)著下一場(chǎng)工業(yè)革命的開啟。