英偉達(dá)一口氣收購(gòu)兩家AI企業(yè),打的什么主意?
英偉達(dá)又出手了!繼去年投資30多家創(chuàng)企后,近期該公司又投資了兩家人工智能初創(chuàng)企業(yè)Run:ai與Deci。
當(dāng)?shù)貢r(shí)間4月24日,英偉達(dá)宣布,已經(jīng)同Run:ai簽訂最終收購(gòu)協(xié)議。公司認(rèn)為,這能夠幫助客戶更有效地利用其AI計(jì)算資源。
Run:ai成立于2018年,是一家基于開源容器編排平臺(tái)Kubernetes的工作負(fù)載管理和編排軟件提供商。當(dāng)下,AI的部署變得越來(lái)越復(fù)雜,工作負(fù)載分布在云、邊緣和本地?cái)?shù)據(jù)中心基礎(chǔ)設(shè)施中。管理和編排生成式AI、推薦系統(tǒng)、搜索引擎和其他工作負(fù)載需要復(fù)雜的調(diào)度,從而優(yōu)化系統(tǒng)級(jí)別和底層基礎(chǔ)設(shè)施的性能。
而Run:ai的產(chǎn)品能夠?qū)崿F(xiàn)高效GPU集群的資源利用。簡(jiǎn)單來(lái)說(shuō),其產(chǎn)品能夠支持開發(fā)人員并行運(yùn)行多個(gè)AI工作負(fù)載,從而提高AI芯片的利用效率,降低了成本。
目前,Run:ai的解決方案已與英偉達(dá)的DGX、DGX SuperPOD、Base Command、NGC容器和AI Enterprise軟件等產(chǎn)品結(jié)合,英偉達(dá)DGX和DGX Cloud的客戶將能夠使用Run:ai的AI工作負(fù)載功能。
英偉達(dá)官方并未透露收購(gòu)交易金額等條款詳情。但據(jù)以色列媒體Calcalist等相關(guān)媒體日前報(bào)道,交易金額為7億美元。
同樣收獲英偉達(dá)青睞的另一家AI創(chuàng)企Deci,也致力于實(shí)現(xiàn)AI芯片的“降本增效”。據(jù)The Information報(bào)道,英偉達(dá)同意收購(gòu)以色列初創(chuàng)公司Deci,無(wú)法獲悉具體的收購(gòu)金額。
據(jù)Deci官網(wǎng),該公司成立于2019年,其提供高效的生成式AI和計(jì)算機(jī)視覺模型,可部署在各種環(huán)境中,同時(shí)保持?jǐn)?shù)據(jù)安全并控制推理成本。
據(jù)了解,其解決方案通過(guò)調(diào)整AI模型大小,從而使其能夠在AI芯片上更便宜地運(yùn)行。目前,Deci已與微軟、英特爾、AMD、亞馬遜等多家科技巨頭達(dá)成合作。
不難看出,英偉達(dá)這兩筆投資的目的都在于幫助其客戶更加有效的利用自家AI芯片產(chǎn)品。
The Information相關(guān)報(bào)道指出,兩位了解交易情況的人稱,Run:ai提高AI芯片效率的能力可能會(huì)吸引更多客戶使用NVIDIA DGX Cloud。另外,英偉達(dá)可能會(huì)提供Deci以及CUDA軟件,從而使開發(fā)人員能夠更便宜地構(gòu)建AI驅(qū)動(dòng)的應(yīng)用程序。
英偉達(dá)在官方通稿中亦指出,客戶期望從更好的GPU利用率、改進(jìn)的GPU基礎(chǔ)設(shè)施管理以及開放式架構(gòu)帶來(lái)的更大靈活性中受益。
英偉達(dá)“最強(qiáng)AI芯片”誕生
2024 GTC大會(huì)上,黃仁勛介紹了運(yùn)行AI模型的新一代芯片和軟件。他表示,新一代的B200 GPU擁有2080億個(gè)晶體管,可以提供高達(dá)20 petaflops的FP4性能。相比之下,H100僅為4 petaflops。
此外,將兩個(gè)B200 GPU與單個(gè)Grace CPU 結(jié)合在一起的 GB200,可以為L(zhǎng)LM推理工作負(fù)載提供30倍的性能,并且顯著提高效率。
黃仁勛還強(qiáng)調(diào)稱:“與H100相比,GB200的成本和能耗降低了25倍!
關(guān)于市場(chǎng)近期頗為關(guān)注的能源消耗問(wèn)題,B200 GPU也交出了最新的答卷。
黃仁勛表示,此前訓(xùn)練一個(gè)1.8 萬(wàn)億參數(shù)模型,需要8000 個(gè) Hopper GPU 并消耗15 MW電力。但如今,2000 個(gè) Blackwell GPU就可以實(shí)現(xiàn)這一目標(biāo),耗電量?jī)H為4MW。
在擁有1750億參數(shù)的GPT-3大模型基準(zhǔn)測(cè)試中,GB200的性能是H100的7倍,訓(xùn)練速度是H100的4倍。
值得一提的是,B200 GPU的重要進(jìn)步之一,是采用了第二代Transformer引擎。
它通過(guò)對(duì)每個(gè)神經(jīng)元使用4位(20 petaflops FP4)而不是8位,直接將計(jì)算能力、帶寬和模型參數(shù)規(guī)模翻了一倍。
而只有當(dāng)這些大量的GPU連接在一起時(shí),第二個(gè)重要區(qū)別才會(huì)顯現(xiàn),那就是新一代NVLink交換機(jī)可以讓576個(gè)GPU相互通信,雙向帶寬高達(dá)1.8TB/秒。
而這就需要英偉達(dá)構(gòu)建一個(gè)全新的網(wǎng)絡(luò)交換芯片,其中包括500億個(gè)晶體管和一些自己的板載計(jì)算:擁有3.6 teraflops FP8處理能力。
在此之前,僅16個(gè)GPU組成的集群,就會(huì)耗費(fèi)60%的時(shí)間用于相互通信,只有40%的時(shí)間能用于實(shí)際計(jì)算。
一石激起千層浪,“最強(qiáng)AI芯片”的推出讓網(wǎng)友紛紛贊嘆。
其中英偉達(dá)高級(jí)科學(xué)家Jim Fan直呼:Blackwell新王誕生,新的摩爾定律已經(jīng)應(yīng)運(yùn)而生。
無(wú)芯片,不AI
AI芯片是AI算力的核心。
有說(shuō)法稱,對(duì)標(biāo)ChatGPT,做好一個(gè)大模型的最低門檻就是1萬(wàn)塊A100的芯片。前面說(shuō)到,隨著人工智能應(yīng)用場(chǎng)景和數(shù)據(jù)規(guī)模的擴(kuò)大,算法模型的復(fù)雜度呈指數(shù)級(jí)增長(zhǎng),特別是深度學(xué)習(xí)成為主流,需要更快的計(jì)算速度。雖然CPU可以執(zhí)行AI算法,但由于內(nèi)部邏輯多,對(duì)于AI算法來(lái)說(shuō)效率不高。因此,出現(xiàn)了專門的AI芯片,它們?cè)O(shè)計(jì)用于高效并行計(jì)算,加速AI計(jì)算過(guò)程,并提高性價(jià)比。
廣義而言,AI 芯片指的是專門用于處理人工智能應(yīng)用中大量計(jì)算任務(wù)的模塊,除了以 GPU、FPGA、ASIC 為代表的 AI 加速芯片,還有比較前沿性的研究,例如:類腦芯片、可重構(gòu)通用 AI 芯片等。狹義的 AI 芯片指的是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。
這里面,GPU是AI芯片主力軍,因?yàn)樗鼡碛凶吭降母咝阅苡?jì)算能力和通用性,適用于處理復(fù)雜算法和通用型人工智能平臺(tái)。而隨著人工智能技術(shù)、平臺(tái)和終端的不斷成熟,隨著視覺、語(yǔ)音、深度學(xué)習(xí)的算法在FPGA以及ASIC芯片上的不斷優(yōu)化,此兩者也有望逐步占有更多的市場(chǎng)份額。
根據(jù)VMR數(shù)據(jù),全球和中國(guó)的GPU市場(chǎng)規(guī)模預(yù)計(jì)將繼續(xù)快速增長(zhǎng)。2021年全球GPU市場(chǎng)規(guī)模達(dá)到334.7億美元,預(yù)計(jì)到2030年將增至4773.7億美元,年復(fù)合增長(zhǎng)率達(dá)34.4%。2020年中國(guó)GPU市場(chǎng)規(guī)模為47.39億美元,預(yù)計(jì)到2027年將增至345.57億美元,年復(fù)合增長(zhǎng)率為32.8%。這表明GPU在人工智能領(lǐng)域的需求將繼續(xù)擴(kuò)大,并將成為市場(chǎng)的重要推動(dòng)力量。
尋找中國(guó)版英偉達(dá),期待國(guó)產(chǎn)替代空間
對(duì)于AI在下一輪科技革命中的地位,各國(guó)已經(jīng)形成共識(shí),都在紛紛搶灘。從中美對(duì)比來(lái)說(shuō),競(jìng)爭(zhēng)優(yōu)勢(shì)的爭(zhēng)奪就主要涉及前面提到的算法、大數(shù)據(jù)資源和算力三方面。在算法設(shè)計(jì)方面,雙方?jīng)]有明顯差距,主要依賴設(shè)計(jì)團(tuán)隊(duì)的智慧和靈感;在大數(shù)據(jù)資源方面,中國(guó)占據(jù)著絕對(duì)優(yōu)勢(shì),雙方在大數(shù)據(jù)分析技術(shù)上相近。然而,決定人工智能產(chǎn)品的關(guān)鍵要素還包括“算力",計(jì)算能力是計(jì)算機(jī)的核心能力,這也是中美兩國(guó)長(zhǎng)期競(jìng)爭(zhēng)超級(jí)計(jì)算機(jī)領(lǐng)域的原因之一。國(guó)內(nèi)大模型與國(guó)外的主要差距也體現(xiàn)在算力層面,沒(méi)有算力基礎(chǔ),后面算法等發(fā)展都無(wú)法進(jìn)行。
在AI芯片領(lǐng)域,國(guó)外的芯片巨頭占據(jù)了大部分市場(chǎng)份額,有著明顯的先發(fā)優(yōu)勢(shì),比如英偉達(dá)、AMD、英特爾的營(yíng)收幾乎代表整個(gè)GPU行業(yè)收入。而國(guó)內(nèi)的AI芯片產(chǎn)業(yè)起步較晚,與世界先進(jìn)水平存在較大差距,國(guó)內(nèi)AI芯片市場(chǎng)也較為分散,集中度較低,發(fā)展空間巨大。
不過(guò),國(guó)內(nèi)一批新興力量正在崛起,競(jìng)爭(zhēng)梯隊(duì)越發(fā)豐富。從國(guó)內(nèi)AI芯片廠商格局來(lái)看,以大算力或者高性能計(jì)算芯片為代表,一梯隊(duì),有成熟產(chǎn)品、批量出貨的企業(yè),主要包括寒武紀(jì)、華為海思、百度昆侖芯、燧原科技,這四家有2-3代更多的產(chǎn)品,技術(shù)能力、軟件能力都有一定積累;二梯隊(duì),主要包括以AI芯片起家的壁仞科技、天數(shù)智心、摩爾線程、沐曦等。壁仞科技去年發(fā)布的產(chǎn)品規(guī)格很高,但主要還停留在紙面數(shù)據(jù),實(shí)測(cè)數(shù)據(jù)、實(shí)際性能方面業(yè)界和第三方評(píng)測(cè)機(jī)構(gòu)評(píng)價(jià)沒(méi)有那么高,軟件層面從使用角度來(lái)講也還有很大的成長(zhǎng)空間。其他幾家也陸續(xù)有產(chǎn)品推出,但技術(shù)能力還停留在推理層面,不像一梯隊(duì)企業(yè)有更成熟的產(chǎn)品經(jīng)驗(yàn);三梯隊(duì),如海光、景嘉微等。技術(shù)能力還有待市場(chǎng)的認(rèn)可和驗(yàn)證。
從產(chǎn)品來(lái)說(shuō),目前國(guó)內(nèi)已經(jīng)批量生產(chǎn)的產(chǎn)品大多都是A100的上一代,如昆侖芯三代、思遠(yuǎn)590、燧思3.0等,不過(guò),各公司正在研發(fā)更新一代產(chǎn)品,縮小國(guó)內(nèi)外差距。向后看,基于國(guó)家政策的大力支持,以及自主可控的迫切需求,中國(guó)廠商有望迎來(lái)更大的國(guó)產(chǎn)替代機(jī)遇。而如果國(guó)內(nèi)產(chǎn)品能夠替代英偉達(dá)的算力產(chǎn)品,將會(huì)是非常大的機(jī)會(huì)。數(shù)據(jù)中心建設(shè)方面也需要服務(wù)器,會(huì)帶動(dòng)國(guó)內(nèi)提供大型服務(wù)器的廠商,比如浪潮信息、中科曙光等,以及光模塊、調(diào)節(jié)芯片和散熱技術(shù),需求都會(huì)受益于大模型浪潮。相信隨著國(guó)內(nèi)企業(yè)的持續(xù)投入和創(chuàng)新,以及政府的支持,中國(guó)在人工智能領(lǐng)域的發(fā)展勢(shì)頭仍然很強(qiáng),有望逐步縮小與國(guó)外競(jìng)爭(zhēng)對(duì)手的差距。
