為對(duì)抗英偉達(dá)，英特爾拿出全新技術(shù)，AI算力不再一家獨(dú)大

2023-06-07 來源：快科技

1521

AI，人工智能，這個(gè)東西其實(shí)一旦都不新鮮。

從早些年的科幻作品，到后來的逐步落地，從1997年IBM超級(jí)電腦“深藍(lán)”擊敗國際象棋大師卡斯帕羅夫，到2016年Google AlphaGo戰(zhàn)勝圍棋冠軍李世石，AI一直都在進(jìn)步，也一直在演化。

但因?yàn)樗懔λ惴?、技術(shù)能力、應(yīng)用場景等方面的種種限制，AI一直有些空中樓閣的感覺。

直到出現(xiàn)了ChatGPT，AI才真正引燃了普通人的熱情，讓我們發(fā)現(xiàn)，AI竟然如此強(qiáng)大，又如此唾手可得，讓眾多個(gè)體、企業(yè)為之興奮，為之癲狂。

Intel祭出全新“殺器”

AI無論實(shí)現(xiàn)方式還是應(yīng)用場景都是多種多樣的，既有云側(cè)的，也有端側(cè)的。

NVIDIA的重點(diǎn)在云側(cè)和生成式AI，Intel在云側(cè)生成式、端側(cè)判定式同時(shí)出擊，而隨著越來越多的AI跑在端側(cè)，更貼近普通用戶日常體驗(yàn)，所帶來的提升越來越明顯，Intel更是大有可為。

端側(cè)AI，說起來大家可能會(huì)感覺很陌生，但其實(shí)，人們習(xí)以為常的背景模糊、視覺美顏、聲音美化(音頻降噪)、視頻降噪、圖像分割等等，都是端側(cè)AI的典型應(yīng)用場景，背后都是AI在努力。

這些應(yīng)用要想獲得更好的效果，就需要更完善、復(fù)雜的網(wǎng)絡(luò)模型，對(duì)于算力的需求自然也在快速增長。比如噪音抑制，算力需求已經(jīng)是兩年前的50倍，背景分割也增長了10倍以上。更不要說生成式AI模型出現(xiàn)后，對(duì)算力的渴求更是飛躍式的，直接就是數(shù)量級(jí)的提升，無論是Stable Diffusion，還是語言類GTP，模型參數(shù)都是非?？鋸埖?。

比如GPT3的參數(shù)量達(dá)到了1750億左右，相比GPT2增加了幾乎500倍，GPT4估計(jì)可達(dá)到萬億級(jí)別。

這些都對(duì)硬件、算法提出了更苛刻的要求。

Intel自然也早就開始關(guān)注并投入AI，無論是服務(wù)器級(jí)的至強(qiáng)，還是消費(fèi)級(jí)的酷睿，都在以各種方式參與AI，“XX代智能酷睿處理器”的說法就在很大程度上源于AI。在Intel看來，沒有單一的硬件架構(gòu)適用于所有的AI場景，不同硬件各有特點(diǎn)，有的算力強(qiáng)大，有的延遲超低，有的全能，有的專攻。

AI作為基礎(chǔ)設(shè)施也有各種各樣的場景應(yīng)用和需求，負(fù)載、延遲都各不相同，比如實(shí)時(shí)語音和圖像處理不需要太強(qiáng)的算力，但是對(duì)延遲很敏感。這時(shí)候，Intel XPU戰(zhàn)略就有著相當(dāng)針對(duì)性的特殊優(yōu)勢，其中CPU適合對(duì)延遲敏感的輕量級(jí)AI處理，GPU適合重負(fù)載、高并行的AI應(yīng)用。Intel另一個(gè)無可比擬的優(yōu)勢就是穩(wěn)固、龐大的x86生態(tài)，無論應(yīng)用還是開發(fā)，都有著廣泛的群眾基礎(chǔ)。

現(xiàn)在，Intel又有了VPU。

將在今年晚些時(shí)候發(fā)布的Meteor Lake，會(huì)首次集成獨(dú)立的VPU單元，而且是所有型號(hào)標(biāo)配，可以更高效地執(zhí)行特定AI運(yùn)算。

Intel VPU單元的技術(shù)源頭來自Intel 2017年收購的AI初創(chuàng)企業(yè)Movidius，其設(shè)計(jì)的VPU架構(gòu)是革命性的，只需要1.5W功耗就能實(shí)現(xiàn)4TOPS的強(qiáng)大算力，能效比簡直逆天，最早用于無人機(jī)避障等，如今又走入了處理器之中，與CPU、GPU協(xié)同發(fā)力。

VPU本質(zhì)上是專為AI設(shè)計(jì)的一套新架構(gòu)，可以高效地執(zhí)行一些矩陣運(yùn)算，尤為擅長稀疏化處理，其超低的功耗、超高的能效非常適合一些需要長期打開并執(zhí)行的場景，比如視頻會(huì)議的背景虛化、移除，比如流媒體的手勢控制。

之所以在已經(jīng)有了CPU、GPU的情況下，還要做一個(gè)VPU，Intel的出發(fā)點(diǎn)是如今很多端側(cè)應(yīng)用是在筆記本上進(jìn)行，對(duì)于電池續(xù)航非常敏感，高能效的VPU用在移動(dòng)端就恰如其分。

另一個(gè)因素是CPU、GPU作為通用計(jì)算平臺(tái)，本身就任務(wù)繁重，再給它們增加大量AI負(fù)載，執(zhí)行效率就會(huì)大打折扣。

具體到應(yīng)用場景，VPU也是非常廣泛的，比如說視頻會(huì)議，現(xiàn)在的CPU AI已經(jīng)可以實(shí)現(xiàn)自動(dòng)構(gòu)圖(Auto-Framing)、眼球跟蹤、虛擬頭像/人像、姿勢識(shí)別等等。加入低功耗、高算力的VPU之后，還可以強(qiáng)化背景模糊、動(dòng)態(tài)降噪等處理，讓效果更加精準(zhǔn)，比如說背景中的物體該模糊的一律模糊、人手/頭發(fā)等不該模糊的不再模糊。有了高效的硬件、合適的場景，還需要同樣高效的軟件，才能釋放全部實(shí)力、實(shí)現(xiàn)最佳效果，這對(duì)于擁有上萬名軟件研發(fā)人員的Intel來說，真不是事兒。

Meteor Lake還沒有正式發(fā)布，Intel已經(jīng)與眾多生態(tài)伙伴在VPU方面展開了合作適配，獨(dú)立軟件開發(fā)商們也非常積極。

英偉達(dá)超級(jí)芯片已經(jīng)量產(chǎn)

在最近的Computex展會(huì)上，NVIDIA的創(chuàng)始人兼首席執(zhí)行官黃仁勛正式宣布旗下首款超級(jí)芯片GH200 Grace Hopper已經(jīng)開始全面量產(chǎn)。這款超級(jí)芯片集成了NVIDIA首款Grace CPU和Hopper GPU，標(biāo)志著NVIDIA兌現(xiàn)了此前的豪言壯志。

GH200 Grace Hopper的推出是為了滿足當(dāng)下快速增長的AI生成需求。Grace CPU采用了AMR架構(gòu)，擁有72個(gè)ARMv9內(nèi)核和117MB L3緩存。它還配備了512GB的LPDDR5X內(nèi)存，內(nèi)存帶寬高達(dá)546GB/s。而Hopper GPU則搭載了144個(gè)SM單元和96GB HBM3顯存，總計(jì)擁有18432個(gè)CUDA核心，L2緩存為60MB。這兩個(gè)組件通過專屬的NVLink交換系統(tǒng)相互結(jié)合，形成了Grace Hopper超級(jí)芯片。

令人驚嘆的是，GH200 Grace Hopper的計(jì)算能力達(dá)到了一百萬萬億次，相當(dāng)于4090的12195倍。這使得它與當(dāng)前最先進(jìn)的超級(jí)計(jì)算機(jī)媲美，甚至超越了它們。然而，NVIDIA并沒有止步于此。

黃仁勛隨即公布了名為DGX GH200的AI超級(jí)計(jì)算機(jī)，它由256顆Grace Hopper超級(jí)芯片構(gòu)成。這款超級(jí)計(jì)算機(jī)不僅大幅提升了帶寬，達(dá)到了前一代產(chǎn)品的48倍以上，而且還引人矚目地提供了共享內(nèi)存容量高達(dá)144TB。據(jù)NVIDIA稱，DGX GH200的計(jì)算能力將超過1EB，這個(gè)計(jì)算能力超過了當(dāng)前全球排名第一的超級(jí)計(jì)算機(jī)Frontier，后者的計(jì)算能力只略高于1EB。

量子計(jì)算是個(gè)好解法，但為時(shí)尚早

大模型算力之爭，短期看GPU自研，中期看存算、Chiplet，那么被投資人視為新計(jì)算方向的量子計(jì)算在其中又能扮演什么角色？

事實(shí)上，VC對(duì)量子計(jì)算的關(guān)注不只限于此次ChatGPT的熱潮，AR/VR、5G等新應(yīng)用場景的不斷涌現(xiàn)，以及各類型的應(yīng)用場景爆發(fā)式增長，讓市場對(duì)算力的需求水漲船高，產(chǎn)業(yè)亟待挖掘具有顛覆性的計(jì)算形式。

量子計(jì)算作為一種新型架構(gòu)的計(jì)算，可以實(shí)現(xiàn)指數(shù)級(jí)算力提升，更可謂是不得不關(guān)注的焦點(diǎn)。

據(jù)企查查數(shù)據(jù)顯示，2017年至今，國內(nèi)量子計(jì)算賽道共完成31起融資事件，公開披露融資金額超25億元，融資主要發(fā)生在2021年及以后，占比近7成。其中圖靈量子、本源量子、量旋科技、玻色量子、國儀量子等在近年獲多輪融資。

對(duì)于這一疑問，量旋科技CEO項(xiàng)金根對(duì)量子計(jì)算跟經(jīng)典計(jì)算機(jī)的算力差距，給出了飛機(jī)和地面交通工具的比喻。

他表示，當(dāng)下存算、光芯片、其他一些封裝的改進(jìn)技術(shù)，本質(zhì)上還是經(jīng)典計(jì)算機(jī)的范疇，它運(yùn)算的原理跟GPU本質(zhì)上沒有太大改變，更多是在傳統(tǒng)的框架下做的一些改進(jìn)，使得人工智能的芯片效率更高。

對(duì)于現(xiàn)有的AI芯片、存算一體或其他封裝技術(shù)對(duì)AI算力的提升，項(xiàng)金根表示認(rèn)可，同時(shí)他也認(rèn)為需要不同維度去看不同解決方案對(duì)算力的助力，這里面不一定存在最優(yōu)解。

“未來，量子計(jì)算機(jī)肯定能夠助力人工智能。AI需要的算力會(huì)越來越多，到 2030 年左右可能不光是算力，連耗電量都是非?？植赖臄?shù)據(jù)級(jí)。所以要真正解決AI大規(guī)模的算力需求，量子計(jì)算機(jī)是一個(gè)很有潛力的應(yīng)用方向，而且量子計(jì)算機(jī)的運(yùn)算模式跟人工智能有天然的貼合性，量子計(jì)算機(jī)可以加速AI的一些應(yīng)用場景，而AI亦可以加速量子計(jì)算的研發(fā)，優(yōu)化其操控精度?！?/span>

那么，如此具有革命性的量子計(jì)算何時(shí)能應(yīng)用到AI領(lǐng)域？項(xiàng)金根認(rèn)為，到2030年行業(yè)發(fā)展順利進(jìn)入容錯(cuò)量子計(jì)算階段，將可能是一個(gè)落地的時(shí)間點(diǎn)。

相較于項(xiàng)金根給出的10年之約，俞悅認(rèn)為量子計(jì)算相關(guān)算法在一些行業(yè)特定任務(wù)上的嘗試落地，在這個(gè)時(shí)間點(diǎn)可能會(huì)有一些結(jié)果，至于解決AI的通用任務(wù)上，他則相對(duì)保守地給出了“50年”的看法。甚至投了圖靈量子的聯(lián)想創(chuàng)投也表示，量子計(jì)算從產(chǎn)業(yè)化的角度看，仍挑戰(zhàn)諸多，充滿機(jī)遇。

聯(lián)想創(chuàng)投坦言，量子計(jì)算落地需要解決百萬量子比特操縱能力、低環(huán)境要求、高集成度等核心問題，具有較高的入局門檻，其產(chǎn)業(yè)化仍面臨技術(shù)路徑不確定、人才儲(chǔ)備稀缺、產(chǎn)業(yè)鏈配套早期以及無法用傳統(tǒng)的邏輯、電路思維進(jìn)行推導(dǎo)和復(fù)刻的四大痛點(diǎn)。

如此看來，這些問題待解之下，量子計(jì)算就略微顯得理想豐滿、現(xiàn)實(shí)骨感。

此外，俞悅還指出，從邏輯上說，量子計(jì)算肯定能解決很多算力問題，但即便如此，還需要結(jié)合成本，才能知道量子計(jì)算是不是一個(gè)從投入產(chǎn)出看的最佳方案。

在俞悅看來，眼下量子計(jì)算行業(yè)還未發(fā)生一些根本性的變化進(jìn)展，中短期與其寄希望于其他方案來解決大模型所遇到的算力問題，不如指望GPU這些經(jīng)典計(jì)算的硬件價(jià)格能下來。

“解決算力的成本肯定會(huì)越來越便宜，GPU價(jià)格對(duì)于大模型玩家來說只是暫時(shí)的，終究不會(huì)對(duì)AI發(fā)展構(gòu)成太大瓶頸。而其他方案的成熟還需要很多配套的軟件生態(tài)匹配，相對(duì)來說更是一個(gè)非常長周期的事情?！?/span>