HBM3來了!HBM未來潛力與演進方向在哪?
由于處理器與存儲器的工藝、封裝、需求的不同,從1980年開始至今二者之間的性能差距越來越大。有數(shù)據(jù)顯示,處理器和存儲器的速度失配以每年50%的速率增加。
存儲器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度,數(shù)據(jù)傳輸就像處在一個巨大的漏斗之中,不管處理器灌進去多少,存儲器都只能“細水長流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲與運算之間筑起了一道“內(nèi)存墻”。
隨著數(shù)據(jù)的爆炸勢增長,內(nèi)存墻對于計算速度的影響愈發(fā)顯現(xiàn)。為了減小內(nèi)存墻的影響,提升內(nèi)存帶寬一直是存儲芯片聚焦的關(guān)鍵問題。
長期以來,內(nèi)存行業(yè)的價值主張在很大程度上始終以系統(tǒng)級需求為導(dǎo)向,已經(jīng)突破了系統(tǒng)性能的當前極限。很明顯的一點是,內(nèi)存性能的提升將出現(xiàn)拐點,因為越來越多人開始質(zhì)疑是否能一直通過內(nèi)存級的取舍(如功耗、散熱、占板空間等)來提高系統(tǒng)性能。
基于對先進技術(shù)和解決方案開展的研究,內(nèi)存行業(yè)在新領(lǐng)域進行了更深入的探索。作為存儲器市場的重要組成部分,DRAM技術(shù)不斷地升級衍生。DRAM從2D向3D技術(shù)發(fā)展,其中HBM是主要代表產(chǎn)品。
HBM(High Bandwidth Memory,高帶寬內(nèi)存)是一款新型的CPU/GPU 內(nèi)存芯片,其實就是將很多個DDR芯片堆疊在一起后和GPU封裝在一起,實現(xiàn)大容量,高位寬的DDR組合陣列。
通過增加帶寬,擴展內(nèi)存容量,讓更大的模型,更多的參數(shù)留在離核心計算更近的地方,從而減少內(nèi)存和存儲解決方案帶來的延遲。
從技術(shù)角度看,HBM使DRAM從傳統(tǒng)2D轉(zhuǎn)變?yōu)榱Ⅲw3D,充分利用空間、縮小面積,契合半導(dǎo)體行業(yè)小型化、集成化的發(fā)展趨勢。HBM突破了內(nèi)存容量與帶寬瓶頸,被視為新一代DRAM解決方案,業(yè)界認為這是DRAM通過存儲器層次結(jié)構(gòu)的多樣化開辟一條新的道路,革命性提升DRAM的性能。
在內(nèi)存領(lǐng)域,一場關(guān)于HBM的競賽已悄然打響。
為什么HBM很重要
自HBM首次宣布以來的十年里,已有2.5代標準進入市場。在此期間,創(chuàng)建、捕獲、復(fù)制和消耗的數(shù)據(jù)量從2010年的2 ZB增加到2020年的64.2 ZB,據(jù)Statista預(yù)測,這一數(shù)字將在2025年增長近三倍,達到181 ZB。
Synopsys的高級產(chǎn)品營銷經(jīng)理Anika Malhotra表示:“2016年,HBM2將信令速率提高了一倍,達到2 Gbps,帶寬達到256 GB/s。兩年后,HBM2E出現(xiàn)了,實現(xiàn)了3.6 Gbps和460 GB/s的數(shù)據(jù)速率。性能需求在增加,高級工作負載對帶寬的需求也在增加,因為更高的內(nèi)存帶寬是實現(xiàn)計算性能的關(guān)鍵因素?!?/span>
“除此之外,為了更快地處理所有這些數(shù)據(jù),芯片設(shè)計也變得越來越復(fù)雜,通常需要專門的加速器、片內(nèi)或封裝內(nèi)存儲器及接口。HBM被視為將異構(gòu)分布式處理推到一個完全不同水平的一種方式?!?/span>
“最初,高帶寬內(nèi)存只是被圖形公司視為進化方向上的一步;但是后來網(wǎng)絡(luò)和數(shù)據(jù)中心意識到HBM可以為內(nèi)存結(jié)構(gòu)帶來更多的帶寬。所有推動數(shù)據(jù)中心采用HBM的動力在于更低延遲、更快訪問和更低功耗?!盡alhotra說。“通常情況下,CPU為內(nèi)存容量進行優(yōu)化,而加速器和GPU為內(nèi)存帶寬進行優(yōu)化。但是隨著模型尺寸的指數(shù)增長,系統(tǒng)對容量和帶寬的需求同時在增長(即不會因為增加容量后,對帶寬需求降低)。我們看到更多的內(nèi)存分層,包括支持對軟件可見的HBM + DDR,以及使用HBM作為DDR的軟件透明緩存。除了CPU和GPU, HBM也很受數(shù)據(jù)中心FPGA的歡迎。”
HBM最初的目的是替代GDDR等其他內(nèi)存,由一些領(lǐng)先的半導(dǎo)體公司(特別是英偉達和AMD)推動。這些公司仍然在JEDEC工作組中大力推動其發(fā)展,英偉達是該工作組的主席,AMD是主要貢獻者之一。
Synopsys產(chǎn)品營銷經(jīng)理Brett Murdock表示:“GPU目前有兩種選擇。一種是繼續(xù)使用GDDR,這種在SoC周圍會有大量的外設(shè);另一種是使用HBM,可以讓用戶獲得更多的帶寬和更少的物理接口,但是整體成本相對更高。還有一點需要強調(diào)的是物理接口越少,功耗越低。所以使用GDDR非常耗電,而HBM非常節(jié)能。所以說到底,客戶真正想問的是花錢的首要任務(wù)是什么?對于HBM3,已經(jīng)開始讓答案朝‘可能應(yīng)該把錢花在HBM上’傾斜?!?/span>
盡管在最初推出時,HBM 2/2e僅面向AMD和Nvidia這兩家公司,但現(xiàn)在它已經(jīng)擁有了龐大的用戶基礎(chǔ)。當HBM3最終被JEDEC批準時,這種增長有望大幅擴大。
HBM3性能未來可期
HBM3帶來的性能提升大家應(yīng)該都比較清楚了,傳輸速率是HBM2的兩倍,達到了6.4Gb/s,使得每個堆棧最高可達819GB/s的帶寬??捎玫莫毩⑼ǖ酪矎腍BM2的8個擴充至16個,加上每個通道兩個偽通道的設(shè)計,HBM3可以說支持到32通道了,提供更優(yōu)秀的時序來提升系統(tǒng)性能。
HBM3的TSV堆疊層數(shù)支持4-high、8-high和12-high,這倒是和HBM2e沒有什么差別。從SK海力士提供的機械結(jié)構(gòu)圖來看,無論是8Hi還是12Hi,其封裝大小和高度都是一樣的,只不過是減小了中間堆疊的裸片高度。這僅僅是第一代HBM3,未來HBM3會擴展至16-high的TSV堆棧,單設(shè)備的內(nèi)存密度范圍也將達到4GB至64GB,不過第一代HBM3設(shè)備的話,目前用到的依然是16GB的內(nèi)存層。
此外,在散熱上,通過增加dummy bump、增加HBM3裸片大小并降低間隙高度,HBM3成功將溫度降低了25%,實現(xiàn)了更好的散熱性能。在7位ADC的支持下,HBM3的溫度傳感器也能以1℃的分辨率輸出0到127℃的溫度信息。
HBM未來潛力與演進方向
對于接下來的規(guī)劃策略和技術(shù)進步,業(yè)界旨在突破目前HBM在速度、密度、功耗、占板空間等方面的極限。
首先,為了打破速度極限,SK海力士正在評估提高引腳數(shù)據(jù)速率的傳統(tǒng)方法的利弊,以及超過1024個數(shù)據(jù)的I/O總線位寬,以實現(xiàn)更好的數(shù)據(jù)并行性和向后設(shè)計兼容性。簡單來講,即用最少的取舍獲得更高的帶寬性能。
針對更大數(shù)據(jù)集、訓(xùn)練工作負載所需的更高內(nèi)存密度要求,存儲廠商開始著手研究擴展Die堆疊層數(shù)和物理堆疊高度,以及增加核心Die密度以優(yōu)化堆疊密度。
另一方面也在致力于提高功耗效率,通過評估從最低微結(jié)構(gòu)級別到最高Die堆疊概念的內(nèi)存結(jié)構(gòu)和操作方案,最大限度地降低每帶寬擴展的絕對功耗。由于現(xiàn)有中介層光罩尺寸的物理限制以及支持處理單元和HBM Cube的其他相關(guān)技術(shù),實現(xiàn)總內(nèi)存Die尺寸最小化尤為重要。因此,行業(yè)廠商需要在不擴大現(xiàn)有物理尺寸的情況下增加存儲單元數(shù)量和功能,從而實現(xiàn)整體性能的飛躍。
但從產(chǎn)業(yè)發(fā)展歷程來看,完成上述任務(wù)的前提是:存儲廠商要與上下游生態(tài)系統(tǒng)合作伙伴攜手合作和開放協(xié)同,將HBM的使用范圍從現(xiàn)有系統(tǒng)擴展到潛在的下一代應(yīng)用。
此外,新型HBM-PIM(存內(nèi)計算)芯片將AI引擎引入每個存儲庫,從而將處理操作轉(zhuǎn)移到HBM。
在傳統(tǒng)架構(gòu)下,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接嬎銌卧枰墓氖怯嬎惚旧淼募s200倍,數(shù)據(jù)的搬運耗費的功耗遠大于計算,因此真正用于計算的能耗和時間占比很低,數(shù)據(jù)在存儲器與處理器之間的頻繁遷移帶來嚴重的傳輸功耗問題,稱為“功耗墻”。新型的內(nèi)存旨在減輕在內(nèi)存和處理器之間搬運數(shù)據(jù)的負擔。
寫在最后
過去幾年來,HBM產(chǎn)品帶寬增加了數(shù)倍,目前已接近或達到1TB/秒的里程碑節(jié)點。相較于同期內(nèi)其他產(chǎn)品僅增加兩三倍的帶寬增速,HBM的快速發(fā)展歸功于存儲器制造商之間的競爭和比拼。
存儲器帶寬指單位時間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,最簡單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量。事實上,每個HBM由多達1024個數(shù)據(jù)引腳組成,HBM內(nèi)部的數(shù)據(jù)傳輸路徑隨著每一代產(chǎn)品的發(fā)展而顯著增長。
回顧HBM的演進歷程,第一代HBM數(shù)據(jù)傳輸速率大概可達1Gbps;2016年推出的第二代產(chǎn)品HBM2,最高數(shù)據(jù)傳輸速率可達2Gbps;2018年,第三代產(chǎn)品HBM2E的最高數(shù)據(jù)傳輸速率已經(jīng)可達3.6Gbps。如今,SK海力士和三星已研發(fā)出第四代產(chǎn)品HBM3,此后HBM3預(yù)計仍將持續(xù)發(fā)力,在數(shù)據(jù)傳輸速率上有更大的提升。
從性能來看,HBM無疑是出色的,其在數(shù)據(jù)傳輸?shù)乃俾?、帶寬以及密度上都有著巨大的?yōu)勢。不過,目前HBM仍主要應(yīng)用于服務(wù)器、數(shù)據(jù)中心等應(yīng)用領(lǐng)域,其最大的限制條件在于成本,對成本比較敏感的消費領(lǐng)域而言,HBM的使用門檻仍較高。
盡管HBM已更迭到了第四代,但HBM現(xiàn)在依舊處于相對早期的階段,其未來還有很長的一段路要走。
而可預(yù)見的是,隨著人工智能、機器學習、高性能計算、數(shù)據(jù)中心等應(yīng)用市場的興起,內(nèi)存產(chǎn)品設(shè)計的復(fù)雜性正在快速上升,并對帶寬提出了更高的要求,不斷上升的寬帶需求持續(xù)驅(qū)動HBM發(fā)展。市場調(diào)研機構(gòu)Omdia預(yù)測,2025年HBM市場的總收入將達到25億美元。
在這個過程中,存儲巨頭持續(xù)發(fā)力、上下游廠商相繼入局,HBM將受到越來越多的關(guān)注與青睞。
