亚洲国产精品久久久久婷蜜芽,caoporn国产精品免费视频,久久久久久久久免费看无码,国产精品一区在线观看你懂的

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

AI迸發(fā)高數(shù)據(jù)存儲需求,這些存儲技術大放光彩

2024-06-20 來源:賢集網(wǎng)
3077

關鍵詞: 人工智能 芯片 云計算

人工智能AI吹起新一輪科技革命浪潮,衍生出諸多新興應用,龐大的需求驅(qū)動存儲技術更迭。隨著AI模型和數(shù)據(jù)集不斷擴大,高效、高性能的存儲顯得愈發(fā)關鍵,符合AI模型需求的DDR、GDDR、HBM技術從幕后走向臺前,并隨著AI發(fā)展而不斷推陳出新。


DRAM,走向3D

1966年的秋天,IBM研究中心的Robert H. Dennard發(fā)明了動態(tài)隨機存取存儲器(DRAM),幾十年后,這份偉大的成就為半導體行業(yè)締造了一個影響巨大且市場規(guī)模超千億美元的產(chǎn)業(yè)帝國。

也是在這數(shù)十年間,摩爾定律一直是業(yè)界崇尚的黃金法則,也一直是半導體性能和成本的驅(qū)動因素。



早前的DRAM可以滿足業(yè)界需求,但隨著摩爾定律推進速度放緩,DRAM技術工藝也逐漸步入了瓶頸期。

從技術角度上看,隨著晶體管尺寸越來越小,芯片上集成的晶體管就越多,這意味著一片芯片能實現(xiàn)更高的內(nèi)存容量。目前DRAM芯片工藝已經(jīng)突破到了10nm級別。

雖然10nm還不是DRAM的最后極限,但多年來隨著DRAM制程節(jié)點不斷縮小,工藝完整性、成本、電容器漏電和干擾、傳感裕度等方面的挑戰(zhàn)愈發(fā)明顯,要在更小的空間內(nèi)實現(xiàn)穩(wěn)定的電荷存儲和讀寫操作變得日益困難。

據(jù)Tech Insights分析,通過增高電容器減小面積以提高位密度(即進一步減小單位存儲單元面積)的方法即將變得不可行。

上圖顯示,半導體行業(yè)預計能夠在單位存儲單元面積達到約10.4E-4μm2前(也就是大約2025年)維持2D DRAM架構。之后,空間不足將成為問題,這將提升對垂直架構,也就是3D DRAM的需求。

另一方面,隨著數(shù)據(jù)量爆炸性增長,尤其是云計算、人工智能、大數(shù)據(jù)分析等領域?qū)Ω咚佟⒋笕萘?、低延遲內(nèi)存的需求持續(xù)攀升,市場對更高密度、更低功耗、更大帶寬的DRAM產(chǎn)品有著強烈需求。

在市場需求和技術創(chuàng)新的驅(qū)動下,3D DRAM成為了業(yè)界迫切想突破DRAM工藝更高極限的新路徑。


探索GDDR過往,GDDR7已來

GDDR英文全稱Graphics Double Data Rate DRAM,是專為圖形處理而設計的高性能DDR存儲器規(guī)格,簡稱為顯存。顯存最關鍵的應用領域便是顯卡,后者應用于新媒體和電腦游戲、炒賣加密貨幣、AI強化學習(如ChatGPT、Sora)等領域。而用于顯卡的DRAM,需要具備兩個關鍵的特性,高密度尋址能力和配備的高性能,早期因主要考慮兼容CPU,顯卡大多采用DDR內(nèi)存,不過近年隨著圖像處理需求的增加,顯卡逐漸轉(zhuǎn)向?qū)镚PU設計的GDDR。

業(yè)界指出,GDDR有專屬的工作頻率、時鐘頻率、電壓,因此與市面上標準的DDR存儲器有所差異,與普通DDR內(nèi)存不同,且不能共用。一般它比主內(nèi)存中使用的普通DDR存儲器時鐘頻率更高,發(fā)熱量更小,具有更高的頻率和帶寬,所以更適用于中高端顯卡。



目前,GDDR已成為人工智能、大數(shù)據(jù)應用領域中最熱門的內(nèi)存芯片之一。從類型上看,GDDR包括GDDR2、GDDR3、GDDR4、GDDR5、GDDR5X、GDDR6和GDDR6X等,GDDR5和GDDR6是高端顯卡上常見的顯存類型。其實,前兩代的GDDR和GDDR2并沒有得到GPU廠商的大規(guī)模應用,但隨著性能的提升,第三代GDDR3數(shù)據(jù)傳輸速率最高達到2.5GHz,第四代GDDR4雖然性能有了進一步變化,但由于下游廠商對GDDR4標準意見不一,市場度接受度不高。為此GDDR3成為當時市場主流技術,包括英偉達和AMD等頭部GPU廠商都使用的GDDR3。

從2008年后,產(chǎn)品更新至GDDR5,因具備更高的時鐘頻率和數(shù)據(jù)傳輸速率成為高性能顯卡的標配,GDDR5與GDDR4、GDDR3一樣,皆是基于DDR3技術開發(fā)而來。據(jù)悉,GDDR5之后,英偉達與美光共同合作推出GDDR5X半代產(chǎn)品,應用于前者的高端顯卡。

據(jù)悉,英偉達是首家在其RTX 30 系列GPU中選擇GDDR6X內(nèi)存的供應商,至少是高端GPU。GDDR6X將每引腳帶寬以14Gbps增加到21Gbps,將總帶寬增加到1008GB/s,甚至超過3072位寬的HBM2堆棧。值得一提是,GDDR6X還引入了PAM4(Pulse Amplitude Modulation 4)信號技術,顯著提高了數(shù)據(jù)傳輸速率。

目前,今年來,美光、三星和SK海力士均表示已開始提供GDDR7內(nèi)存樣品。具體來看,三星GDDR7芯片通過首次應用PAM3信號,能夠在僅1.1 V的DRAM電壓下實現(xiàn)32 Gbps的速度,這超過了JEDEC的GDDR7規(guī)范中的1.2 V;SK海力士與其前身GDDR6相比,最新的GDDR7產(chǎn)品提供的最大帶寬達到160GB/s,是其上一代產(chǎn)品(GDDR6位80GB/s)的兩倍,功耗效率提升了40%,內(nèi)存密度提升1.5倍;美光GDDR7具有28GB/s和32Gb/s兩種速度,采用其1β (1-beta) DRAM 技術制造,其效率比GDDR6 提高了50%。


HBM3成為主力

作為存儲領域三大巨頭——三星、海力士和美光是HBM3e技術的引領者,HBM3e的高熱需求推動三大存儲巨頭的技術迭代。其中,美光利用1β(1-beta)技術、先進的硅通孔(TSV)技術和優(yōu)化的封裝設計,推出了其HBM3產(chǎn)品。這些技術的結合使得美光的HBM3產(chǎn)品在性能、功耗和散熱方面都展現(xiàn)出卓越的表現(xiàn)。1β技術可以提升存儲器的能效比,降低功耗;而先進的硅通孔(TSV)技術能提高封裝密度,降低信號傳輸延遲,從而提高產(chǎn)品的性能。此外,優(yōu)化的封裝設計也有助于提高產(chǎn)品的散熱性能,保證其長期穩(wěn)定運行。

三星采用先進的熱壓非導電薄膜技術,使得HBM3e 12層和HBM3 8層堆疊產(chǎn)品的高度保持一致,以滿足當前HBM封裝的要求。不僅保持了產(chǎn)品高度的一致性,還提高了產(chǎn)品的垂直密度。具體來說,HBM3e產(chǎn)品的垂直密度比上一代的產(chǎn)品提高了20%以上。此外,三星的熱壓非導電薄膜技術還可以通過允許在芯片之間使用不同尺寸的凸塊(bump)來改善HBM的熱性能,從而提高產(chǎn)品的整體性能。

簡而言之,HBM高帶寬存儲的爆火需求,對于整個行業(yè)來說既是機遇也是挑戰(zhàn)。隨著人工智能、大數(shù)據(jù)、云計算等技術的不斷發(fā)展,HBM高帶寬存儲的需求也在不斷增加。對于存儲廠商來說,這是一個巨大的市場機遇。然而,這也意味著廠商需要不斷提升技術水平,以滿足市場需求。同時,激烈的市場競爭也給廠商帶來了挑戰(zhàn)。因此,存儲廠商需要不斷創(chuàng)新,提高產(chǎn)品質(zhì)量和性能,以獲得更多的市場份額。


近存方案,更大的SRAM和HBM

對于我們說的存儲墻而言,其實在SRAM上并不那么明顯,這種最接近處理單元的存儲,常被用作高速緩存,不僅讀寫速度極快,能效比更是遠超DRAM。但SRAM相對其他存儲而言,存儲密度最低,成本卻不低。所以盡管現(xiàn)如今雖然更大的SRAM設計越來越普遍,但容量離DRAM還差得很遠。

但這并不代表這樣的設計沒有人嘗試,對于愿意花大成本的廠商而言,還是很高效的一條技術路線。以特斯拉為例,其Tesla Dojo超算系統(tǒng)的自研芯片D1就采用了超大SRAM的技術路線。Dojo在其網(wǎng)格設計中采用了超快且平均分布的SRAM。

單個D1核心擁有1.25MB的SRAM,加載速度達到400GB/s,存儲速度達到270GB/s。單個D1芯片的SRAM緩存達到440MB。簡單來說,Dojo可以用遠超L2緩存級別的SRAM容量,實現(xiàn)L1緩存級別的帶寬和延遲。

當然了,這樣的設計注定代表了大量的成本投入。在特斯拉2023財年Q4的財報會議上,馬斯克強調(diào)他們做了英偉達和Dojo的兩手準備。Dojo作為長遠計劃,因為最終的回報可能會值回現(xiàn)在的投入,但他也強調(diào)這確實不是什么高收益的項目。

所以對于已有的計算架構來說,走近存路線,提高DRAM的性能是最為適合的,比如HBM。HBM作為主流的近存高帶寬方案,已經(jīng)被廣泛應用在新一代的AI芯片、GPU上。以HBM3e為例,1.2TB/s的超大帶寬足以滿足現(xiàn)如今絕大多數(shù)AI芯片的數(shù)據(jù)傳輸,未來的HBM4更是承諾1.5TB/s到2TB/s的帶寬。

HBM的方案象征了目前DRAM堆疊的集大成技術,但目前還是存在不少問題,比如更高的成本以及對產(chǎn)能的要求。在現(xiàn)如今的AI需求驅(qū)動下,新發(fā)布的芯片很難再采用HBM設計的同時,保證大批量量產(chǎn),無論是HBM產(chǎn)能還是CoWoS產(chǎn)能都處于滿載的階段,而且與制造廠商強綁定。可恰恰存儲帶寬決定了AI應用的速度,所以在HBM方案量產(chǎn)困難成本高昂的前提下,即便是英特爾和AMD這樣的廠商也經(jīng)不起這樣揮霍,不少其他廠商更是選擇了看向存內(nèi)計算。


存內(nèi)計算與處理,需要解決算力與存儲雙瓶頸

為了解決AI計算中數(shù)據(jù)存取的效率問題,把數(shù)據(jù)處理和篩選的工作放在存儲端,就能極大地降低數(shù)據(jù)移動的能耗。以三星的PIM技術為例,其將關鍵的算法內(nèi)核放在內(nèi)存中的PCU模塊中執(zhí)行,相比已有的HBM方案,PIM-HBM可以將能耗降低70%以上。而且不僅是HBM,PIM也可以集成到LPDDR、GDDR等存儲方案中。

不過存內(nèi)處理的方案只解決了功耗和效率的問題,并沒有對計算性能和存儲性能帶來任何大幅提升。至于將主要計算工作交給存內(nèi)的計算單元,就是存內(nèi)計算的目標了,比如不少廠商嘗試的模擬存內(nèi)計算(AIMC)。但這類方案實現(xiàn)大規(guī)模并行化運算的同時,還是需要昂貴的數(shù)模轉(zhuǎn)換器,以及逃不開的錯誤檢測。至于數(shù)字存內(nèi)計算方案,一定程度上規(guī)避了模擬存內(nèi)計算的缺陷,但還是犧牲了一些面積效率。對于一些大模型AI應用而言,單芯片的存儲容量擴展性堪憂。



所以數(shù)模混合成了新的研究方向,比如中科院微電子研究所就在今年的ISSCC大會上發(fā)表了數(shù)模混合存算一體芯片的論文,其采用模擬方案來進行陣列內(nèi)位乘法計算,利用數(shù)字方案來進行陣列外多位移位累加計算,從而達到整體的高能量效率和面積效率,INT8精度下的計算峰值能效可達111.17TFLOPS/W。

除此之外,還有存間計算的廠商,將計算單元放在不同的SRAM之間。以存間計算初創(chuàng)公司Untether AI為例,他們以打造存內(nèi)推理加速器AI為主,通過將計算單元放在兩個存儲單元之間,其IC可以提供更高能效比的推理性能。比如他們在打造的第二代IC,speedAI240,集成了1400個定制RISC-V核心,可以提供至高2PetaFlops的推理性能,能耗比最高可達30 TFLOPS/W。

除了各種存算一體架構的算力瓶頸外,存儲本身也需要做出突破。以三星的PIM為例,其雖然在DRAM上引入了PIM計算單元,但并未對DRAM本身的帶寬的性能帶來提升,這就造成了在存算一體的架構中,依然存在計算單元與存儲器性能不平衡的問題,各種其他類型的存儲器,包括MRAM、PCM、RRAM,除了量產(chǎn)問題外,寫入速度和功耗的問題也還未實現(xiàn)突破。

西安紫光國芯為此提出了一種3D異質(zhì)集成DRAM架構,邏輯晶圓通過3D混合鍵合工藝堆疊至SeDRAM晶圓上,進一步提升了訪存帶寬,降低了單位比特能耗,還能實現(xiàn)超大容量。從去年紫光國芯在VLSI 2023發(fā)布的論文來看,其SeDRAM已經(jīng)發(fā)展至新一代多層陣列架構。結合低溫混合鍵合技術和mini-TSV堆疊技術,可以實現(xiàn)135Gbps/Gbit的帶寬和0.66pJ/bit的能效。


寫在最后

其實無論是哪一種突破存儲墻瓶頸的方式,最終都很難逃脫復雜工藝帶來的挑戰(zhàn)。行業(yè)遲遲不愿普及相關的存算技術,還是在制造工藝上沒有達到適合普及的標準,無論是良率、成本還是所需的設計、制造流水線變化。已經(jīng)占據(jù)主導地位的計算芯片廠商,也不會選擇非得和存儲綁在一條船上,但行業(yè)必然會朝這個方向發(fā)展。