亚洲国产精品久久久久婷蜜芽,caoporn国产精品免费视频,久久久久久久久免费看无码,国产精品一区在线观看你懂的

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺電子信息窗口

杉數(shù)科技“降維打擊式”地提升求解計算效率,國產(chǎn)GPU漫漫“掘金”的機會來了

2024-01-09 來源:賢集網(wǎng)
1146

關(guān)鍵詞: 英特爾 AMD 英偉達

數(shù)周之前,芝加哥大學(xué)商學(xué)院的魯海昊教授發(fā)現(xiàn),原本傳統(tǒng)依賴英特爾/AMD CPU(中央處理器)芯片進行計算的數(shù)學(xué)規(guī)劃求解器(Solver,下稱“求解器”),如今卻可以突破技術(shù)瓶頸。

具體來說,魯海昊教授團隊通過實驗發(fā)現(xiàn),求解器能夠通過英偉達GPU(圖形處理器)和CUDA庫函數(shù),設(shè)計高效的數(shù)學(xué)規(guī)劃算法cuPDLP來求解超大規(guī)模問題,并體現(xiàn)出了計算優(yōu)越性,其研發(fā)的cuPDLP軟件(Julia版本)也驗證了這一點。而該研究成果日前發(fā)表在arxiv上。

此后,魯海昊團隊與斯坦福大學(xué)博士、杉數(shù)科技首席科學(xué)家葛冬冬教授團隊進行了緊密合作:在最頂級的計算設(shè)施,英偉達GPU H100多顯卡集群上,團隊對自己研發(fā)的cuPDLP-C求解軟件(C語言版本)進行了實驗,驗證GPU能否實現(xiàn)線性規(guī)劃問題求解的“彎道超車”。

2023年12月8日,杉數(shù)科技團隊在中國運籌學(xué)會算法軟件與應(yīng)用分會成立大會上,報告了他們在英偉達H100 GPU顯卡上,成功驗證了cuPDLP-C求解超大規(guī)模線性規(guī)劃問題(LP problem)的顯著優(yōu)勢。在多個經(jīng)典測試集上,對于大規(guī)模問題,算法體現(xiàn)出了不亞于傳統(tǒng)商業(yè)求解器的表現(xiàn),并且在多個大問題上有明顯求解優(yōu)勢。


1、計算時間縮短超過64倍,GPU芯片將加速求解更多復(fù)雜問題

運籌學(xué)是近代應(yīng)用數(shù)學(xué)的一個分支,主要是研究如何將生產(chǎn)、管理等事件中出現(xiàn)的優(yōu)化問題加以提煉,然后利用數(shù)學(xué)方法進行解決的學(xué)科。



美國物理學(xué)家,曾任加州大學(xué)柏克萊分校教授的Charles Kittel早在1947年首次提到“Operations Research”一詞,中國則在1957年由中國工程院院士許國志、清華大學(xué)基礎(chǔ)科部教授周華章正式定名為“運籌學(xué)”,并于1980年成立中國運籌學(xué)會(ORSC)。運籌學(xué)在全球發(fā)展至今已超過70年。

其中,數(shù)學(xué)規(guī)劃是將現(xiàn)實問題轉(zhuǎn)化為數(shù)學(xué)模型并求解的過程。數(shù)學(xué)規(guī)劃求解器作為這一過程的核心軟件,專門針對多種線性、整數(shù)和非線性規(guī)劃模型進行算法優(yōu)化。它可以被視為一個“黑盒子”系統(tǒng),業(yè)界亦稱之為算法領(lǐng)域的“芯片”。

求解器的重要意義在于,它能解決生活中非常復(fù)雜的應(yīng)用數(shù)學(xué)問題。例如,2018年平昌冬奧會的閉幕式上,中國接棒八分鐘展示里出現(xiàn)的無人倉機器人引起全球關(guān)注。但如何計算這些機器人的運行路線,為了確保這些機器人運行高效且避免碰撞,需要依賴最優(yōu)算法,而背后依靠的就是求解器。

在此之前,求解器的核心計算硬件大部分依賴于CPU(中央處理器)芯片,主要原因是CPU的通用能力可以更廣泛應(yīng)用于眾多計算系統(tǒng)和 算法實現(xiàn),而且英特爾、AMD相關(guān)軟件框架都非常齊全,特別是復(fù)雜高精度的各種矩陣運算,大大降低求解規(guī)劃成本,并提高計算效能。

葛冬冬指出,芯片這類硬件是求解器底層的核心設(shè)施。

長期以來,GPU采用與CPU不同的底層架構(gòu),計算核心數(shù)量、軟件和性能處理方案與CPU的底層邏輯差異極大。而國內(nèi)外科研人員希望能夠通過GPU或是其他類型芯片可實現(xiàn)線性規(guī)劃的加速計算,但多次實驗結(jié)果顯示,GPU一直無法高效求解算法中的“矩陣求逆”或者“矩陣分解“問題,無論是計算精度(物理原因)還是并行計算,它都無法做到。

“未能突破的原因是,求解器的核心底層只要是這種連續(xù)優(yōu)化問題,不管是線性還是非線性,傳統(tǒng)算法中都躲不開如何高效求解‘矩陣分解’這一步。這個問題解決不了,GPU幾千個計算單元并行加速的優(yōu)勢就無法體現(xiàn)?!备鸲硎?,“矩陣分解”主要對應(yīng)線性方程組求解,是計算最關(guān)鍵一步。一旦矩陣規(guī)模過大或者結(jié)構(gòu)復(fù)雜,這個步驟往往會造成內(nèi)存溢出或者求解時間極長,成為求解桎梏。

早在2016年,葛冬冬聯(lián)合幾位當年在斯坦福的博士同學(xué),共同成立了杉數(shù)科技,研制了第一個國產(chǎn)專業(yè)求解器,避免受制于人。如今,作為智能決策技術(shù)服務(wù)公司,杉數(shù)科技以其自研大規(guī)模商用求解器COPT為核心引擎,打造了“計算引擎+決策技術(shù)中臺+業(yè)務(wù)場景”的端到端智能決策技術(shù)平臺,為消費零售、交通物流、能源電網(wǎng)、制造與供應(yīng)鏈等多個行業(yè)提供數(shù)字化供應(yīng)鏈解決方案,利用運籌優(yōu)化和機器學(xué)習(xí)找出更優(yōu)的決策方案,全面提升產(chǎn)業(yè)鏈和供應(yīng)鏈運營效率和效果。

葛冬冬此前透露,利用COPT數(shù)學(xué)優(yōu)化求解器這種優(yōu)化決策,可以使生產(chǎn)排程訂單滿足率提高20%,產(chǎn)能損失率降低30%,排產(chǎn)排程人工干預(yù)降低70%,非計劃維修降低15%。同時,杉數(shù)科技COPT數(shù)學(xué)優(yōu)化求解器一直在全球求解器榜單中名列前茅。

而此前葛冬冬團隊研發(fā)的COPT求解器系列,主要是利用CPU芯片進行計算處理的。

“事實上,過去十幾年,這個領(lǐng)域內(nèi),包括我們,國內(nèi)外學(xué)術(shù)界無數(shù)人,都在前赴后繼地努力,試圖回答這個問題:GPU/CUDA架構(gòu)能否對數(shù)學(xué)規(guī)劃求解器起到彎道超車的作用。此前的答案一直為‘否’?!备鸲硎?。

然而,2023年11月初,葛冬冬的合作伙伴,魯海昊教授在arXiv上發(fā)表了一篇論文,他們公開的cuPDLP代碼,通過GPU硬件成功解決了線性規(guī)劃求解計算問題,可用在這段Julia代碼中求解線性規(guī)劃。

葛冬冬說:“魯老師突破這一長期瓶頸的技術(shù)方案,是他們觀察到以前的CPU/GPU混合架構(gòu)求解中,CPU/GPU之間的交互往往占用了絕大部分耗時,因此他們在此前他們與谷歌合作建立的PDLP求解器基礎(chǔ)上(此求解器可以很好解決GPU計算精度無法達到10^-8精度要求的限制),將整套算法搬到了GPU/CUDA架構(gòu)下實現(xiàn)。捅破了最后一層窗戶紙!”

此后,魯教授與葛冬冬教授領(lǐng)導(dǎo)的杉數(shù)COPT團隊緊密合作,提出開源技術(shù)方案cuPDLP-C,即用一階方法在GPU上解決線性規(guī)劃問題,也是Julia版本cuPDLP.jl的C語言加強版,算法上也做了進一步的改善和提高。

與此同時,通過在目前最強的顯卡H100上的實驗發(fā)現(xiàn),在運籌學(xué)最經(jīng)典的測試集MIPLIB2017的383個線性松弛測試問題求解中,以10^-4 精度要求,cuPDLP-C已經(jīng)可以求解到379個問題,而以嚴格收斂的標準10^-8 精度要求,cuPDLP-C也可以求解到369個問題??傮w求解時間與目前最好的商業(yè)求解器的差距也拉近到了2倍(10^-4精度)和6倍(10^-8)精度之內(nèi)。在測試集那些大問題中的差距明顯更小,在10^-4精度下甚至體現(xiàn)出了計算優(yōu)勢。此外,葛冬冬團隊還在多個更大規(guī)模問題上進行了廣泛測試,cuPDLP-C的優(yōu)勢明顯,例如zib03問題加速了64倍,而多個更大規(guī)模的測試問題,如在谷歌的Pagerank、某國內(nèi)大企業(yè)供應(yīng)鏈項目問題、經(jīng)典的二次分配問題(QAP)等問題的測試上,傳統(tǒng)求解器都無法求解,而cuPDLP-C可以做到可行時間內(nèi)求解。

很顯然,對于超大數(shù)學(xué)規(guī)劃問題,在性能、計算速度、求解數(shù)量等方面,GPU都能比CPU都展現(xiàn)出了更好的前景。

杉數(shù)科技資深副總裁,技術(shù)負責人皇甫博士表示,利用GPU硬件,現(xiàn)在cuPDLP-C可以讓之前難以解決的大規(guī)模優(yōu)化問題變得易于解決,推動了模型建立的精確度和規(guī)模。以前因CPU限制而采用的非常精密復(fù)雜的一些求解技巧可能不再需要。此外,一旦GPU提速上百倍,cuPDLP-C求解優(yōu)勢可能拓展到其他連續(xù)優(yōu)化領(lǐng)域,極大加速求解過程,讓原本耗時的問題快速得到解決,從而打開新的應(yīng)用可能性。

他強調(diào),cuPDLP-C技術(shù)推翻了運籌學(xué)科長期以來的一些共識和定式,超出人們預(yù)期,利用GPU提高了求解器的性能潛力,可能使運籌學(xué)實現(xiàn)從CPU到GPU計算帶來的“范式轉(zhuǎn)變”。


2、行業(yè)冷靜下來亦并非壞事

另有半導(dǎo)體產(chǎn)投人士對《科創(chuàng)板日報》記者表示,當年在GPU創(chuàng)業(yè)熱潮中入場的項目,“存在一些并不具備落地生產(chǎn)的能力的。一些創(chuàng)始人有一定的行業(yè)積累,看到當時比較容易融到錢,就出來創(chuàng)業(yè)了,但一段時間之后,他們會發(fā)現(xiàn)事情沒有想象中那么容易。一段時間之后還沒能拿出成果,資本自然不會繼續(xù)跟進?!?/span>

該人士進一步表示,GPU創(chuàng)業(yè)各方面門檻都較高,包括資金方面需要達幾千萬到一個億以上的資金投入,“對于GPU創(chuàng)業(yè)項目而言,正常融個一到兩個億,其實是可以把產(chǎn)品做出來,并做一些鋪貨的,有些項目融得還不止這個數(shù),如果還沒進展,確實說不過去?!?/span>

該人士表示,國內(nèi)GPU項目常常把設(shè)計方案出爐以及進入流片階段,作為企業(yè)的重要里程碑進行宣傳?!暗切酒O(shè)計好了拿去流片,這是再正常不過的流程了。”



該人士亦表示,除了國產(chǎn)GPU項目自身存在的一些問題,外部環(huán)境也是造成一些項目進展不太順利的重要原因?!癎PU項目流片還涉及到與多個外部廠商的配合,當前以美國為首的一些限制條件帶來了較大的不確定性?!?/span>

今年截至目前,僅一家GPU項目完成了最新一輪融資,即壁仞科技。

工商信息顯示,1月19日,壁仞科技完成股權(quán)變更,新增北京高瓴裕潤股權(quán)投資基金合伙企業(yè)(有限合伙)和共青城航瓴昇和投資合伙企業(yè)(有限合伙)兩個股東,注冊資本增加2.58%。與往常不同,壁仞科技并未對此輪融資的情況進行高調(diào)官宣,僅低調(diào)完成了工商變更。

上述半導(dǎo)體產(chǎn)投人士表示,GPU賽道歸于平靜,項目方悶頭做事,對行業(yè)發(fā)展而言不失為一件好事?!艾F(xiàn)在GPU這塊正處于賣方市場,只要有產(chǎn)品,基本上,下游客戶第一時間就會來尋求合作,行業(yè)內(nèi)信息傳播都是非??斓?,真正做成東西不愁沒人知道,宣傳都是其次的?!?/span>

而對于AIGC熱潮帶來的機遇,上述人士均表示,國產(chǎn)GPU要抓住仍需時日?!皣鴥?nèi)的GPU生意和英偉達的生意還不在一個量級上,這個量級不是指今天的英偉達,即便是10年前的英偉達和當前國內(nèi)的GPU創(chuàng)業(yè)公司相比,也不是一回事?!?/span>


3、20年性能提高約7000倍,GPU成本過高是否將制約行業(yè)發(fā)展?

過去一年,以ChatGPT為代表的生成式 AI 技術(shù)風靡全球。而作為以95%的市場占有率壟斷了全球 Al 訓(xùn)練芯片的英偉達,成為了這輪 AI 混戰(zhàn)的最大贏家,其研發(fā)的A100/A800、H100/H800等多款 AI 芯片成為 AI 熱潮中的“爆品”。

正如英偉達自己所說:“GPU 已經(jīng)成為人工智能的稀有金屬,甚至是黃金,因為它們是當今生成式 AI 時代的基礎(chǔ)?!?/span>

從技術(shù)角度來說,GPU優(yōu)于CPU,特別是在并行計算能力、能耗效率和CUDA生態(tài)等方面,它的高算力和可擴展性使英偉達GPU成為AI加速芯片市場的首選。

根據(jù)斯坦福大學(xué)最近發(fā)布的一項報告顯示,自2003年以來,GPU性能提高了約7000倍,單位性能價格也提高了5600倍。該報告還指出,GPU是推動 AI 技術(shù)進步的關(guān)鍵動力。

英偉達首席科學(xué)家Bill Dally也曾表示,NVIDIA GPU在過去十年中將 AI 推理性能提高了1000倍。

從運籌學(xué)角度來看,將CPU替換為GPU,計算能力、計算效率大幅提升。但問題在于,國內(nèi)可以買到的H100/H800、A100/A800的價格都已經(jīng)超過20萬/張,再加上存儲、NVLink互連、運維成本等,相比CPU,基于GPU的求解成本將進一步攀高。

那么,求解計算的基礎(chǔ)設(shè)施成本,是否會成為未來求解器乃至運籌學(xué)發(fā)展的重要制約因素?

葛冬冬表示,目前只是基于GPU架構(gòu)的優(yōu)化算法的“拓荒期”。目前,他們已經(jīng)與多家國產(chǎn) GPU芯片廠商開展了廣泛的測試合作,希望能夠利用國產(chǎn)算力推動中國求解器行業(yè)發(fā)展。確實有部份國產(chǎn)GPU芯片已經(jīng)具備了跑通算法的能力,但是也確實,還需要在芯片速度和庫函數(shù)完備程度上做進一步建設(shè)。

而且,他認為,杉數(shù)也已經(jīng)積極與商業(yè)伙伴開始積極探索這一技術(shù)的落地與應(yīng)用前景。目前已經(jīng)開始在電力系統(tǒng)的出清調(diào)度問題這一大規(guī)模復(fù)雜系統(tǒng)問題上,與南網(wǎng)總調(diào)合作,探尋運用GPU架構(gòu)的優(yōu)化求解算法來加速求解計算的研究。

談及開源與商業(yè)化的話題,葛冬冬認為,把cuPDLP-C開源可以推動行業(yè)進一步發(fā)展,對于商業(yè)化求解器來說肯定會有一定沖擊,但GPU求解大規(guī)模問題的新思路也帶來了巨大的機會,目前來看,杉數(shù)科技在核心技術(shù)、商業(yè)化等層面還有非常領(lǐng)先的市場競爭優(yōu)勢。

“新的大門已經(jīng)推開。過去20年,大家一直在嘗試推開,但門被‘鎖’死了?,F(xiàn)在等于是發(fā)現(xiàn)‘鎖’能打碎,門是能推開的。這就意味著運籌學(xué)算法又進入了一個新的‘大航海時代’,一個堪比‘西部掘金熱’的時代。我們已經(jīng)走出(開源)這一步。我們對自己的技術(shù)有信心,過去七年,從無到有,再到國際領(lǐng)先,杉數(shù)一直都在科研、技術(shù)和實踐應(yīng)用上,是國內(nèi)求解器市場的領(lǐng)航者。在這個經(jīng)我們的手打開的新時代,我相信,我們是不會落后的?!备鸲硎?。