百度沈抖:大模型誰(shuí)先用起來(lái),誰(shuí)就搶占先機(jī)
關(guān)鍵詞: 百度智能云大會(huì) 大模型 技術(shù)變革 產(chǎn)業(yè)變革 云計(jì)算 基礎(chǔ)設(shè)施 企業(yè)增長(zhǎng)機(jī)會(huì) GPU集群 計(jì)算時(shí)代 規(guī)模 高密 互聯(lián) 運(yùn)維 硬件故障 算力平臺(tái) 模型訓(xùn)練 穩(wěn)定性 有效訓(xùn)練時(shí)長(zhǎng) 模型推理 長(zhǎng)文本推理 用戶體驗(yàn) 成本 大模型工具鏈 應(yīng)用開(kāi)發(fā)平臺(tái) 企業(yè)級(jí)應(yīng)用 競(jìng)爭(zhēng)優(yōu)勢(shì) 生產(chǎn)力場(chǎng)景 增長(zhǎng)機(jī)會(huì)
9月25日,在百度智能云大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,過(guò)去的一年,是大模型從技術(shù)變革走向產(chǎn)業(yè)變革的關(guān)鍵一年。大模型與云計(jì)算緊密結(jié)合,正在成為新型的基礎(chǔ)設(shè)施。這樣大范圍的基礎(chǔ)設(shè)施升級(jí)將帶來(lái)生產(chǎn)力的巨大躍遷。大模型給每個(gè)企業(yè)提供了平等的增長(zhǎng)機(jī)會(huì)。不管企業(yè)大小、場(chǎng)景多少,誰(shuí)先用起來(lái),誰(shuí)就搶占先機(jī)。
1834年,第一臺(tái)現(xiàn)代發(fā)電機(jī)誕生;到1882年,美國(guó)建成全球第一座現(xiàn)代電廠;再到電力成為全球性的能源基礎(chǔ)設(shè)施,用了大約90年。1969年,阿帕網(wǎng)連接了四所美國(guó)高校,到互聯(lián)網(wǎng)成為全球信息基礎(chǔ)設(shè)施,只用了大約30年。而大模型及其相關(guān)系統(tǒng),在短短幾年內(nèi),正在迅速成為為新一代的基礎(chǔ)設(shè)施,這次變革的速度前所未有。
如何在這場(chǎng)變革中抓住機(jī)遇、引領(lǐng)未來(lái)?“相信不少人都聽(tīng)說(shuō)過(guò)‘萬(wàn)卡集群’,但深入了解的應(yīng)該不多,而真正用得上、用得好的,就更少了。其實(shí),GPU集群完全不同于傳統(tǒng)的CPU集群,開(kāi)啟了全新的計(jì)算時(shí)代?!鄙蚨侗硎尽?/span>
簡(jiǎn)單來(lái)說(shuō),GPU集群有三個(gè)特征:極致規(guī)模、極致高密和極致互聯(lián)。這些“極致”帶來(lái)了兩個(gè)方面的嚴(yán)峻挑戰(zhàn)。一方面是巨額的建設(shè)、運(yùn)營(yíng)成本,要想建立一個(gè)萬(wàn)卡集群,單是GPU的采購(gòu)成本就高達(dá)幾十億元;另一方面,在如此大規(guī)模的集群上,運(yùn)維的復(fù)雜性急劇增加。
“我們知道,硬件不可避免地會(huì)出故障,而規(guī)模越大,出故障的概率就越高?!鄙蚨斗治稣f(shuō)道。他舉了個(gè)例子,Meta訓(xùn)練llama3的時(shí)候,用了1.6萬(wàn)張GPU卡的集群,平均每3小時(shí)就會(huì)出一次故障,而這些故障絕大多數(shù)是由GPU引起的。實(shí)際上,GPU是一種很敏感的硬件,連天氣、溫度的波動(dòng),都會(huì)影響到GPU的故障率。
“這兩個(gè)挑戰(zhàn)迫使我們重新思考如何構(gòu)建、管理和維護(hù)這樣龐大而復(fù)雜的GPU集群,屏蔽硬件層的復(fù)雜性,為大模型落地的全流程提供一個(gè)簡(jiǎn)單、好用的算力平臺(tái),讓用戶能夠更容易地管理GPU算力、低成本地用好算力?!鄙蚨侗硎尽?/span>
過(guò)去一年,企業(yè)用戶模型訓(xùn)練需求猛增,需要的集群規(guī)模也越來(lái)越大。與此同時(shí),大家對(duì)模型推理成本的持續(xù)下降的預(yù)期也越來(lái)越高。這些都對(duì)GPU管理的穩(wěn)定性和有效性提出了更高要求。
“進(jìn)入規(guī)?;?xùn)練階段,最重要的就是穩(wěn)定性?!鄙蚨吨赋?,“大模型訓(xùn)練是一個(gè)龐大的單一任務(wù),需要齊步走。一個(gè)點(diǎn)出錯(cuò),整個(gè)集群就得停下、回滾到上一個(gè)記憶點(diǎn)。而GPU機(jī)器又很貴,每停一分鐘都是白白燒錢。這就是為什么‘有效訓(xùn)練時(shí)長(zhǎng)’這個(gè)指標(biāo)很關(guān)鍵,它指的就是機(jī)器真正在工作的時(shí)間的占比。在萬(wàn)卡任務(wù)上,百舸4.0可以保障有效訓(xùn)練時(shí)長(zhǎng)占比達(dá)到99.5%,遠(yuǎn)高于行業(yè)內(nèi)公布的相關(guān)指標(biāo)?!?/span>
模型訓(xùn)好了之后就是推理,也就是模型在各個(gè)場(chǎng)景被用起來(lái)的階段。在這個(gè)階段,最重要的兩件事是速度和成本。前者決定用戶體驗(yàn),后者決定性價(jià)比。而且,現(xiàn)在長(zhǎng)文本推理逐漸成為主流,這兩個(gè)問(wèn)題會(huì)越來(lái)越突出。
“模型在推理的時(shí)候,它需要把你的問(wèn)題都轉(zhuǎn)化成token,算一遍之后才能開(kāi)始出第一個(gè)字。而且這不是一次性的計(jì)算,每生成一個(gè)字都需要和前面所有字去做注意力計(jì)算。雖然這整體上是個(gè)串行過(guò)程,但通過(guò)架構(gòu)分離、KV Cache、負(fù)載分配等一系列加速工作,百舸4.0整體上提高了推理效率,降低了成本,讓長(zhǎng)文本推理效率提升了1倍以上。”沈抖介紹稱。
同時(shí),他指出,大模型應(yīng)用的爆發(fā),離不開(kāi)便捷、高效的大模型工具鏈和應(yīng)用開(kāi)發(fā)平臺(tái)。百度官方數(shù)據(jù)顯示,目前,在千帆大模型平臺(tái)上,文心大模型日均調(diào)用量超過(guò)7億次,累計(jì)幫助用戶精調(diào)了3萬(wàn)個(gè)大模型,開(kāi)發(fā)出70多萬(wàn)個(gè)企業(yè)級(jí)應(yīng)用?!斑@條陡峭的曲線,不僅反映了千帆平臺(tái)上大模型的調(diào)用量,也是過(guò)去18個(gè)月整個(gè)國(guó)內(nèi)大模型產(chǎn)業(yè)發(fā)展的一個(gè)縮影,但這只是一個(gè)序幕?!?/span>
“過(guò)去一年,盡管充滿不確定性,但我們已經(jīng)看到了一個(gè)確定的未來(lái)。那就是大模型正在加速深入生產(chǎn)力場(chǎng)景,成為企業(yè)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵要素。”沈抖表示,“我們相信,大模型給每個(gè)企業(yè)提供了平等的增長(zhǎng)機(jī)會(huì)。不管企業(yè)大小、場(chǎng)景多少,誰(shuí)先用起來(lái),誰(shuí)就搶占先機(jī)。”
