OpenAI發(fā)布最強(qiáng)模型GPT-5:“可與任何領(lǐng)域的專家交談”
關(guān)鍵詞: GPT-5 OpenAI 人工智能 微軟 推理能力
北京時(shí)間8月8日凌晨1點(diǎn),OpenAI正式推出最新大型人工智能模型GPT-5。
GPT-5是OpenAI推出的最新旗艦人工智能模型,被認(rèn)為是迄今為止最強(qiáng)大的模型之一。它結(jié)合了GPT系列的快速響應(yīng)能力和o系列模型的推理能力,形成一個(gè)“統(tǒng)一”的AI系統(tǒng)。GPT-5在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,包括編程、數(shù)學(xué)、健康領(lǐng)域和創(chuàng)意寫作等方面。此外,GPT-5在減少“幻覺”(即AI生成不真實(shí)信息)方面也有所改進(jìn)。
GPT-5的發(fā)布標(biāo)志著OpenAI在實(shí)現(xiàn)通用人工智能(AGI)道路上的重要一步。OpenAI CEO Sam Altman在發(fā)布會(huì)上強(qiáng)調(diào),GPT-5的發(fā)布標(biāo)志著“與任何領(lǐng)域的專家交談”的體驗(yàn),甚至被描述為“世界上最好的模型”。
據(jù)悉,GPT-5在多項(xiàng)基準(zhǔn)測(cè)試中創(chuàng)下新高,包括數(shù)學(xué)(AIME 2025無(wú)工具得分94.6%)、編碼(SWE-bench Verified 74.9%,Aider Polyglot 88%)、多模態(tài)理解(MMMU 84.2%)和醫(yī)療(HealthBench Hard 46.2%)。這些成績(jī)表明GPT-5在多個(gè)領(lǐng)域的表現(xiàn)顯著提升。
在減少“幻覺”方面,GPT-5在匿名ChatGPT流量測(cè)試中,回答包含事實(shí)錯(cuò)誤的概率比GPT-4o低45%,推理模式下比OpenAI o3低80%。
在LongFact(長(zhǎng)文本事實(shí)核查)和FActScore(細(xì)粒度事實(shí)評(píng)分)等基準(zhǔn)測(cè)試中,GPT-5(帶推理模塊)的幻覺率僅為o3模型的六分之一。長(zhǎng)文本生成中,傳統(tǒng)模型易因上下文丟失或注意力分散導(dǎo)致“事實(shí)漂移”,而GPT-5通過(guò)優(yōu)化注意力機(jī)制和分塊處理策略,確保長(zhǎng)篇回答的連貫性和準(zhǔn)確性。
OpenAI還引入了“安全完成”訓(xùn)練,模型在處理模糊或雙重用途問題時(shí)提供高層次、安全的回答,并透明解釋拒絕原因,欺騙率從4.8%降至2.1%。
OpenAI還在GPT-5開發(fā)過(guò)程中進(jìn)行了廣泛的安全評(píng)估,包括5000小時(shí)的持續(xù)測(cè)試。OpenAI稱,GPT-5不會(huì)直接拒絕回答可能存在風(fēng)險(xiǎn)的問題,而是采用“安全完成”策略,提供符合安全限制的高層次回答,以避免潛在危害。
值得一提的是,GPT-5現(xiàn)通過(guò)ChatGPT向所有用戶開放,包括免費(fèi)、Plus、Pro和Team用戶,而企業(yè)用戶和教育用戶將在未來(lái)一周內(nèi)獲得訪問權(quán)限。
其中,免費(fèi)用戶首次體驗(yàn)推理模型,達(dá)到限額后切換至GPT-5 mini。Plus用戶享有更高使用限額,Pro用戶可無(wú)限制訪問GPT-5及更強(qiáng)大的GPT-5 Pro。
此外,OpenAI還為開發(fā)者提供GPT-5、GPT-5 mini和GPT-5 nano三種API版本,滿足不同需求。
GPT-5的發(fā)布也引發(fā)了微軟等科技巨頭的積極反應(yīng),微軟已宣布將其整合到其產(chǎn)品線中,包括Microsoft 365 Copilot、面向消費(fèi)者的Copilot以及供開發(fā)者將AI模型融入第三方應(yīng)用的Azure AI Foundry。
微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)表示:“難以相信當(dāng)前距奧特曼在雷德蒙德向世界首次展示GPT-4僅過(guò)去兩年半時(shí)間,技術(shù)進(jìn)步之快令人驚嘆?!?/p>
企業(yè)文件管理公司Box首席執(zhí)行官亞倫·列維(Aaron Levie)也表示,以往AI模型在處理復(fù)雜數(shù)學(xué)或長(zhǎng)文檔邏輯時(shí)常失敗,但GPT-5是“徹底的突破”。他認(rèn)為:“該模型能保留更多信息,并運(yùn)用更高水平的推理和邏輯能力進(jìn)行決策。”
盡管GPT-5在多個(gè)方面表現(xiàn)出色,但也有報(bào)道指出其在某些基準(zhǔn)測(cè)試中并未完全達(dá)到頂尖水平,例如在某些復(fù)雜任務(wù)中表現(xiàn)不如其他前沿AI模型。
GPT-5的發(fā)布標(biāo)志著AI領(lǐng)域的一個(gè)重要里程碑,它不僅在技術(shù)上取得了顯著進(jìn)步,也在用戶體驗(yàn)和應(yīng)用層面帶來(lái)了新的可能性。
