昨天GPT 5.1發佈時,大家都抱怨沒有基準測試數據。現在有了。注意AIME和Taubench的測試結果略有下降,這進一步證明了GPT 5.1並非為了追求極致的基準測試。 我認為更普遍而言,面向消費者的AI模型實驗室的模型溝通必須分為兩部分:一部分面向大眾,一部分面向科技宅。一部分面向理性派,一部分面向理性派。 最大的問題在於「通用人工智慧」(AGI)是否應該採用「一刀切」的模式。在 GPT-5 出現之前,答案是肯定的。但現在看來,我們似乎永遠只能擁有 5 個標準模型和 5 個編碼集。 @fidjissimo 的部落格文章也表達了類似的觀點,儘管他是從產品層面出發的。
openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… 以下是所有平台連結:https://t.co/Q36Htrk02j platform.openai.com/docs/guides/la… platform.openai.com/docs/pricing platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp…hplatform.openai.com/docs/models/Gp…splatform.openai.com/docs/models/Gp…scookbook.openai.com/examples/gpt-5…s://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9
