X (Twitter)

昨天GPT 5.1發佈時，大家都抱怨沒有基準測試數據。現在有了。注意AIME和Taubench的測試結果略有下降，這進一步證明了GPT 5.1並非為了追求極致的基準測試。我認為更普遍而言，面向消費者的AI模型實驗室的模型溝通必須分為兩部分：一部分面向大眾，一部分面向科技宅。一部分面向理性派，一部分面向理性派。最大的問題在於「通用人工智慧」（AGI）是否應該採用「一刀切」的模式。在 GPT-5 出現之前，答案是肯定的。但現在看來，我們似乎永遠只能擁有 5 個標準模型和 5 個編碼集。 @fidjissimo 的部落格文章也表達了類似的觀點，儘管他是從產品層面出發的。

openai.com/index/gpt-5-1-… cookbook.openai.com/examples/gpt-5… cookbook.openai.com/examples/build… 以下是所有平台連結：https://t.co/Q36Htrk02j platform.openai.com/docs/guides/la… platform.openai.com/docs/pricing platform.openai.com/docs/models/Gp… platform.openai.com/docs/models/Gp…hplatform.openai.com/docs/models/Gp…splatform.openai.com/docs/models/Gp…scookbook.openai.com/examples/gpt-5…s://t.co/0gWnxVtryk https://t.co/uPkxFwfgr9

來自 swyx🔜 @aidotEngineer CODE 🗽（@swyx）的推文串

作者資訊

推文串內容