X (Twitter)

Sam 狂喜，OpenAI 的年底答案GPT 5.2 正式發布不要被他的版本號欺騙，這是今年OpenAI 的年底大招。官方定位是：迄今為止面向專業知識工作的最強大模型。模型效能大幅提升，價格也大幅提升了40%。在降本的大趨勢下，車型漲價，一般都需要底氣。這個模型的底氣在哪裡？前陣子OpenAI 設計了GDPval，一個以國內生產毛額（GDP）這個關鍵經濟指標為靈感。 1320個專業任務，涵蓋了美國GDP 貢獻排名前9 大行業中精選出的44 個職業。任務要求提交真實的成果作品，例如銷售簡報、會計電子表格、急診排班表、製造流程圖，或短影片。剛發表GDPval 的時候，Claude Opus 4.1 以47.6 的分數遙遙領先。但今天， GPT-5.2 直接把分數刷到了70% 以上。

Coding 編碼能力 SWE-Bench Pro 是一項針對真實世界軟體工程的嚴格評估。與僅測試Python 的SWE-bench Verified 不同，SWE-Bench Pro 測試四種語言，並致力於具備更強的抗污染能力、更高的挑戰性、更豐富的多樣性以及更強的工業相關性。 GPT‑5.2 Thinking 在SWE-Bench Pro 上取得了55.6%的全新最先進水準。超過了Claude Opus 4.5 的52% 和Gemini 3 Pro 的43.3% 。

GPT‑5.2 在長上下文推理領域樹立了新的產業標竿。 MRCR⁠⁠ v2（多輪共指消解）指標衡量的是，多個完全相同的「針」式使用者請求會被插入到由大量相似請求和回應組成的「 haystack」長文件中，然後要求模型重現第n 個「針」對應的回應。 GPT‑5.2 的第一個在4 針MRCR 變體（最長可達256k token）上達到接近100%準確率的模型。

幻覺降低 GPT-5.2 的另一個重大進步在於顯著降低了「幻覺」。錯誤率相比前代降低了30%。視覺理解 GPT‑5.2 Thinking 在圖表推理和軟體介面理解任務上的錯誤率幾乎降低了一半。

普通版：輸入1.75 美元，輸出14 美元。專業版：輸入21 美元，輸出168 美元。整體比GPT 5.1 漲價40% 。太強了。太貴了。 AI 今年的趨勢，一個是文字模型漲價（GPT 5.2），一個是圖像模型漲價（banana Pro）。 AI 明年的趨勢，會不會是，視訊模型漲價？

来自 Orange AI（@oran_ge）的推文线程

作者信息

线程正文