X (Twitter)

GPT-5.2已放出，在知識工作、程式設計、研究、長文件和視覺任務上全面刷新產業上限含Instant 、Thinking 、Pro三檔在GDPval（衡量44種職業知識工作的評估）上實現“人類專家級”，GPT‑5.2 Thinking在70.9%的案例裡持平或優於行業專家，速度是專家的11倍，成本不到1% 尤其擅長創建電子表格、簡報等，在投資銀行電子表格建模任務中，平均得分比GPT-5.1高9.3% 是說過去你讓AI寫程式、做PPT、建立財務模型，它給的是草稿，格式、公式、引用、美觀都要人工再改現在，給定需求，它能把帶公式、帶格式、帶配色、帶註釋的Excel/Slides一次交卷程式碼能力：在SWE-Bench Pro上達到55.6%，在SWE-bench Verified達到80%，前端3D、複雜UI一次性產生能力增強數理科研： AIME 2025數學競賽100%正確率 FrontierMath T1-3 40.3%（+9.3 pct），已協助研究者完成統計學習理論新證明 GPQA Diamond研究生級問答92.4%，Pro版93.2%。長文本與視覺： 256k token內「4-needle」找回率近100%，MRCRv2各段平均領先30 pct 圖表/儀表板/主機板照片辨識誤差減半，支援Python工具連動工具調用&智能體： Tau2-bench電信場景98.7%，可跨多系統一次完成改簽、行李追蹤、特殊座位申請等10+ 步驟幻覺降低：其實測ChatGPT回答錯誤率下降30%，搜尋開啟後達93.9%無錯輸入1.75 /1M token（快取0.175 ），輸出14 ；Pro版21 /168$ ChatGPT內Plus以上用戶今天起灰階推播，API全面上線 #GPT52 #OpenAIGPT

部落格openai.com/zh-Hans-CN/ind…L

來自 AIGCLINK（@aigclink）的推文串

作者資訊

推文串內容