X (Twitter)

Claude Opus 4.5 發布：最強的編碼、智能體和計算機使用模型，Token 用量大降，價格是Opus 4.1 的1/3，SWE-bench Verified 得分首超80 分效能表現· 程式設計能力突破：在SWE-bench Verified 測驗中達到80.9% 的成績，超越了Google Gemini 3 Pro（76.2%）和OpenAI GPT-5.1-Codex-Max（77.9%）。更引人注目的是，在Anthropic 內部的效能工程測試中，Opus 4.5 的得分超過了所有人類候選人。 · 智能體能力：在電腦使用測驗OSWorld 中達到66.3% 的成績，展現出強大的長期目標導向行為。內部測試人員回饋，Opus 4.5 能夠處理Sonnet 4.5 幾週前還無法完成的任務，面對複雜的多系統bug 時能夠自主找到解決方案。 · 效率提升：這是一個重大改進。在處理長期編碼任務時，Opus 4.5 使用的token 數量減少了高達65%，同時維持或提高了輸出品質。這意味著更低的成本和更快的反應速度。價格革命定價為每百萬輸入token 5 美元，每百萬輸出token 25 美元，相比前代Opus 4.1 的15/75 美元，價格下降了2/3。這使得Opus 等級的能力首次變得可負擔，可以成為日常使用的主力模型。產品更新多平台可用：Opus 4.5 現已在Claude 應用程式、API 以及Amazon Bedrock、Google Cloud Vertex AI 和Microsoft Azure 等三大雲端平台上架。開發者可以使用模型標識符claude-opus-4-5-20251101 呼叫。技術創新· 混合推理：Opus 4.5 支援即時回應和擴展思考兩種模式，API 使用者可以透過"努力參數"（effort parameter）精細控制模型在回應上投入的運算量，在效能、延遲和成本之間取得平衡。 · 記憶改進：在長上下文操作的記憶管理方面有顯著改進，特別適合智能體場景－Opus 可以作為主智能體指揮一組Haiku 驅動的子智能體。 · 安全性增強：模型具有更強的抗提示注入攻擊能力，在錯位評估中表現出更低的問題行為率，是Anthropic 迄今為止最安全的版本。市場定位 Opus 4.5 主要針對專業軟體工程師、金融分析師、顧問顧問、會計師等知識工作者，以及需要處理複雜企業任務和重度智慧體工作流程的場景。這是一款高階模型，適用於以往模型無法解決且效能至關重要的場景。產業影響這次發布正值AI 產業競爭白熱化之際。 Google 的Gemini 3 剛發布一周，已經引起市場震動，連Salesforce CEO 都表示要從ChatGPT 轉向Gemini。 Opus 4.5 的推出，展現了Anthropic 在這場競賽中保持領先地位的決心和實力。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容