Claude Opus 4.5 發布:最強的編碼、智能體和計算機使用模型,Token 用量大降,價格是Opus 4.1 的1/3,SWE-bench Verified 得分首超80 分 效能表現· 程式設計能力突破:在SWE-bench Verified 測驗中達到80.9% 的成績,超越了Google Gemini 3 Pro(76.2%)和OpenAI GPT-5.1-Codex-Max(77.9%)。更引人注目的是,在Anthropic 內部的效能工程測試中,Opus 4.5 的得分超過了所有人類候選人。 · 智能體能力:在電腦使用測驗OSWorld 中達到66.3% 的成績,展現出強大的長期目標導向行為。內部測試人員回饋,Opus 4.5 能夠處理Sonnet 4.5 幾週前還無法完成的任務,面對複雜的多系統bug 時能夠自主找到解決方案。 · 效率提升:這是一個重大改進。在處理長期編碼任務時,Opus 4.5 使用的token 數量減少了高達65%,同時維持或提高了輸出品質。這意味著更低的成本和更快的反應速度。 價格革命定價為每百萬輸入token 5 美元,每百萬輸出token 25 美元,相比前代Opus 4.1 的15/75 美元,價格下降了2/3。這使得Opus 等級的能力首次變得可負擔,可以成為日常使用的主力模型。 產品更新多平台可用:Opus 4.5 現已在Claude 應用程式、API 以及Amazon Bedrock、Google Cloud Vertex AI 和Microsoft Azure 等三大雲端平台上架。開發者可以使用模型標識符claude-opus-4-5-20251101 呼叫。 技術創新· 混合推理:Opus 4.5 支援即時回應和擴展思考兩種模式,API 使用者可以透過"努力參數"(effort parameter)精細控制模型在回應上投入的運算量,在效能、延遲和成本之間取得平衡。 · 記憶改進:在長上下文操作的記憶管理方面有顯著改進,特別適合智能體場景-Opus 可以作為主智能體指揮一組Haiku 驅動的子智能體。 · 安全性增強:模型具有更強的抗提示注入攻擊能力,在錯位評估中表現出更低的問題行為率,是Anthropic 迄今為止最安全的版本。 市場定位 Opus 4.5 主要針對專業軟體工程師、金融分析師、顧問顧問、會計師等知識工作者,以及需要處理複雜企業任務和重度智慧體工作流程的場景。這是一款高階模型,適用於以往模型無法解決且效能至關重要的場景。 產業影響這次發布正值AI 產業競爭白熱化之際。 Google 的Gemini 3 剛發布一周,已經引起市場震動,連Salesforce CEO 都表示要從ChatGPT 轉向Gemini。 Opus 4.5 的推出,展現了Anthropic 在這場競賽中保持領先地位的決心和實力。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
