OpenAI が GPT-5.2-Codex をリリース: 特に、複雑な長期タスク、サイバーセキュリティ、視覚的なインタラクションの理解という 3 つの領域で、エージェント プログラミングが大幅に改善されました。 コアポジショニング: 最も強力なインテリジェントエージェントプログラミングモデル 2025年12月18日、OpenAIはエージェント型コーディングモデルとして定義されたシステムであるGPT-5.2-Codexを正式にリリースしました。このシステムは、コード関連の質問に答えるだけでなく、自律的なエンジニアのように動作し、タスクの実行、コードの記述、エラーのデバッグ、そして現実世界の端末環境における長時間のタスクへの集中維持などを行います。 3つのコア機能のアップグレード 1. 複雑で長期的なタスクの処理: • コンテキスト圧縮技術:「ネイティブ圧縮」技術により、モデルは非常に長いコンテキストを処理できるようになりました。従来のモデルとは異なり、大規模なコードリファクタリングや移行の際に、以前の設定を「忘れる」ことや進捗状況を失うことがありません。 • 安定性: 計画が変更されたり、試行が失敗したりした場合でも、タスクが完了するまで反復を継続できます。 2. 防御的なサイバーセキュリティ: GPT-5.2-Codex は、これまでで最も強力なサイバーセキュリティ機能を誇ります。 • 実世界のケーススタディ:前世代モデル(GPT-5.1-Codex-Max)の支援を受けても、セキュリティ研究者はReactフレームワークの重大な脆弱性を既に発見していました。GPT-5.2-Codexはこれをさらに強化し、セキュリティ専門家による脆弱性の発見とシステム防御を支援します。 • 安全バリア: 強力な機能に伴う諸刃の剣のようなリスクを考慮して、OpenAI はまだこれを「高」リスクレベルと評価していませんが、展開中に追加の安全対策を講じています。 3. 視覚的およびインタラクティブな機能: このモデルは、スクリーンショット、技術アーキテクチャ図、UI インターフェースをより正確に解釈できます。 • 設計からコードへ: 設計スケッチを直接読み取り、機能プロトタイプ コードにすばやく変換できます。 パフォーマンスベンチマーク(データが物語る) このモデルは、AI プログラム可能エージェントの機能を測定する両方の権威あるベンチマーク テストで最先端 (SOTA) のパフォーマンスを達成しました。 • SWE-Bench Pro: 精度は 56.4% に達します (GPT-5.1 と比較して大幅に向上)。 Terminal-Bench 2.0: 精度は 64.0% に達します。 さらに、Windows 環境でのネイティブ操作機能も大幅に最適化されました。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
