デヴィン 2025 年次業績レビュー @cognitionチームは、最初の発表から18ヶ月後、AIソフトウェアエンジニア「Devin」の公式「年次総括」を発表しました。A、B、Cの評価ではなく、より実践的なアプローチを採用し、Devinの実際のパフォーマンス、強み、弱み、そして実際のエンタープライズ環境におけるデータをすべて提示しました。まるで「人間ではないエンジニア」に最も正直な業績評価を与えているかのようでした。 デヴィンの現在の真のポジショニング Devin は多才な万能エンジニアではなく、非常にアンバランスな能力の組み合わせです。 • コードベースの理解、計画の作成、ドキュメントの作成、複雑な質問への回答などの「精神的な」スキルに関しては、シニアエンジニアのレベルに達しています。 実践力、主体的な意思決定、曖昧な要件への対応といった「実行力」においては、現状ジュニアエンジニアに相当します。 しかし、コンピューターは、人間が決して達成できない超能力を備えています。それは、無限の並列性、無限の忍耐力、決して疲れないこと、そして何百ものタスクを同時に実行する能力です。 2025年に最も成熟し、商業的に価値のある用途 Devinは、「明確に定義され、自動的に検証可能で、人間にとって退屈な」タスク、つまり通常4~8時間かかるタスクを得意としています。Devinはこれらのタスクを無制限に処理できるため、真に「人々を反復作業から解放する」ことができます。 実際の顧客事例と効率性の改善には次のようなものがあります。 • 静的解析ツールによって報告されたセキュリティ脆弱性の修正:平均して1.5分ごとに1つの脆弱性が修正され(人間による修正では30分)、効率は20倍向上しました。その結果、ある大手金融機関では開発チーム全体の人員を5~10%削減することができました。 • 大規模なレガシーシステム言語/フレームワークの移行:各リポジトリの移行時間は、人間による移行に比べてわずか10分の1から14分の1です。大手銀行はDevinを使用して、数十万ものレガシーETLスクリプトの移行とJavaバージョンの一括アップグレードを完了しました。 • ユニット テストを自動生成: テストの範囲を 50 ~ 60% から 80 ~ 90% に増やし、数百のリポジトリを一括でカバーします。 • ブラウンフィールド プロジェクトにおける小規模および中規模の機能開発: Devin は、Cognition 独自の Web アプリケーションへのコード コミットの約 3 分の 1 に貢献しました。 • データ分析と QA: 睡眠テクノロジー企業の EightSleep はデータ関連機能を 3 倍の速さで提供し、法律テクノロジー企業の Litera は回帰テスト サイクルを 93% 短縮しました。 2025 年までの主要なデータの改善: • プルリクエストのマージ率は昨年の 34% から 67% に増加しました。 • 問題解決速度が 4 倍向上し、リソース消費は 50% 減少しました。 • 数十万件の PR が正常にマージされました。 もう一つの過小評価されている超能力:常に待機している「ベテラン AI」。 Devin のコードベース理解の進歩は、ほとんどの人々の期待をはるかに超えています。 • 500 万行の COBOL コードまたは 500 GB の大規模なリポジトリを数分で読み取り、DeepWiki は完全な技術ドキュメントとシステム アーキテクチャ ダイアグラムを自動的に生成し、継続的に更新します。 • ある銀行は、複数のドキュメントチーム全体を直接解放して、新機能の開発に取り組みました。 エンジニアは、Devin に依頼して、わずか 15 分でチームで議論できる複雑なプロジェクトの予備アーキテクチャを作成してもらうことができます。 現状の3つの大きな欠点(公式見解は隠さない) 1. 曖昧な要件下でのエンドツーエンドの独立実行能力は依然として弱い。特にUIやビジュアルデザインといった主観的な領域では、明確な仕様を与える必要がある。要件が曖昧であったり、自動検証できなかったりすると、依然として頻繁に失敗する。 2. タスク中に要件が頻繁に変更されると、Devinのパフォーマンスが低下します。ジュニアエンジニアとは異なり、Devinは「必要に応じて作業し、議論し、修正する」ことが苦手です。タスクが開始されると、要件が頻繁に追加され、簡単に混乱が生じます。そのため、人間のユーザーは「要件を一回で明確かつ完全に説明する」ことを学ぶ必要があります。 3. ソフトスキルは全くゼロです。チームを率いることも、感情をコントロールすることも、マンツーマンのメンターになることも、チームビルディング活動を企画することもできません…でも、彼はいつもフレンドリーで、いつも忍耐強く、メッセージにはすぐに返信してくれます。 2026 年の主な改善分野: 現実世界の非常に複雑なコードベースに対する理解を継続的に強化します。 複雑なエンドツーエンドのタスクで人間と共同作業する能力が大幅に強化されます。 • 人間とコンピュータのインタラクションエクスペリエンスが向上し、エンジニアが Devin を指示しやすくなります。 要約と主要な結論 2025 年における Devin の本当の位置付けは、「上級エンジニアの交代」ではなく、むしろ次のようになります。 これは、最も退屈で反復的かつ高度に並列化されたエントリーレベルのタスクのすべてを引き継ぎ、人間のエンジニアの時間を「20% のコーディング + 80% の雑務」から「70~80% のコーディング + 高価値の設計」に戻します。 ブログアドレス
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
