X (Twitter)

アントロピックは2層エージェント設計を提案している長時間のタスクを実行する際にエージェントがメモリを失う問題を解決する Claude のような AI モデルがさらに強力になるにつれ、開発者は次のことができるようになることを期待しています。複雑なタスク（フルスタック開発など）の実行何時間も、あるいは何日も連続して働くしかし、コンテキストウィンドウが更新されるたびに AI はメモリを失い、タスクを継続的に進めることができなくなります。これは、エンジニアリングチームがシフト制で作業しているのに、新しいエンジニアが入社したときには前のシフトが何をしていたのかまったくわからないようなものです。従来の長時間実行タスクの主な 2 つの失敗モード: 1. 一度にすべてのタスクを完了しようとする（ワンショット） Claude は、単一のウィンドウでアプリケーション全体をビルドしようとしますが、コンテキストが不足して、次回の起動時に再構築する必要がある「半完成プロジェクト」が残ることがあります。 2. タスクの完了を早すぎる時期に宣言するプロジェクトの一部の機能が完成すると、クロードは誤って「タスクは終了した」と判断することがあります。これら両方の問題は、不連続なタスク状態と壊れたコンテキストにつながります。なぜこれを解決するのはこんなに難しいのでしょうか? AI モデルの「メモリ」は永続的なものではありません。コンテキストウィンドウが閉じるたびに、何も記憶せずに「再起動されたコンピューター」のような状態になります。 Anthropic は Claude に「圧縮」機能を提供しました。この機能を使用すると、次のラウンドに進む前に会話を凝縮することができますが... しかし、それだけでは十分ではありません。AI は依然として構造化されたプロジェクトの状態を失ってしまうからです。アントロピックのソリューション: 2エージェントハーネスアーキテクチャこれらの問題に対処するために、Anthropic は次のような新しいインテリジェントエージェント動作アーキテクチャを設計しました。二重知能体長操作フレームワークこれは、次の 2 種類の AI ロールの連携によって実現されます。初期化エージェントコーディングエージェントこれら 2 つのエージェントは 2 つの異なるモデルではなく、異なるプロンプトテンプレートを使用して異なる段階で実行される同じ Claude モデルです。違いは、責任の分担と状況による制約にあります。 🧩 最初のメンバー: 初期化エージェントイニシャライザのタスクは次のとおりです。プロジェクトのための構造化された「作業記憶」を確立します。明確で持続可能な開発環境を構築するこれは、プロジェクトが最初に起動されたときにのみ実行され、「プロジェクトの準備」を実行します。初回起動時に、このインテリジェントエージェントは次の処理を実行します。全体的な作業環境を作成します。初期化スクリプトを作成します: https://t.co/VUeBdiSpyr; プロジェクトの進捗ファイル claude-progress.txt を生成します。 Git リポジトリを作成します (バージョン管理用)。 💡 これはプロジェクトの「起工式」のようなもので、その後の AI のための強固な基盤を築きます。 🧑💻 2. コーディングエージェント以降の実行ごとに、このインテリジェンスは次の処理を実行します。進捗ログと Git レコードを読み取ります。「実装される機能のリスト」を表示します。小さな機能を 1 つだけ実装します。適切なコメントを書いてコードをテストします。クリーンな Git コミットを保存します。進捗ログを更新した後、終了します。 💡 それぞれのランニングはリレー競技の 1 脚のようなものです。小さなことを実行し、それを明確に記録して、次の人に引き継ぎます。実際のテスト結果: 彼らは本当に賢くなりました。実験により、この構造化されたアプローチにより、クロードは次のことが可能になることが証明されました。数時間連続して実行した後でも論理的な一貫性を維持します。以前に書いたコードを自動的にチェックします。レガシーバグを迅速に修正します。「チームワーク」を感じます。ただし、次のような制限はまだあります。ブラウザのネイティブポップアップウィンドウは表示されません。一部のバグは手動でのみ発見できます。マルチエージェントコラボレーションへの最適なアプローチはまだ調査中です。

詳しい紹介xiaohu.ai/c/xiaohu-ai/an…F

小互（@imxiaohu）のスレッド

作者情報

スレッド内容