X (Twitter)

Oppo AI Agent チームの新しい論文「O-Mem」は、長期にわたるインタラクションにおける AI エージェントのメモリに焦点を当てています。 O-Mem は、人間の記憶メカニズムをシミュレートすることで AI エージェントを「適応型アシスタント」に近づけるように設計された革新的なメモリフレームワークです。単に履歴記録を蓄積するのではなく、ユーザープロファイルを動的に構築し、長期的なインタラクションをサポートし、関連情報を効率的に取得できます。本論文の核心は、既存のAIエージェント記憶システムには限界があるという点です。既存のシステムは、意味的には無関係だが重要なユーザー情報を見落とし、検索ノイズを発生させる傾向があります。O-Memは「プロアクティブ・ユーザー・プロファイリング」によってこれらの問題に対処し、各インタラクションをユーザーモデルの更新の機会と捉えることで、より正確で経済的な記憶管理を実現します。コア方法論: O-Memフレームワーク O-Mem は人間の記憶の構造からインスピレーションを得ており、全方向記憶システムを形成する 3 つの補完的なモジュールで構成されています。 • ペルソナメモリ：ユーザーの好み、習慣、背景（例：「ユーザーはコーヒーが好きですが、カフェインに敏感です」）など、長期的な属性と事実を保存します。LLMを用いてインタラクションから属性を抽出し、「追加/無視/更新」の判断を通じて動的に維持します。属性は、LLM強化の最近傍クラスタリングによって処理され、シンプルさが確保されています。 • ワーキングメモリ：会話の連続性を維持するために、対話記録をトピックごとにマッピングします。例えば、現在のクエリから特定のトピックに関連する過去のスニペットを取得します。 • エピソード記憶：過去の出来事をキーワードや手がかり（「誕生日」など）に結び付けることで、連想想起をサポートします。逆文書頻度スコアリングを用いて、最もユニークな手がかりを選択し、一般的な単語からの干渉を回避します。記憶構築と検索プロセスは非常に効率的です。新しいインタラクションでは、LLMがトピック、属性、イベントを抽出し、辞書マッピングを更新します。検索中は、3つのモジュールが並行して動作します。ワーキングメモリはトピックに関連するコンテンツを引き出し、プロットメモリは検索のための手がかりを選択し、キャラクターメモリは属性を照合します。最終的な検索結果は統合され、LLMに入力されて応答を生成します。この設計により、履歴全体のスキャンが回避され、ノイズと計算オーバーヘッドが削減されます。実験結果と評価: チームは 3 つのベンチマークで O-Mem をテストし、パフォーマンスと効率の面での利点を実証しました。 • LoCoMoベンチマーク（長い対話の一貫性）：O-MemはF1スコア51.67％を達成し、LangMem（48.72％）よりも3％向上し、特に時間的およびマルチホップの推論タスクで優れています。 • PERSONAMEMベンチマーク（ユーザー-LLMパーソナライズ対話）：精度62.99%、A-Mem（59.42%）より3.5%向上、嗜好追跡と一般化機能でトップ。 • パーソナライズされた詳細な調査ベンチマーク（実際のユーザークエリ）：ユーザーアライメントは 44.49% で、Mem0 (36.43%) より 8% 高くなっています。効率性において、O-Memはベースラインを大幅に上回ります。トークン消費量は94%削減（1.5K vs. LangMem 80K）、レイテンシは80%削減（2.4秒 vs. 10.8秒）、メモリ使用量はユーザーあたりわずか3MB（vs. 30MB）です。アブレーション実験では、各モジュールが独立して価値を提供することが示されています。例えば、個人メモリモジュールは、パフォーマンスを向上させながら、検索長を77%削減できます。パレートの最適性は、元の履歴（RAG）を直接取得する場合のトレードオフに匹敵しますが、コストは低くなります。論文に関するオンラインディスカッション:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容