Googleの技術リーダー、ジェフ・ディーンが言及した驚くべき論文:タイタンズ AIが簡単な説明をしてくれます。 Titans は AI に「真の記憶」を与え、人間のように重要なことを記憶し、重要でないことは忘れ、使用するにつれて学習して記憶することを可能にします。 3つの優れた機能: 1. AIにおける「金魚の記憶」問題を解決しました。 トランスフォーマー: 優秀な生徒のようにすべてを鮮明に記憶しますが、脳にあまり多くのことを保持できません (数千語しか読めません)。 従来の RNN は圧縮マニアのようなもので、すべてを小さなボックスに詰め込み、結果として何も記憶しなくなります。 タイタンの解決策 - 短期記憶: 注意メカニズムを使用して、現在表示されているコンテンツを正確に処理します。 - 長期記憶: ニューラル ネットワークを「脳」として使用し、重要な情報をパラメータにエンコードします。 - 持続記憶:タスク自体に関する知識を保存する 人間の脳と同様に、3 種類の記憶にはそれぞれ独自の機能があります。 2. 記憶する価値があるかどうかを判断できる コアイノベーション: 人間の記憶システムからインスピレーションを得ています。予期しない出来事はより簡単に記憶され、驚きの指標として定義されます。 ニュースを読む: 「今日はいい天気ですね」と見る→驚かないでください、覚える必要はありません。 - 「火星で生命が発見された」と書いてあるのにびっくりしたので、すぐに書き留めました。 ・続報 → もうそれほど驚きはしませんが、これまでの大きな出来事と関連しているので覚えておく価値はあります。 タイタンの仕組み: - 現在の驚き: この情報はこれまで見てきたものとどれくらい違うのでしょうか? - 歴史的な驚き: 最近、何か重大な出来事は起こりましたか? - 適応的忘却: この記憶はどれくらい保持されるべきでしょうか? 3. 使いながら学習し、使えば使うほど賢くなります。 従来のモデルは一度トレーニングすると固定され、テスト中は「学習」ではなく「呼び出し」しかできません。 Titans のメモリ モジュールはテスト中も更新され、新しいコンテンツが検出されるとリアルタイムでメモリが調整されました。 実験結果はどれほど劇的でしたか? 非常に長い文章の理解、干し草の山の中の針を探す課題 16,000 語の記事から重要な情報を見つけます。Titans の精度率: 96% 以上。 私の最強の対戦相手、Mamba2: 5.4% (基本的には推測) BABILong の極めて難しい推論タスク: 100 万語の文書から推論する。 パラメータ数が 70 分の 1 未満の Titans は、パラメータ数が 700 億の Llama 3.1 に勝ち、GPT-4 さえも上回りました。 日常的なタスクでも優れたパフォーマンスを発揮します。 - 言語モデリング: Transformerやすべての線形RNNよりも優れている - 時系列予測: 7つのデータセットをリード - 遺伝子配列解析:最先端技術(SOTA)レベルの達成 なぜ他のモデルではそれができないのでしょうか? Transformer のジレンマ: 100 万語を記憶したいですか? メモリが爆発的に増加し、計算ができず、固定長のウィンドウしか表示できません。 線形RNNの問題は、履歴をベクトルまたは行列に圧縮することです。これはまるで、一冊の本を一文に要約するようなものです。失われる情報が多すぎる上に、忘却メカニズムがないため、時間の経過とともに「脳」は混乱してしまいます。 タイタンの強み - ディープメモリ: 多層ニューラル ネットワークをメモリとして使用すると、単一のマトリックスよりもはるかに強力になります。 - モメンタムメカニズム:現在だけでなく、最近の傾向も見てください。 - 忘却の門:忘れるべきことは忘れ、覚えておくべきことは覚えておく。 - 並列トレーニング: 複雑ですが、遅くはありません。 技術的な創意工夫 「学習」を「記憶」に変換するには、基本的に勾配降下法を実行するメモリ モジュールを使用する必要がありますが、これはテスト中に実行されるため、「メタ学習器」と同等になります。 既存の多くの方法が統合されました。 - 忘れられたマンバの門?タイタンの特別なケース - DeltaNetの増分ルール?Titansの簡易版 - TTT テスト時間トレーニング? Titans は勢いと忘却を追加しました。 この仕事はなぜ重要なのですか? これにより、単に「モデルを拡大する」または「注意を最適化する」という段階を超えて、メモリシステムの観点からアーキテクチャを再考するという新たな思考の道が開かれました。 実際の問題点に対処します: 長いドキュメントの分析、長いビデオの理解、継続的な学習シナリオ。 最後の例え トランスフォーマー = カメラのメモリ。見たものすべてを記憶できますが、一度に見ることができるのは小さな部分だけです。 従来の RNN は、メモを取るようなもので、すべてを数文にまとめますが、詳細は失われます。 タイタン = 人間の脳 短期記憶: 現在の情報を処理します。 - 長期記憶:重要な経験を保存する メタ記憶:学習方法を知る 重要でないことは忘れる 何がそれを強くするのでしょうか? 1. より多くのことを記憶できます: 200 万トークンまで拡大すると、他のモデルではずっと前に崩壊していたでしょう。 2. より正確に記憶する: 何が重要で、何を忘れるべきかを知る。 3. 使えば使うほど賢くなります: テスト中も学習し続けます。 4. 理論は保証されています。数学的な証明と実験があります。 5. 実験は非常に印象的です。すべてのタスクは最先端 (SOTA) レベルかそれに近いレベルです。 それは本当にすごいですね!
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。