谷歌技術之神Jeff Dean 提到的牛逼論文:Titans(泰坦) 讓AI 簡單解讀下。 Titans 讓AI 有了"真正的記憶力",既能像人一樣記住重要的事,又能忘掉不重要的,還能在使用時邊學邊記。 三個厲害的地方: 1. 解決了AI的"金魚記憶"問題 Transformer:像個學霸,啥都記得清清楚楚,但腦子裝不下太多東西(只能看幾千個字) 傳統RNN:像個壓縮狂,把所有東西塞進一個小盒子,結果啥都記不清 Titans的解法 - 短期記憶:用注意力機制,精確處理目前看到的內容 - 長期記憶:用神經網路當"大腦",把重要訊息編碼進參數裡 - 持久記憶:儲存任務本身的知識 像人腦一樣,三種記憶各司其職。 2. 會判斷什麼值得記住 核心創新:借鏡人類記憶系統:違反預期的事件(更容易被記住,定義為驚喜測量。 看新聞: - 看到"今天天氣不錯" → 不驚訝,不用特別記 - 看到"火星發現生命" → 很驚訝,趕緊記下來 - 後續相關報導→ 雖然不那麼驚訝了,但因為和之前的大事件相關,也要記住。 Titans的工作原理: - 當前驚喜:這個訊息和我之前見過的差多少? - 歷史驚喜:最近有沒有重要事件在發生? - 自適應遺忘:這段記憶該保留多久? 3. 邊用邊學,越用越聰明 傳統模型,訓練完就定型了,測驗時只能"回憶",不能"學習"。 Titans,測試時記憶模組還在更新,看到新內容會即時調整記憶 實驗結果有多猛? 超長文本理解,Needle in Haystack(大海撈針)任務 在16,000字的文章裡找一個關鍵訊息,Titans準確率:96%+。 最強對手Mamba2:5.4%(基本瞎猜) BABILong 超難推理任務,在百萬字文檔裡推理 Titans用不到1/70的參數量,打敗了700億參數的Llama3.1,甚至超GPT-4 常規任務也不拉胯 - 語言建模:比Transformer和所有線性RNN都好 - 時間序列預測:7個資料集全面領先 - 基因序列分析:達到最優SOTA水平 為什麼其他模型做不到? Transformer的困境,想記住100萬字?記憶體爆炸,算不動,只能看固定長度的視窗。 線性RNN的問題,把歷史壓縮成一個向量或矩陣,就像把一本書總結成一句話,資訊丟太多了,沒有遺忘機制,時間長了"腦子"就亂了。 Titans的優勢 - 深度記憶:用多層神經網路當記憶,比一個矩陣強太多 - 動量機制:不只看當前,還看最近的趨勢 - 遺忘門:該忘的忘,該記的記 - 並行訓練:雖然複雜,但訓練速度不慢 技術上的巧妙之處 把"學習"變成"記憶",記憶模組本質是在做梯度下降,但它是在測試時做的,相當於一個"元學習器"。 統一了許多現有方法: - Mamba的遺忘門? Titans的特例 - DeltaNet的增量規則? Titans的簡化版 - TTT的測試時訓練? Titans加了動量和遺忘 為什麼說這份工作很重要? 開啟了新思路,不是簡單地"加大模型"或"優化attention",從記憶系統的角度重新思考架構。 解決了真實痛點,長文件分析,長視頻理解,持續學習場景 最後一個類比 Transformer = 照相機記憶,看到的都能記住,但一次只能看一小塊 傳統RNN = 記筆記,把所有東西總結成幾句話,細節丟了 Titans = 人類大腦 - 短期記憶:處理當前訊息 - 長期記憶:儲存重要經歷 - 元記憶:知道怎麼學習 - 忘記不重要的事 強在哪裡? 1. 能記得更多:擴展到200萬token,其他模型早崩了 2. 記得更準:知道什麼重要,什麼該忘 3. 越用越聰明:測驗時還在學習 4. 理論有保證:有數學證明和實驗。 5. 實驗很能打:各種任務都是SOTA或接近SOTA 真的牛逼啊!
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。