Axiom 最新研究部落格:https://t.co/axiommath.ai/territory/lear…之母 當你用數學中最臭名昭著的未解難題之一來訓練一個 Transformer 模型,然後研究它是如何失敗的,會發生什麼?
隨便選一個數字。 現在想像一下,它就像《愛麗絲夢遊仙境》裡的白兔,在縱身躍入算術兔子洞之前,緊張地瞥了一眼手錶。 偶數?減半。奇數?先乘以 3 再加 1,再減半。 不知何故,兔子總是能迅速回到 4→2→1。神奇!
在這種種奇思妙想背後,隱藏著數學中最惡名昭彰的未解難題之一。 無尾熊茲猜想。 它從上世紀30年代就開始營業了。 計算機已經檢查了所有小於等於 2.95×10²⁰ 的起始值。每一個起始值最終都會達到 1。 然而——卻沒有任何證據。
想感受一下嗎?從81開始: 81→244→122→61→184→92→46→23→70→35→106→53→160→80→40→20→10→5→16→8→4→2→1 然後它就一直循環下去。 瘋狂地在整數中跳躍! 兔子迅速地翻滾了23步,回到了地面。然後,它終於再次在陽光下眨了眨眼。
當兔子想要直接跳到最終目的地時,這被稱為長科拉茨步。 變壓器能否預測這些「長考拉茲步長」? 多麼完美啊! Axiom 的 Francois Charton (@f_charton) 和合作者 Ashvni Narayanan 在萬億以內達到了 99.8% 的準確率。
變壓器是如何達到這麼高的?透過多次離散跳躍實現的。 25%→37%→55%→71%→88% 像兔子跳躍一樣邁出多步。 這些飛躍絕非偶然。 它們與無尾熊茲序列本身的深層數學結構密切相關。
秘訣是什麼?二進制編碼。 模型以特定的方式學習。 他們不再處處“差強人意”,而是學會了在不斷擴展的輸入集合上做到完全正確,然後迅速過渡到下一個集合。 首先處理二進位後綴以 001 結尾的輸入,然後處理以 1011 結尾的輸入,依此類推。
民間傳說法學碩士不會算術,但這裡的模型並沒有產生幻覺。 近 90% 的錯誤都遵循兩條簡單易懂的規則,我們可以解釋。 他們推理很謹慎——只是偶爾會跟著正確的兔子走進長度錯誤的隧道。
數學本身可以成為可解釋性研究的新工具! 可解釋性通常意味著逐個重量進行屍檢。 但隨著模型的成長,這就好比逐個神經元繪製城市地圖一樣。 我們根據基本原理設計實驗,然後解讀結果。 數學就像顯微鏡。 🔬
論文連結:htarxiv.org/pdf/2511.10811部落格:https://t.co/5MifD6pmoT