你經常從機器學習領域之外的人或新手那裡聽到這種說法,我經常提到伊利亞幾年前的演講: 1)可以將任何擁有足夠記憶體和順序操作能力的優秀深度神經網路視為大型並行電腦。 2)訓練這個神經網路就是搜尋能夠最大化目標函數的電腦程式。 3)除非你遇到一些大的瓶頸(並且假設你能成功優化這個系統),否則你會發現這些平行電腦對架構變化具有很強的穩健性。 4)這是因為電腦非常擅長相互模擬。你的新架構通常可以直接在舊架構「內部」進行模擬。 5) 架構並非不重要,但它主要在以下方面很重要:(1) 並行計算機的基本瓶頸;(2) 使模型更容易優化的修改,因為只有在優化良好的情況下,此論點才成立;(3) 計算效率/系統效率的提高,使學習更容易或更快。 6)新的架構很可能帶來機器學習的突破,但我們首先應該著手解決瓶頸問題,而不是憑直覺去理解人工智慧應該採取的「形式」。在你理解這一點之前,你會覺得以下現象令人驚訝:訓練時間較長的小型模型比訓練不足的大型模型更好;深度和寬度可以互換;使用 MoE、稀疏注意力或線性注意力機制的模型在相同評估次數下表現大致相同。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。