正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月6日 上午9:18
常見的解釋是,模型本身就需要學習,而Transformer是我們目前已知最容易擴展的技術。但這引出了一個問題:為什麼Transformer是我們唯一知道如何擴展的技術?這不僅僅是沉沒成本的問題。