Transformer++ 是一篇真實的論文,但這個術語通常用於指稱 LLaMA2 演算法,我記得最早是在 Mamba 論文中提出的。 我認為我們現在已經有了好幾個“變形金剛+++”了。 DSMoE之後的行業標準可以再加一個“+”,而它最成熟的版本就是Zaya。 我個人評選出的頂尖候選人名單:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月9日 凌晨3:54
Transformer++ 是一篇真實的論文,但這個術語通常用於指稱 LLaMA2 演算法,我記得最早是在 Mamba 論文中提出的。 我認為我們現在已經有了好幾個“變形金剛+++”了。 DSMoE之後的行業標準可以再加一個“+”,而它最成熟的版本就是Zaya。 我個人評選出的頂尖候選人名單: