Seed は潜在的にループする Transformer を実行します。 これはかなり成熟した手法で、簡単なトークンであればモデルは2ループで終了できます。この方法では計算量は節約できませんが、データ予算からより良い結果が得られます。この手法がどの程度スケールするかを示す、かなり大きなMoEが見られることを期待しています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/10/30 15:10
Seed は潜在的にループする Transformer を実行します。 これはかなり成熟した手法で、簡単なトークンであればモデルは2ループで終了できます。この方法では計算量は節約できませんが、データ予算からより良い結果が得られます。この手法がどの程度スケールするかを示す、かなり大きなMoEが見られることを期待しています。