このような大規模なMoE(特にDSMoE以降の高度なアーキテクチャ)の挙動は、まだ理解できていないと思います。しかし、合計約28Bでも0.8%のスケーリングは良好であることが分かっています。そして、「より細粒度」を超えたスパース性を活用する巧妙な方法も可能になります。10Tで1%というのは*保守的*だと思います。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
1 件のツイート · 2025/11/24 3:35
このような大規模なMoE(特にDSMoE以降の高度なアーキテクチャ)の挙動は、まだ理解できていないと思います。しかし、合計約28Bでも0.8%のスケーリングは良好であることが分かっています。そして、「より細粒度」を超えたスパース性を活用する巧妙な方法も可能になります。10Tで1%というのは*保守的*だと思います。