最適なエキスパート (つまり、生涯コストではなく、下流のパフォーマンス ターゲットに対する FLOP のトレーニングを最適化している場合でも) が 100 万パラメーター未満の場合、問題になります。 しかし、論理的にもそうでしょう。小さなモデルは驚くほど強力です より良いルーティングが必要です ちなみに私はこれを予想していました
100件のいいね!が私にとって最高の瞬間だった幸せな日々
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
2 件のツイート · 2025/11/05 20:42
最適なエキスパート (つまり、生涯コストではなく、下流のパフォーマンス ターゲットに対する FLOP のトレーニングを最適化している場合でも) が 100 万パラメーター未満の場合、問題になります。 しかし、論理的にもそうでしょう。小さなモデルは驚くほど強力です より良いルーティングが必要です ちなみに私はこれを予想していました
100件のいいね!が私にとって最高の瞬間だった幸せな日々