X (Twitter)

最適なエキスパート (つまり、生涯コストではなく、下流のパフォーマンスターゲットに対する FLOP のトレーニングを最適化している場合でも) が 100 万パラメーター未満の場合、問題になります。しかし、論理的にもそうでしょう。小さなモデルは驚くほど強力ですより良いルーティングが必要ですちなみに私はこれを予想していました

100件のいいね！が私にとって最高の瞬間だった幸せな日々

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）のスレッド

作者情報

スレッド内容