ああ、そう、トークナイザーレス/バイト潜在トークン Olmo! 完全なレポート、アブレーション、スクランブル評価/文字制約によるパフォーマンスの向上をさらに確認します。
また、最近のトレーニング中期段階でのモデル適応の傾向にも従っており、これによりアーキテクチャ革新コストが大幅に削減されます (基本的には、LM の物理学のような「制御された実験」)。今後は、設計の多様性がさらに高まる可能性があります。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。