RL がなぜそれほど重要なのか?エージェント RFT など... 以下のストーリーは、モデルが RL 後のトレーニング中に本番環境で使用するツールを確認する必要があることを示す大きな証拠です。 Claude Code を使用した Opus 4.5 は CORE-Bench を圧倒しますが、他のハーネスを使用した場合のパフォーマンスは注目に値しません。 唯一の違いはハーネス(およびツール)の変更です。 CursorチームもComposeのトレーニングについて同じ点を指摘しました。モデルはツールの利用、特に埋め込み検索の精度が向上しました。 RL はトレーニング後の主流のテクニックになるでしょう。 @PrimeIntellect @appliedcompute @NovaSkyAI @FireworksAI_HQ @lqiao @cursor_ai 。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。