AI Code Summit NYC で見られるように、エージェント RFT とエージェント RL のコーディングは、業界全体が正しいことだと同意するようになりました。 しかし、強化学習(RL)の問題は選択肢が多すぎることです。このような普遍的なプロトコルがあれば、大きな効果が得られるでしょう。 さらに堆肥化可能なので、妥協する必要がありません。 これは RL の民主化に大いに貢献するでしょう。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。