世の中には SFT (ソリューションベース学習) モデルに従う人が大勢います。根本的な理由を分析することなく、結果のみに頼って成功か失敗かの因果関係を判断し、タスクが失敗したと直接結論付けてしまう人が大勢います。 多くの人は、RL (Research-Based Learning) モデルを使用して、A から B、そして B から C へと段階的に学習しますが、手遅れになって何も達成できなくなります。 これら 2 つのモデルを組み合わせて戦略を蒸留できる人は、すでに高度なスキルを持っているとみなされます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。