最終的には、英語で何が間違っていたのかを説明し、それが勾配に変換され、そのようにしてその教訓がモデルに浸透することで、「LLM を教える」方法に進歩する必要があります。 バイナリ報酬、スカラー報酬、その他報酬はどれも、本来の効率性を十分に発揮できていません。もしあなたの批判(あるいは法学修士課程の審査員の批判でさえ)を理解し、大量のデータ収束におけるスコアの差分からフィードバックを推測するのではなく、フィードバック全体を実際に内部化できれば、学習速度ははるかに速くなるでしょう。
(もちろん、スカラー報酬やバイナリ報酬などは、明らかに抵抗の少ないパスである場合に残しておきますが、実際のユーザーの場合、応答が嫌だった正確な理由があります。モデルは、単に親指を立てたり下げたりするだけでなく、応答が嫌だった理由を理解し、多くのサンプルから学習する必要があります)