エージェントフィードバックループとハーネス+評価に興味がある人、または「最終的にはウェイトに触れなければならない」ということに興味がある人にとって、これは素晴らしい読み物です(実際には一般的に素晴らしいです) 自然なクレジット割り当てによる人間のフィードバックと学習の仕組み(より密度の高い報酬)との優れた類似点を交えて、RL 報酬パラダイムについて説明します。 より高密度なフィードバック信号による最適化はまだ初期段階ですが、非常に有望であり、直感的に意味を成します (?)
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。