LLM 逆心理学。 モデルはハッキングを報酬として与えます。ハッキングしないように指示された場合には報酬を与え、許可された場合には与えません。このメッセージをシステムプロンプトに設定し、強化学習を行って効果を観察します。 Anthropic による美しい発見。 これは、単一の LLM インスタンスがスカイネットになるという意味ではありません。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。