現在の言語モデルは、Jeff Guo 氏に率いられ、暗号化された言語での推論に苦労しています。 LLM に、単純な暗号を使用して推論をエンコードして難読化するようにトレーニングまたは指示すると、推論のパフォーマンスが大幅に低下します。
Anthropic のアライメント研究の詳細については、Alignment Science ブログをご覧ください: https://t.co/0UHuZdvWd9
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
2 件のツイート · 2025/11/04 0:32
現在の言語モデルは、Jeff Guo 氏に率いられ、暗号化された言語での推論に苦労しています。 LLM に、単純な暗号を使用して推論をエンコードして難読化するようにトレーニングまたは指示すると、推論のパフォーマンスが大幅に低下します。
Anthropic のアライメント研究の詳細については、Alignment Science ブログをご覧ください: https://t.co/0UHuZdvWd9