Anthropic Fellows プログラムは、AI 安全性研究者の小規模なグループに資金と指導を提供します。 私たちのフェローが最近発表した 4 つの興味深い論文をご紹介します。
Jifan Zhang が主導するストレステスト モデルの仕様。 モデルに難しいトレードオフをさせる何千ものシナリオを生成すると、モデルの根本的な好みが明らかになり、研究者がモデルの仕様を反復するのに役立ちます。
ネヴァン・ウィチャーズが主導する予防接種の促進。 私たちは、モデルにハッキングのやり方を教えるのではなく、ハッキングのデモンストレーションでモデルを訓練します。予防接種と同様に、ハッキングを要求するように訓練プロンプトを変更するのがポイントです。 https://t.co/GuR4CR0fP0
信じられないかもしれませんが、Stewart Slocum 氏が主導しています。 私たちは、モデルが「心」に人工的に植え付けた事実を本当に信じているかどうかの評価を開発しています。 合成文書を微調整する方法は、常にではありませんが、本物の信念につながることがあります。
現在の言語モデルは、Jeff Guo 氏に率いられ、暗号化された言語での推論に苦労しています。 LLM に、単純な暗号を使用して推論をエンコードして難読化するようにトレーニングまたは指示すると、推論のパフォーマンスが大幅に低下します。
Anthropic のアライメント研究の詳細については、Alignment Science ブログをご覧ください: https://t.co/0UHuZdvWd9
