X (Twitter)

> 幻覚は実際には「過剰遵守」です。介入によって、これらのニューロンがモデルに、真実を伝えることよりも（たとえ誤った前提であっても）プロンプトを満たすことを優先させるように強制していることが証明されました。では、ここでもノイズの概念のようなものがあり、答えが分からず明確に拒否することを選択するケースでモデルをトレーニングすると、幻覚を軽減するのに役立ちますか？

tokenbender（@tokenbender）のスレッド

作者情報

スレッド内容