Las alucinaciones son, en realidad, "sobrecumplimiento". Las intervenciones demuestran que estas neuronas obligan al modelo a priorizar la satisfacción de la indicación (incluso con premisas falsas) sobre decir la verdad. Entonces, ¿existe también aquí un concepto de ruido, donde entrenar un modelo en casos en los que no sabe la respuesta y elige negarse claramente ayudaría a mitigar las alucinaciones?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.