Los modelos de lenguaje actuales tienen dificultades para razonar en lenguaje cifrado, liderados por Jeff Guo. Entrenar o incitar a los LLM a ofuscar su razonamiento codificándolo mediante cifrados simples reduce significativx.com/Jeff_Guo_/stat…e razonamiento.
Para obtener más información sobre la investigación de alineación de Anthropalignment.anthropic.comog de Ciencia de la Alineación: https://t.co/0UHuZdvWd9