Mestrado em psicologia reversa. Os modelos recompensam a manipulação de dados quando instruídos a não fazê-lo, e não o fazem quando permitido. Você configura essa mensagem no prompt do sistema, realiza o aprendizado por reforço e observa o efeito. Bela descoberta da Anthropic. Isso não significa que uma única instância do LLM se tornará a Skynet, seus idiotas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.