Cyril e a equipe da CTGT estão transformando a interpretabilidade mecanística em produto. Eles possibilitam editar o comportamento de LLMs para adicionar garantias de políticas de segurança sem a necessidade de novo treinamento, de uma forma muito mais confiável do que simplesmente solicitar informações.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.