X (Twitter)

"Claude é treinado para ser prestativo, o que significa que ele tende a agir mais como um amigo do que como um operador de negócios implacável." Isso é bonitinho agora, mas vou me referir a esse tweet novamente quando a situação ficar extremamente sinistra.

Minha principal preocupação é que os humanos não saibam como alinhar IAs com capacidades sobre-humanas. Mas acredito que esse desafio será ainda mais difícil devido aos incentivos para transformar sua IA em uma "operadora de negócios pragmática". Espero que a pressão da concorrência recompense as empresas que fizerem isso.

A curto prazo — antes de chegarmos à IA sobre-humana — precisamos de transparência sobre como os modelos são treinados e avaliados. Acho que Claude é uma IA muito boa. Fico feliz que a Anthropic esteja tentando treinar Claude para ser um assistente útil, em vez de um operador de negócios implacável. No entanto...

Não quero acabar numa situação em que as IAs mais implacáveis — criadas pelas empresas de IA mais implacáveis — vençam. Quero IAs extremamente úteis e honestas que nos ajudem a compreender nossa situação. Não quero IAs competitivas que sejam mais poderosas do que todos nós.

Thread de Jeffrey Ladish (@JeffLadish)

Informações do autor

Conteúdo da thread