"Claude está entrenado para ser servicial, lo que significa que a menudo tiende a actuar más como un amigo que como un empresario estricto". Esto es lindo ahora, pero volveré a referirme a este tweet cuando se vuelva extremadamente siniestro.
Mi principal preocupación es que los humanos no sepan cómo alinear IAs superhumanas. Pero creo que este desafío se complicará aún más debido a los incentivos para convertir a la IA en un "operador de negocios inflexible". Espero que las presiones competitivas recompensen a las empresas que hacen esto.
A corto plazo, antes de llegar a la IA superhumana, necesitamos transparencia en cómo se entrenan y evalúan los modelos. Creo que Claude es una IA bastante buena. Me alegra que Anthropic esté intentando entrenar a Claude para que sea un asistente útil en lugar de un operador de negocios estricto. Sin embargo...
No quiero terminar en una situación en la que las IA más despiadadas, creadas por las empresas de IA más despiadadas, ganen. Quiero IA extremadamente útiles y honestas que nos ayuden a comprender nuestra situación. No quiero IA competitivas que sean más poderosas que todos nosotros.