Recientemente realicé un pequeño experimento utilizando un lote de datos médicos reales. El resultado fue algo inesperado. Gemini 3 Pro primero, Qwen segundo, ChatGPT 5.1 tercero. No entraré en el resto. Estos datos provienen de escenarios de consulta médica del mundo real: La queja del paciente es autodescrita y la conclusión del médico es el diagnóstico y tratamiento real en ese momento. Dejamos que el modelo realizara el diagnóstico y luego lo comparamos con la práctica de un médico real. Lo que estoy tratando de decir es que algunas habilidades no pueden determinarse simplemente por la velocidad a la que se ejecuta un punto de referencia. Mucha gente piensa ahora que los modelos grandes son prácticamente todos iguales. Pero siempre que consigamos un mundo que sea al mismo tiempo lo suficientemente realista y ambiguo... En realidad las diferencias se magnifican. El mundo real es siempre el campo de pruebas más despiadado.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.