¿Es realmente tan potente el Gemini 3? Un historiador puso a prueba la capacidad del Gemini 3 Pro para descifrar documentos históricos. Es capaz de descifrar y analizar documentos históricos que antes eran imposibles de comprender para los modelos. Para ser sinceros, los caracteres de estos manuscritos son completamente irreconocibles sin estudio y formación. En lo que respecta al reconocimiento de tablas manuscritas complejas que nunca había visto antes, Gemini 3 superó a los estudiantes entrenados. La naturaleza «predictiva» de LLM la hace propensa a errores en elementos de baja probabilidad, como ortografías poco convencionales, nombres, topónimos, fechas y cantidades. Además, la puntuación, el uso de mayúsculas, la «s» larga y las unidades de medida en los archivos históricos son altamente ambiguas. Los autores analizaron 50 muestras académicas manuscritas en inglés, con un total aproximado de 10.000 palabras, que abarcaban diversos estilos de escritura y condiciones de imagen, para evaluar la CER/WER. Con el Gemini-2.5-Pro, bajo una evaluación estricta, el CER es aproximadamente del 4% y el WER del 11%; si se excluyen los errores de puntuación y mayúsculas, el CER baja al 2% y el WER al 4%, lo que se acerca al de una evaluación humana profesional. Tras excluir algunos términos ambiguos, el nuevo modelo (Gemini 3) redujo su CER al 0,56 % y su WER al 1,22 %, acercándose o alcanzando el "nivel de un experto humano". Esto representa una mejora del 50-70 % en comparación con Gemini-2.5-Pro. El autor afirma que parece cruzar una línea que algunos expertos han considerado durante mucho tiempo insuperable para los modelos actuales. Ante un número impreciso, infiere el contexto faltante, realiza una serie de conversiones en varios pasos entre monedas y sistemas de ponderación históricos, y llega a las conclusiones correctas que requieren razonamiento abstracto sobre el mundo descrito en el documento. En otras palabras, se comporta como si pudiera usar símbolos, aunque estos nunca se hayan definido explícitamente. Lo que parece estar ocurriendo es una nueva forma implícita de razonamiento: una combinación espontánea de percepción, memoria y lógica dentro de un modelo estadístico.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.



