Le Gemini 3 est-il vraiment aussi puissant ? Un historien a testé la capacité du Gemini 3 Pro à déchiffrer des documents historiques. Il peut déchiffrer et interpréter des documents historiques auparavant inaccessibles aux modèles. À vrai dire, les caractères de ces manuscrits sont totalement illisibles sans étude ni entraînement. En matière de reconnaissance de tableaux manuscrits complexes qu'il n'avait jamais vus auparavant, Gemini 3 a surpassé les étudiants formés. La nature « prédictive » de la LLM la rend sujette à des erreurs concernant des éléments peu probables tels que les orthographes non conventionnelles, les noms, les toponymes, les dates et les montants. De plus, la ponctuation, la mise en majuscules, le « s » long (ſ) et les unités de mesure dans les documents historiques sont souvent ambiguës. Les auteurs ont testé 50 échantillons manuscrits académiques anglais, totalisant environ 10 000 mots, couvrant divers styles d'écriture et conditions d'imagerie, pour évaluer le CER/WER. Avec le Gemini-2.5-Pro, en mode de notation strict, le CER est d'environ 4 % et le WER de 11 % ; si les erreurs de ponctuation et de majuscules sont exclues, le CER tombe à 2 % et le WER à 4 %, ce qui est proche de celui d'un correcteur humain professionnel. Après avoir exclu certains termes ambigus, le nouveau modèle (Gemini 3) a réduit son CER à 0,56 % et son WER à 1,22 %, approchant ou atteignant le « niveau d'expert humain ». Cela représente une amélioration de 50 à 70 % par rapport à Gemini-2.5-Pro. L'auteur affirme que cela semble franchir une limite que certains experts considèrent depuis longtemps comme insurmontable par les modèles actuels. Face à un nombre imprécis, il déduit le contexte manquant, effectue une série de conversions complexes entre les monnaies et les systèmes de poids historiques, et parvient aux conclusions correctes qui nécessitent un raisonnement abstrait sur le monde décrit dans le document. Autrement dit, il se comporte comme s'il pouvait utiliser des symboles, même si ces symboles n'ont jamais été explicitement définis. Ce qui semble se produire, c'est une nouvelle forme de raisonnement implicite — une combinaison spontanée de perception, de mémoire et de logique au sein d'un modèle statistique.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.



