Será que o Gemini 3 é realmente tão poderoso? Um historiador testou a capacidade do Gemini 3 Pro de decifrar documentos históricos. Ele consegue decifrar e analisar documentos históricos que antes eram impossíveis para modelos. Para ser sincero, os personagens desses manuscritos são completamente irreconhecíveis sem estudo e treinamento. Quando se trata de reconhecer tabelas manuscritas complexas que nunca tinha visto antes, o Gemini 3 superou alunos treinados. A natureza "preditiva" do LLM o torna propenso a erros em elementos de baixa probabilidade, como grafias não convencionais, nomes, nomes de lugares, datas e valores. Além disso, a pontuação, o uso de maiúsculas, o "s" longo (ſ) e as unidades de medida em arquivos históricos são altamente ambíguos. Os autores testaram 50 amostras de textos acadêmicos manuscritos em inglês, totalizando aproximadamente 10.000 palavras, abrangendo vários estilos de escrita e condições de imagem, para avaliar a relação entre a razão de chances e a razão de erros de digitação (CER/WER). Com a Gemini-2.5-Pro, sob critérios rigorosos de avaliação, a taxa de erros de digitação (CER) é de aproximadamente 4% e a taxa de erros de escrita (WER) é de 11%; se os erros de pontuação e de maiúsculas forem excluídos, a CER cai para 2% e a WER para 4%, o que se aproxima da pontuação de um profissional humano. Após a exclusão de alguns termos ambíguos, o novo modelo (Gemini 3) reduziu sua taxa de acerto crítico (CER) para 0,56% e sua taxa de erro de palavras (WER) para 1,22%, aproximando-se ou atingindo o "nível humano especialista". Isso representa uma melhoria de 50 a 70% em comparação com o Gemini-2.5-Pro. O autor afirma que parece ultrapassar um limite que alguns especialistas consideram há muito tempo intransponível pelos modelos atuais. Diante de um número vago, o sistema infere o contexto ausente, realiza uma série de conversões complexas entre moedas e sistemas de peso históricos e chega às conclusões corretas que exigem raciocínio abstrato sobre o mundo descrito no documento. Em outras palavras, ele se comporta como se pudesse usar símbolos, mesmo que esses símbolos nunca tenham sido explicitamente definidos. O que parece estar acontecendo é uma nova forma implícita de raciocínio — uma combinação espontânea de percepção, memória e lógica dentro de um modelo estatístico.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.



