[Modelo de código aberto] NVIDIA Nemotron Parse v1.1: O mais recente modelo de linguagem visual (VLM) da NVIDIA, projetado especificamente para análise de documentos. Trata-se de um "agente de compreensão de documentos" altamente especializado, com menos de 1 bilhão de parâmetros, capaz de extrair com precisão conteúdo estruturado de imagens de documentos com layouts complexos (como PDFs, capturas de tela de apresentações em PowerPoint e documentos digitalizados), além de localização espacial (caixas delimitadoras) e categorias semânticas. Competências essenciais 1. Saída em ordem de leitura: Ao contrário do OCR tradicional, que simplesmente gera o texto em ordem aleatória, ele organiza o conteúdo de acordo com a ordem de leitura humana (de cima para baixo, da esquerda para a direita). 2. Extração estruturada com coordenadas: Texto simples (suporta classificação semântica, como títulos, parágrafos e notas de rodapé) • Tabelas (podem ser exportadas diretamente para o formato LaTeX ou Markdown, com suporte para linhas e colunas) • Fórmulas matemáticas (formato LaTeX) • Caixas delimitadoras e categorias para elementos como imagens, gráficos, cabeçalhos e rodapés. 3. Formato de saída altamente legível por máquina: Gera diretamente Markdown + LaTeX com coordenadas, facilitando a integração posterior em grandes modelos ou bancos de dados. Principais inovações: O OCR tradicional (como Tesseract e PaddleOCR) é propenso a erros ao lidar com layouts complexos, textos multilíngues e transformações de tabelas. Muitos modelos visuais (como LayoutLM e Donut) só conseguem realizar classificação ou extração simples, e não geram coordenadas precisas ou tabelas LaTeX completas. O Nemotron Parse v1.1 combina um poderoso codificador visual ViT-H com um decodificador no estilo mBart para prever "conteúdo do texto + localização + categoria semântica" em uma única etapa. Especialmente indicado para cenários de nível empresarial: processamento automatizado de contratos, relatórios financeiros, artigos acadêmicos e apresentações em PowerPoint. Visão geral da arquitetura técnica: Codificador visual: C-RADIO (baseado em ViT-H) • Camada de adaptação: convolução 1D + normalização • Decodificador de linguagem: estrutura mBart de 10 camadas • Entrada: imagem RGB (resolução recomendada de 1024×1280 a 1648×2048) + instruções simples • Saída: texto simples (contendo caixas delimitadoras especialmente marcadas, categorias e conteúdo Markdown/LaTeX) Desempenho e limitações: Apresenta desempenho significativamente superior às soluções de código aberto existentes em benchmarks públicos e internos para extração de tabelas, reconhecimento de fórmulas e compreensão de layout. • Limitações: Funciona melhor em GPUs NVIDIA (arquitetura Hopper/Ampere/Turing), possui requisitos de resolução de entrada variados e seu desempenho será prejudicado em documentos extremamente desfocados ou manuscritos (mas ainda é melhor do que a maioria dos OCRs). Endereço do modelo online:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![[Modelo de código aberto] NVIDIA Nemotron Parse v1.1: O mais recente modelo de linguagem visual (VLM) da NVIDIA, projeta](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)