[Modelo de código abierto] NVIDIA Nemotron Parse v1.1: El último modelo de lenguaje visual (VLM) de NVIDIA, diseñado específicamente para el análisis de documentos. Se trata de un agente de comprensión de documentos altamente especializado con menos de 1000 millones de parámetros, capaz de extraer con precisión contenido estructurado de imágenes de documentos con diseños complejos (como archivos PDF, capturas de pantalla de presentaciones de PowerPoint y documentos escaneados), junto con la ubicación espacial (recuadros delimitadores) y las categorías semánticas. competencias básicas 1. Salida según el orden de lectura: A diferencia del OCR tradicional que simplemente genera texto en orden aleatorio, este organiza el contenido de acuerdo con el orden de lectura humano (de arriba a abajo, de izquierda a derecha). 2. Extracción estructurada con coordenadas: Texto sin formato (admite clasificación semántica como encabezados, párrafos y notas al pie) • Tablas (se pueden exportar directamente a formato LaTeX o Markdown, admitiendo la extensión de filas y columnas) • Fórmulas matemáticas (formato LaTeX) • Recuadros delimitadores y categorías para elementos como imágenes, gráficos, encabezados y pies de página. 3. Formato de salida altamente legible por máquina: genera directamente Markdown + LaTeX con coordenadas, lo que facilita su incorporación posterior a modelos o bases de datos grandes. Innovaciones clave: El OCR tradicional (como Tesseract y PaddleOCR) es propenso a errores al trabajar con diseños complejos, texto multilingüe y transformaciones de tablas. Muchos modelos visuales (como LayoutLM y Donut) solo pueden realizar clasificación o extracción simple, y no generan coordenadas precisas ni tablas LaTeX completas. Nemotron Parse v1.1 combina un potente codificador visual ViT-H con un decodificador estilo mBart para predecir "contenido de texto + ubicación + categoría semántica" en un solo paso. Especialmente adecuado para escenarios a nivel empresarial: procesamiento automatizado de contratos, informes financieros, artículos académicos y presentaciones de PowerPoint. Descripción general de la arquitectura técnica: Codificador visual: C-RADIO (basado en ViT-H) • Capa de adaptación: convolución 1D + normalización • Decodificador de lenguaje: estructura mBart de 10 capas • Entrada: imagen RGB (resolución recomendada: 1024×1280 ~ 1648×2048) + indicaciones sencillas • Salida: cadena de texto plano (con recuadros delimitadores, categorías y contenido Markdown/LaTeX marcados especialmente) Rendimiento y limitaciones: Supera significativamente a las soluciones de código abierto existentes en pruebas comparativas públicas e internas para la extracción de tablas, el reconocimiento de fórmulas y la comprensión del diseño. • Limitaciones: Funciona mejor en GPU NVIDIA (arquitectura Hopper/Ampere/Turing), tiene un rango de requisitos de resolución de entrada y su rendimiento se degradará para documentos extremadamente borrosos o escritos a mano (pero aún así es mejor que la mayoría de los OCR). Dirección del modelo en línea:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Modelo de código abierto] NVIDIA Nemotron Parse v1.1: El último modelo de lenguaje visual (VLM) de NVIDIA, diseñado esp](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)