[Modèle open source] NVIDIA Nemotron Parse v1.1 : le dernier modèle de langage visuel (VLM) de NVIDIA, conçu spécifiquement pour l’analyse de documents. Cet « agent de compréhension de documents » hautement spécialisé, doté de moins d’un milliard de paramètres, est capable d’extraire avec précision le contenu structuré d’images de documents à la mise en page complexe (telles que des PDF, des captures d’écran PPT et des documents numérisés), ainsi que la localisation spatiale (cadres de délimitation) et les catégories sémantiques. Compétences fondamentales 1. Sortie dans l'ordre de lecture : Contrairement à la reconnaissance optique de caractères (OCR) traditionnelle qui produit simplement le texte dans un ordre aléatoire, elle organise le contenu selon l'ordre de lecture humain (de haut en bas, de gauche à droite). 2. Extraction structurée avec coordonnées : Texte brut (prend en charge la classification sémantique telle que les titres, les paragraphes et les notes de bas de page) • Tableaux (pouvant être exportés directement au format LaTeX ou Markdown, avec gestion des chevauchements de lignes et de colonnes) • Formules mathématiques (format LaTeX) • Cadres de délimitation et catégories pour les éléments tels que les images, les graphiques, les en-têtes et les pieds de page. 3. Format de sortie hautement lisible par machine : génère directement du Markdown + LaTeX avec les coordonnées, ce qui facilite son intégration ultérieure dans de grands modèles ou bases de données. Innovations clés : La reconnaissance optique de caractères (OCR) traditionnelle (telle que Tesseract et PaddleOCR) est sujette à des erreurs lorsqu’elle traite des mises en page complexes, des textes multilingues et des transformations de tableaux. De nombreux modèles visuels (tels que LayoutLM et Donut) ne peuvent effectuer que la classification ou une extraction simple, et ne produisent pas de coordonnées précises ni de tableaux LaTeX complets. Nemotron Parse v1.1 combine un puissant encodeur visuel ViT-H avec un décodeur de type mBart pour prédire « contenu textuel + emplacement + catégorie sémantique » en une seule étape. Particulièrement adapté aux scénarios d'entreprise : traitement automatisé des contrats, des rapports financiers, des articles universitaires et des présentations PowerPoint. Aperçu de l'architecture technique : Encodeur visuel : C-RADIO (basé sur ViT-H) • Couche d'adaptation : convolution 1D + normalisation • Décodeur de langage : structure mBart à 10 couches • Entrée : image RVB (résolution recommandée : 1024×1280 à 1648×2048) + invites simples • Sortie : chaîne de texte brut (contenant des cadres de délimitation spécifiques, des catégories et du contenu Markdown/LaTeX) Performances et limitations : Surpasse nettement les solutions open source existantes dans les benchmarks publics et internes pour l’extraction de tableaux, la reconnaissance de formules et la compréhension de la mise en page. • Limitations : Il fonctionne de manière optimale sur les GPU NVIDIA (architecture Hopper/Ampere/Turing), a des exigences de résolution d'entrée variables et ses performances se dégradent pour les documents extrêmement flous ou manuscrits (mais restent meilleures que la plupart des logiciels de reconnaissance optique de caractères). Adresse du modèle en ligne :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Modèle open source] NVIDIA Nemotron Parse v1.1 : le dernier modèle de langage visuel (VLM) de NVIDIA, conçu spécifiquem](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)