X (Twitter)

[开源模型] NVIDIA Nemotron Parse v1.1: NVIDIA 最新发布的专为文档解析设计的视觉-语言模型（VLM）。它是高度專業化的“文檔理解智能體”，參數量<1B，卻能在複雜佈局的文檔圖像（如PDF、PPT 截圖、掃描件）中精準提取結構化內容，並附帶空間位置（邊界框）和語義類別。核心能力 1. 閱讀順序輸出：不像傳統OCR 只是亂序吐出文字，它會按照人類閱讀順序（從上到下、從左到右）組織內容。 2. 带坐标的结构化提取： · 纯文本（支持标题、段落、脚注等语义分类） · 表格（可直接输出LaTeX 或Markdown 格式，处理跨行跨列） · 数学公式（LaTeX 格式） · 图片、图表、页眉页脚等元素的边界框（bounding box）和类别 3. 輸出格式高度機器可讀：直接產生帶有座標的Markdown + LaTeX，方便後續餵給大模型或資料庫使用。关键创新点· 传统OCR（如Tesseract、PaddleOCR）在复杂排版、多语言混排、表格变形时容易出错。 · 很多视觉模型（如LayoutLM、Donut）只能做分类或简单提取，不输出精确坐标或完整LaTeX 表格。 · Nemotron Parse v1.1 結合了強大的ViT-H 視覺編碼器+ mBart 式解碼器，直接一次性預測“文字內容+ 位置+ 語義類別”，一步到位。 · 特別適合企業級場景：合約、財報、學術論文、PPT 的自動化處理。技术架构简述· 视觉编码器：C-RADIO（基于ViT-H） · 適配層：1D 卷積+ 歸一化· 語言解碼器：10 層mBart 結構· 輸入：RGB 影像（建議解析度1024×1280 ~ 1648×2048） + 簡單提示字· 輸出：純文字字串（內含特殊標記的邊界框、類別、Mark/LaLaXTe 內容）性能与限制· 在表格提取、公式识别、布局理解等公开和内部基准上显著领先现有开源方案。 · 限制：必須在NVIDIA GPU 上跑得最好（Hopper/Ampere/Turing 架構），輸入解析度有範圍要求，對極度模糊或手寫文件效果會下降（仍優於多數OCR）。線上模型位址：

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文