[开源模型] NVIDIA Nemotron Parse v1.1: NVIDIA 最新发布的专为文档解析设计的视觉-语言模型(VLM)。它是高度專業化的“文檔理解智能體”,參數量<1B,卻能在複雜佈局的文檔圖像(如PDF、PPT 截圖、掃描件)中精準提取結構化內容,並附帶空間位置(邊界框)和語義類別。 核心能力 1. 閱讀順序輸出:不像傳統OCR 只是亂序吐出文字,它會按照人類閱讀順序(從上到下、從左到右)組織內容。 2. 带坐标的结构化提取: · 纯文本(支持标题、段落、脚注等语义分类) · 表格(可直接输出LaTeX 或Markdown 格式,处理跨行跨列) · 数学公式(LaTeX 格式) · 图片、图表、页眉页脚等元素的边界框(bounding box)和类别 3. 輸出格式高度機器可讀:直接產生帶有座標的Markdown + LaTeX,方便後續餵給大模型或資料庫使用。 关键创新点· 传统OCR(如Tesseract、PaddleOCR)在复杂排版、多语言混排、表格变形时容易出错。 · 很多视觉模型(如LayoutLM、Donut)只能做分类或简单提取,不输出精确坐标或完整LaTeX 表格。 · Nemotron Parse v1.1 結合了強大的ViT-H 視覺編碼器+ mBart 式解碼器,直接一次性預測“文字內容+ 位置+ 語義類別”,一步到位。 · 特別適合企業級場景:合約、財報、學術論文、PPT 的自動化處理。 技术架构简述· 视觉编码器:C-RADIO(基于ViT-H) · 適配層:1D 卷積+ 歸一化· 語言解碼器:10 層mBart 結構· 輸入:RGB 影像(建議解析度1024×1280 ~ 1648×2048) + 簡單提示字· 輸出:純文字字串(內含特殊標記的邊界框、類別、Mark/LaLaXTe 內容) 性能与限制· 在表格提取、公式识别、布局理解等公开和内部基准上显著领先现有开源方案。 · 限制:必須在NVIDIA GPU 上跑得最好(Hopper/Ampere/Turing 架構),輸入解析度有範圍要求,對極度模糊或手寫文件效果會下降(仍優於多數OCR)。 線上模型位址:
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
![[开源模型] NVIDIA Nemotron Parse v1.1: NVIDIA 最新发布的专为文档解析设计的视觉-语言模型(VLM)。它是高度專業化的“文檔理解智能體”,參數量<1B,卻能在複雜佈局的文檔圖像(如PDF、PPT 截圖、掃](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)