[オープンソースモデル] NVIDIA Nemotron Parse v1.1:ドキュメント解析に特化して設計された、NVIDIAの最新の視覚言語モデル(VLM)です。10億未満のパラメータを持つ高度に特化された「ドキュメント理解エージェント」でありながら、複雑にレイアウトされたドキュメント画像(PDF、PPTスクリーンショット、スキャンされたドキュメントなど)から構造化されたコンテンツを正確に抽出し、空間的な位置(バウンディングボックス)と意味カテゴリも抽出できます。 コアコンピテンシー 1. 読み順出力: 単にテキストをランダムな順序で出力する従来の OCR とは異なり、人間の読み順 (上から下、左から右) に従ってコンテンツを整理します。 2. 座標による構造化抽出: プレーンテキスト(見出し、段落、脚注などの意味分類をサポート) • 表(行と列の範囲を扱いながら、LaTeX または Markdown 形式に直接エクスポートできます) • 数式(LaTeX形式) • 画像、グラフ、ヘッダー、フッターなどの要素の境界ボックスとカテゴリ。 3. 機械可読性の高い出力形式: 座標付きの Markdown + LaTeX を直接生成し、後で大規模なモデルやデータベースに簡単に取り込むことができます。 主な革新: 従来の OCR (Tesseract や PaddleOCR など) は、複雑なレイアウト、多言語テキスト、表の変換を処理するときにエラーが発生しやすくなります。 多くのビジュアル モデル (LayoutLM や Donut など) は、分類または単純な抽出しか実行できず、正確な座標や完全な LaTeX テーブルを出力しません。 Nemotron Parse v1.1 は、強力な ViT-H ビジュアル エンコーダーと mBart スタイルのデコーダーを組み合わせて、「テキスト コンテンツ + 場所 + 意味カテゴリ」を 1 ステップで予測します。 特に、契約書、財務レポート、学術論文、PowerPoint プレゼンテーションの自動処理など、エンタープライズ レベルのシナリオに適しています。 技術アーキテクチャの概要: ビジュアルエンコーダ: C-RADIO (ViT-H ベース) • 適応層:1次元畳み込み + 正規化 • 言語デコーダー:10層mBart構造 • 入力:RGB画像(推奨解像度 1024×1280~1648×2048)+ シンプルなプロンプト • 出力:プレーンテキスト文字列(特別にマークされたバウンディングボックス、カテゴリ、Markdown/LaTeXコンテンツを含む) パフォーマンスと制限: 表の抽出、数式の認識、レイアウトの理解に関する公開ベンチマークと社内ベンチマークで、既存のオープンソース ソリューションを大幅に上回ります。 • 制限事項: NVIDIA GPU (Hopper/Ampere/Turing アーキテクチャ) で最も効率的に実行され、入力解像度の要件は幅広く、極端にぼやけた文書や手書きの文書ではパフォーマンスが低下します (ただし、ほとんどの OCR よりは優れています)。 オンラインモデルアドレス:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[オープンソースモデル] NVIDIA Nemotron Parse v1.1:ドキュメント解析に特化して設計された、NVIDIAの最新の視覚言語モデル(VLM)です。10億未満のパラメータを持つ高度に特化された「ドキュメント理解エージェン](https://pbs.twimg.com/media/G6PWFvDaMAAoSHU.jpg)