X (Twitter)

[オープンソース推奨] DeepOCR: VILAフレームワークをベースにDeepSeek-OCRモデルを再現しています。その革新的な点は、視覚的圧縮技術による効率的なテキスト処理の実現にあります。主な問題と解決策: 問題点: 大規模な言語モデルで長いテキストを処理する場合、計算の複雑さはシーケンスの長さの 2 乗で増加し、効率が低下します。 • 革新的なアプローチ：テキストを画像に変換し、ビジュアルエンコーダーを用いて圧縮することで、7～20倍の圧縮率を実現します。これは、「テキストを読む」ことを「画像を見る」ことに置き換え、より少ない情報量で同じ内容を伝えることに相当します。技術アーキテクチャプロジェクトでは、合計約 3 億 8,000 万のパラメータを持つ 3 層設計を採用しています。 1. DeepEncoder（ビジュアルエンコーディングコア） • SAMエンコーダー（80Mパラメータ）：ウィンドウアテンション機構を用いて1024×1024の高解像度画像を処理し、4096個の特徴ラベルを出力します。 • 16倍畳み込み圧縮器：2つの畳み込み層を通してラベル数を4096から256に圧縮し、計算コストを大幅に削減します。 • CLIPエンコーダー（300Mパラメータ）：圧縮された特徴量に対してグローバルな意味理解を実行します。巧妙な設計は、SAM のウィンドウアテンションを使用してメモリオーバーヘッドを制御し、次に CLIP のグローバルアテンションを使用して圧縮後にセマンティクスを抽出することで、高解像度画像を直接処理することによって発生するメモリ爆発を回避することにあります。 2. マルチモーダルプロジェクター: 2048 次元の視覚的特徴を言語モデル空間にマッピングします。改行と区切り文字を使用して、モデルがドキュメントの空間構造を理解できるようにします。 3. 言語デコーダーは Qwen2-7B モデル (オリジナルバージョンでは DeepSeek-3B-MoE を使用) を使用し、最終的なテキスト生成を担当します。トレーニング方法では、2 段階のトレーニング戦略を採用しています。フェーズ1：視覚言語アライメント（1ラウンド） • データ：一般的な画像とテキストのペア595,000件 • トレーニング目標：プロジェクターのみをトレーニングし、視覚と言語の基本的なマッピングを学習させるフェーズ2: OCR固有の事前トレーニング（1ラウンド） • データ：26万件のPDF文書と画像 • トレーニング目標：プロジェクターと言語モデルの微調整、ビジュアルエンコーダのフリーズパフォーマンス 1. 得意分野: • 英語テキスト認識：編集距離0.093、優れたパフォーマンス。 • シンプルなドキュメント処理：精度は99.5%に達します。 • 表構造分析：スコア70.3、優れた空間理解能力 • タグ付け効率：約250個の視覚タグのみを使用し、従来の方法と比較して15分の1の省スペース化を実現 2. 改善すべき点: • 複雑なレイアウトの文書（例：複数段組の学術論文）：51.2点 • 数式認識：性能が低い、トレーニングデータに数学的な内容が不十分 • 中国語文書：英語文書との差実用的な価値のあるプロジェクトは研究者に次のものを提供します。 • 完全なオープンソース実装：トレーニングスクリプト、評価ツール、事前トレーニング済みチェックポイントを含む。 • アーキテクチャ検証：OCRタスクにおける画像圧縮技術の実現可能性を実証。 • すぐに使えるツール：テキスト抽出、Markdown変換、チャート解析など、様々なアプリケーションシナリオをサポート。制限と将来の方向性: 現在の制限は主にトレーニングリソースとデータに起因します。 • トレーニングエポックは1つだけで、完全に収束していません。• トレーニングデータ（26万サンプル）は、トップクラスのモデル（100万以上）よりも少ないです。• 数学的なコンテンツと過去のスキャンドキュメントが不足しています。• 改善の方向性としては、データ拡張、強化学習の導入、プロンプトワードエンジニアリングの最適化などが挙げられ、理論的にはパフォーマンスを17パーセントポイント向上させる可能性があります。プロジェクトアドレス

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容