LandingAI は、企業のドキュメント処理における非常に一般的かつ困難な問題点、つまり混合ドキュメント パッケージの自動処理に対処するために、「インテリジェント ドキュメント分割および分類」を開始しました。 根本的な問題点:文書を「読む」だけでなく、「整理する」ことも重要です。実際の業務(医療、保険、金融など)では、企業が受け取るPDFファイルは単一のファイルではなく、むしろ「寄せ集め」であることがよくあります。例えば、1つのPDFファイルには以下のような内容が含まれていることがあります。 • 1~2ページ:雇用登録フォーム • 3~5ページ:臨床記録 • 6ページ:請求書または承認書 従来の方法の限界: ファイル全体に対して直接抽出機能を使用すると、AIは同じロジックですべてのページを理解しようとします。その結果、次のような結果になります。 • データ破損: 請求書ロジックを使用して医療記録を抽出すると、不正確な結果が生成されるだけでなく、使用できない結果も生成されます。 • リソースの無駄: 無関係なページを処理すると、不必要なコンピューティング リソースが消費されます。 • プロセスのブロック: データを抽出する前に、ファイルを手動で分割するか、追加の手順で分割する必要があります。 インテリジェントなドキュメント分割と分類(ADE Split)ソリューション ADE Splitはコンテンツを考慮した前処理レイヤーです。詳細なデータ抽出を実行する前に、大きなファイルを適切なグループに論理的に分割する役割を担います。 • スマート グループ化: ファイル全体を分析して、同じドキュメントに属するページをグループ化します。 • 非破壊的: 元の PDF ファイルを変更せず、分割方法をシステムに指示する構造化された JSON データを返します。 返される主な情報は次のとおりです。 • ドキュメントの種類の提案(例:「請求書」なのか「契約書」なのかを識別する)。 • ページ範囲 (例: ページ 1 ~ 3 は 1 つのグループ、ページ 4 は別のグループ)。 • 補助識別子(オプション):患者名や請求書 ID など、所有権の確認に役立ちます。 • マークダウンコンテンツ: 対応する段落のテキストコンテンツ。 • 分類されていないグループ: このグループは、一致しないページを保存するためのもので、厳密なプロセスを保証します。 技術的なハイライト:コンテンツ認識、ハードラベル不要:従来の分割ツールは、通常、QRコードや特定の区切りページに依存していました。ADE Splitは、ページコンテンツのコンテキストに基づいてクラスタリングできます。 • インテリジェントなクラスタリング: ページに明示的な ID がない場合でも、コンテンツ ロジックが一貫している限り、同じドキュメントに属していることを識別できます。 • 排他性: 各ページは 1 つのドキュメント グループにのみ割り当てられ、重複した割り当ては行われません。 適用状況と現状 • サポートされているモデル: LandingAI の最新の DPT-2 および DPT-2 Mini モデルをサポートします。 • 利用可能なチャンネル: Playground または API 経由で直接アクセスできます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
