PDF ドキュメントを処理する際に、タイトル、表、画像などのさまざまな要素の位置と種類を正確に識別したい場合、市販のツールは不正確であったり、複雑すぎて使用できなかったりします。 私は最近、PDF Document Layout Analysis というオープンソース プロジェクトを GitHub で発見しました。このプロジェクトは、複雑なドキュメント レイアウト分析の問題を解決するために特別に設計されています。 見出し、本文、表、数式、画像など 11 種類以上の文書要素を認識し、正しい読み取り順序を自動的に決定できます。 GitHub: https://t.co/pGJOW5ehyg また、PDF から Markdown および HTML への変換もサポートしており、Tesseract を統合して 150 を超える言語の OCR 認識を実現します。 また、自動翻訳機能も提供しており、元の形式と構造を維持しながら、ドキュメントを複数の言語バージョンに直接変換できます。 視覚的な Web UI インターフェイスを提供し、REST API も開き、Docker 経由でローカル マシンへのワンクリック展開をサポートします。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。

