X (Twitter)

處理PDF 文件時，想要精準辨識標題、表格、圖片這些不同元素的位置和類型，市面上的工具要嘛辨識不準，要嘛太複雜難用。最近在GitHub 上發現PDF Document Layout Analysis 這個開源項目，專門用來解決複雜的文件佈局分析問題。可辨識超過11 種文件元素類型，包括標題、內文、表格、公式、圖片等，並能自動判斷正確的閱讀順序。 GitHub：https://t.co/pGJOW5ehyg 同時支援PDF 轉Markdown、HTML，並整合Tesseract 實現了150 多種語言的OCR 識別。另外也提供自動翻譯功能，可以將文件直接轉換成多種語言版本，同時保留原有格式和結構。提供了可視化的Web UI 介面使用，同時也開放了REST API，支援透過Docker 一鍵部署到本機。

來自 GitHubDaily（@GitHub_Daily）的推文串

作者資訊

推文串內容