處理PDF 文件時,想要精準辨識標題、表格、圖片這些不同元素的位置和類型,市面上的工具要嘛辨識不準,要嘛太複雜難用。 最近在GitHub 上發現PDF Document Layout Analysis 這個開源項目,專門用來解決複雜的文件佈局分析問題。 可辨識超過11 種文件元素類型,包括標題、內文、表格、公式、圖片等,並能自動判斷正確的閱讀順序。 GitHub:https://t.co/pGJOW5ehyg 同時支援PDF 轉Markdown、HTML,並整合Tesseract 實現了150 多種語言的OCR 識別。 另外也提供自動翻譯功能,可以將文件直接轉換成多種語言版本,同時保留原有格式和結構。 提供了可視化的Web UI 介面使用,同時也開放了REST API,支援透過Docker 一鍵部署到本機。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。

