X (Twitter)

LandingAI 推出「智慧型文件分割與分類」，目的是解決企業文件處理中一個非常普遍且棘手的痛點：混合文件包的自動化處理。核心痛點：不僅是「讀」文檔，更是「理」文檔在實際業務中（如醫療、保險、財務），企業接收到的PDF 往往不是單一類型的文件，而是一個「大雜燴」。例如，一個PDF 文件可能同時包含： · 第1-2 頁：入職登記表· 第3-5 頁：臨床筆記· 第6 頁：發票或授權書傳統方法的限制：如果直接對整個文件使用提取功能，AI 會試圖用同一套邏輯去理解所有頁面。這會導致： · 資料錯亂：用發票的邏輯去提取病歷，結果不僅錯誤且不可用。 · 資源浪費：對無關頁面進行處理，消耗不必要的運算資源。 · 流程阻塞：在擷取資料前，必須有人工或額外步驟先將文件拆開。智慧型文檔拆分與分類(ADE Split) 解決方案 ADE Split 是一個「內容感知」的預處理層。在進行詳細的資料擷取之前，它先負責把大檔案邏輯分割成正確的小組。 · 智慧分組：它分析整個文件，將屬於同一份文檔的頁面歸類在一起。 · 非破壞性：它不會修改原始PDF 文件，而是傳回一份結構化的JSON 資料告訴系統該如何切分。它傳回的關鍵訊息包括： · 文件類型建議（例如：識別出這是「發票」還是「合約」）。 · 頁面範圍（例如：第1-3 頁是一組，第4 頁是另一組）。 · 輔助識別（可選）：如病人姓名或發票ID，幫助確認歸屬。 · Markdown 內容：對應分段的文字內容。 · 未分類組：專門存放無法配對的頁面，確保流程嚴謹。技術亮點：內容感知· 無需硬性標識：傳統的拆分工具通常依賴二維碼或特定的分隔頁。 ADE Split 能夠基於頁面內容的上下文進行聚類。 · 智慧聚類：即使頁面上沒有明確的ID，只要內容邏輯連貫，它也能辨識出它們屬於同一份文件。 · 排他性：每一頁只會被指派給一個文件組，不會出現重複歸屬。適用情況與現況· 支援模型：支援LandingAI 最新的DPT-2 和DPT-2 Mini 模型。 · 可用管道：可以透過Playground 或API 直接呼叫。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容