LandingAI 推出「智慧型文件分割與分類」,目的是解決企業文件處理中一個非常普遍且棘手的痛點:混合文件包的自動化處理。 核心痛點:不僅是「讀」文檔,更是「理」文檔在實際業務中(如醫療、保險、財務),企業接收到的PDF 往往不是單一類型的文件,而是一個「大雜燴」。例如,一個PDF 文件可能同時包含: · 第1-2 頁:入職登記表· 第3-5 頁:臨床筆記· 第6 頁:發票或授權書 傳統方法的限制: 如果直接對整個文件使用提取功能,AI 會試圖用同一套邏輯去理解所有頁面。這會導致: · 資料錯亂:用發票的邏輯去提取病歷,結果不僅錯誤且不可用。 · 資源浪費:對無關頁面進行處理,消耗不必要的運算資源。 · 流程阻塞:在擷取資料前,必須有人工或額外步驟先將文件拆開。 智慧型文檔拆分與分類(ADE Split) 解決方案 ADE Split 是一個「內容感知」的預處理層。在進行詳細的資料擷取之前,它先負責把大檔案邏輯分割成正確的小組。 · 智慧分組:它分析整個文件,將屬於同一份文檔的頁面歸類在一起。 · 非破壞性:它不會修改原始PDF 文件,而是傳回一份結構化的JSON 資料告訴系統該如何切分。 它傳回的關鍵訊息包括: · 文件類型建議(例如:識別出這是「發票」還是「合約」)。 · 頁面範圍(例如:第1-3 頁是一組,第4 頁是另一組)。 · 輔助識別(可選):如病人姓名或發票ID,幫助確認歸屬。 · Markdown 內容:對應分段的文字內容。 · 未分類組:專門存放無法配對的頁面,確保流程嚴謹。 技術亮點:內容感知· 無需硬性標識:傳統的拆分工具通常依賴二維碼或特定的分隔頁。 ADE Split 能夠基於頁面內容的上下文進行聚類。 · 智慧聚類:即使頁面上沒有明確的ID,只要內容邏輯連貫,它也能辨識出它們屬於同一份文件。 · 排他性:每一頁只會被指派給一個文件組,不會出現重複歸屬。 適用情況與現況· 支援模型:支援LandingAI 最新的DPT-2 和DPT-2 Mini 模型。 · 可用管道:可以透過Playground 或API 直接呼叫。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
