LandingAI는 기업 문서 처리에서 매우 흔하고 어려운 문제점인 혼합 문서 패키지의 자동 처리를 해결하기 위해 "지능형 문서 분할 및 분류" 기능을 출시했습니다. 핵심 문제점: 단순히 문서를 "읽는" 것뿐만 아니라 "정리하는" 것도 중요합니다. 실제 비즈니스 운영(예: 의료, 보험, 금융)에서 기업이 받는 PDF 파일은 단일 유형의 파일이 아니라 여러 유형이 뒤섞인 경우가 많습니다. 예를 들어, 하나의 PDF 파일에는 다음과 같은 내용이 포함될 수 있습니다. • 1-2페이지: 고용 등록 양식 • 3-5페이지: 진료 기록 • 6페이지: 청구서 또는 승인서 기존 방법의 한계: 파일 전체에 직접 추출 기능을 사용하면 AI는 동일한 논리를 사용하여 모든 페이지를 이해하려고 시도합니다. 이로 인해 다음과 같은 문제가 발생할 수 있습니다. • 데이터 손상: 청구서 논리를 사용하여 의료 기록을 추출하면 잘못된 결과가 나올 뿐만 아니라 사용할 수 없는 결과가 나옵니다. • 자원 낭비: 관련 없는 페이지를 처리하는 것은 불필요한 컴퓨팅 자원을 소모합니다. • 프로세스 병목 현상: 데이터를 추출하기 전에 파일을 수동으로 또는 추가 단계를 거쳐 분할해야 합니다. 지능형 문서 분할 및 분류(ADE Split) 솔루션 ADE Split은 콘텐츠 인식 전처리 계층입니다. 상세한 데이터 추출을 수행하기 전에 대용량 파일을 논리적으로 적절한 그룹으로 분할하는 역할을 담당합니다. • 스마트 그룹화: 파일 전체를 분석하여 동일한 문서에 속하는 페이지들을 그룹으로 묶습니다. • 비파괴 방식: 원본 PDF 파일을 수정하지 않고, 시스템에 분할 방법을 알려주는 구조화된 JSON 데이터를 반환합니다. 이 프로그램이 반환하는 주요 정보는 다음과 같습니다. • 문서 유형 제안 (예: "송장"인지 "계약서"인지 명시). • 페이지 범위 (예: 1~3페이지는 한 그룹, 4페이지는 다른 그룹). • 보조 식별자(선택 사항): 소유권 확인을 돕기 위한 환자 이름 또는 송장 ID 등의 정보. • 마크다운 콘텐츠: 해당 단락의 텍스트 내용입니다. • 미분류 그룹: 이 그룹은 일치하는 항목을 찾을 수 없는 페이지를 저장하기 위한 전용 그룹으로, 엄격한 프로세스를 보장합니다. 기술적 특징: 콘텐츠 인식, 별도의 라벨 불필요: 기존의 페이지 분할 도구는 일반적으로 QR 코드나 특정 구분 페이지에 의존합니다. ADE Split은 페이지 콘텐츠의 맥락을 기반으로 페이지를 그룹화할 수 있습니다. • 지능형 클러스터링: 페이지에 명시적인 ID가 없더라도 콘텐츠 논리가 일관성이 있다면 동일한 문서에 속하는지 식별할 수 있습니다. • 배타성: 각 페이지는 하나의 문서 그룹에만 할당되며, 중복 할당은 없습니다. 적용 상황 및 현황 • 지원 모델: LandingAI의 최신 DPT-2 및 DPT-2 Mini 모델을 지원합니다. • 이용 가능한 채널: 플레이그라운드 또는 API를 통해 직접 액세스할 수 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
