A LandingAI lançou o "Intelligent Document Splitting and Classification" para solucionar um problema muito comum e desafiador no processamento de documentos empresariais: o processamento automatizado de pacotes de documentos mistos. Principal problema: Não se trata apenas de "ler" documentos, mas também de "organizá-los". Em operações comerciais reais (como saúde, seguros e finanças), os PDFs recebidos pelas empresas geralmente não são arquivos de um único tipo, mas sim uma "mistura heterogênea". Por exemplo, um único arquivo PDF pode conter: • Páginas 1-2: Formulário de Registro de Emprego • Páginas 3-5: Anotações Clínicas • Página 6: Fatura ou Carta de Autorização Limitações dos métodos tradicionais: Se você usar a função de extração diretamente no arquivo inteiro, a IA tentará entender todas as páginas usando a mesma lógica. Isso levará a: • Corrupção de dados: usar a lógica de faturamento para extrair registros médicos não apenas produz resultados incorretos, mas também inutilizáveis. • Desperdício de recursos: O processamento de páginas irrelevantes consome recursos computacionais desnecessários. • Bloqueio do processo: Antes que os dados possam ser extraídos, o arquivo precisa ser dividido manualmente ou por meio de etapas adicionais. Solução de Divisão e Classificação Inteligente de Documentos (ADE Split) O ADE Split é uma camada de pré-processamento sensível ao conteúdo. Antes de realizar a extração detalhada de dados, ele é responsável por dividir logicamente arquivos grandes em grupos apropriados. • Agrupamento inteligente: Analisa todo o arquivo e agrupa as páginas pertencentes ao mesmo documento. • Não destrutivo: Não modifica o arquivo PDF original, mas retorna dados JSON estruturados que informam ao sistema como dividi-lo. As principais informações que ele retorna incluem: • Sugestões de tipo de documento (por exemplo, identificar se é uma "fatura" ou um "contrato"). • Intervalo de páginas (por exemplo, as páginas 1 a 3 formam um grupo, a página 4 forma outro grupo). • Identificadores auxiliares (opcionais): como o nome do paciente ou o número da fatura, para ajudar a confirmar a titularidade. • Conteúdo em Markdown: O conteúdo textual do parágrafo correspondente. • Grupo não categorizado: Este grupo destina-se especificamente ao armazenamento de páginas que não podem ser correspondidas, garantindo um processo rigoroso. Destaques técnicos: Reconhecimento de conteúdo, sem necessidade de rótulos rígidos: As ferramentas tradicionais de divisão geralmente dependem de códigos QR ou páginas separadoras específicas. O ADE Split pode agrupar com base no contexto do conteúdo da página. • Agrupamento inteligente: Mesmo que não haja um ID explícito na página, desde que a lógica do conteúdo seja coerente, o sistema consegue identificar que os itens pertencem ao mesmo documento. • Exclusividade: Cada página será atribuída a apenas um grupo de documentos, e não haverá atribuições duplicadas. Situação aplicável e estado atual • Modelos suportados: Suporta os modelos mais recentes da LandingAI, DPT-2 e DPT-2 Mini. • Canais disponíveis: Podem ser acessados diretamente via Playground ou API.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
