X (Twitter)

LandingAI a lancé « Intelligent Document Splitting and Classification » pour répondre à un problème très courant et complexe du traitement des documents d'entreprise : le traitement automatisé des ensembles de documents mixtes. Problème majeur : il ne s’agit pas seulement de « lire » des documents, mais aussi de les « organiser ». Dans les opérations commerciales réelles (comme la santé, l’assurance et la finance), les PDF reçus par les entreprises ne sont souvent pas des fichiers homogènes, mais plutôt un ensemble hétéroclite. Par exemple, un seul fichier PDF peut contenir : • Pages 1-2 : Formulaire d’inscription à l’emploi • Pages 3-5 : Notes cliniques • Page 6 : Facture ou lettre d’autorisation Limites des méthodes traditionnelles : Si vous utilisez la fonction d'extraction directement sur l'ensemble du fichier, l'IA tentera de comprendre toutes les pages en utilisant la même logique. Cela aura pour conséquence : • Corruption des données : L’utilisation de la logique de facturation pour extraire les dossiers médicaux donne non seulement des résultats incorrects, mais aussi inutilisables. • Gaspillage de ressources : Le traitement de pages non pertinentes consomme inutilement des ressources informatiques. • Blocage du processus : avant que les données puissent être extraites, le fichier doit être divisé manuellement ou par des étapes supplémentaires. Solution de segmentation et de classification intelligente des documents (ADE Split) ADE Split est une couche de prétraitement qui prend en compte le contenu. Avant d'effectuer une extraction de données détaillée, elle est chargée de diviser logiquement les fichiers volumineux en groupes appropriés. • Regroupement intelligent : il analyse l’intégralité du fichier et regroupe les pages appartenant au même document. • Non destructif : il ne modifie pas le fichier PDF original, mais renvoie des données JSON structurées qui indiquent au système comment le diviser. Les principales informations qu'il renvoie comprennent : • Suggestions de type de document (par exemple, identifier s'il s'agit d'une « facture » ou d'un « contrat »). • Plage de pages (par exemple, les pages 1 à 3 forment un groupe, la page 4 en est un autre). • Identifiants auxiliaires (facultatifs) : tels que le nom du patient ou l’identifiant de la facture, pour aider à confirmer la propriété. • Contenu Markdown : Le contenu textuel du paragraphe correspondant. • Groupe non catégorisé : ce groupe est spécifiquement destiné au stockage des pages qui ne peuvent être appariées, garantissant ainsi un processus rigoureux. Points forts techniques : Regroupement basé sur le contenu, sans étiquettes physiques : Les outils de segmentation traditionnels utilisent généralement des codes QR ou des pages de séparation spécifiques. ADE Split peut effectuer le regroupement en fonction du contexte du contenu de la page. • Regroupement intelligent : même en l’absence d’identifiant explicite sur la page, dès lors que la logique du contenu est cohérente, il est possible d’identifier que les éléments appartiennent au même document. • Exclusivité : Chaque page sera attribuée à un seul groupe de documents, et il n'y aura pas d'attributions en double. Situation applicable et état actuel • Modèles pris en charge : Prend en charge les derniers modèles DPT-2 et DPT-2 Mini de LandingAI. • Chaînes disponibles : Accessibles directement via Playground ou l'API.

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil