[Recommandation Open Source] TOON : Format de sérialisation open source conçu spécifiquement pour les systèmes LLM (Low-Level Memory) permettant la transmission de données structurées. Alternative compacte et déterministe à JSON, il réduit considérablement la consommation de jetons tout en préservant l’intégrité et la lisibilité des données. Objectifs du projet L'objectif principal de TOON (Token-Oriented Object Notation) est d'optimiser la transmission de données structurées dans les indications LLM. À mesure que les fenêtres de contexte des systèmes d'IA s'étendent et que leur fréquence d'utilisation augmente, le coût des jetons devient un facteur limitant. TOON transforme les données en un format plus efficace en supprimant les symboles redondants (tels que les parenthèses, les guillemets et les clés dupliquées) du JSON, ce qui le rend particulièrement adapté aux grands tableaux uniformes (comme les enregistrements d'utilisateurs ou les données de séries temporelles). Des tests comparatifs montrent qu'il peut réduire l'utilisation des jetons de 30 à 60 %, diminuant ainsi les coûts des appels d'API et améliorant la fiabilité de l'analyse des données LLM. Caractéristiques principales : Jetons efficaces : Utilise une structure indentée de type YAML et une représentation tabulaire de type CSV, ne nécessitant qu’une seule déclaration de clé, les données suivantes étant présentées au format ligne pour éviter les doublons. • Compatible avec les modèles LLM : les balises de longueur explicites intégrées et les déclarations de champs permettent aux modèles de valider et d’extraire les informations avec précision. Lors des tests de performance, TOON atteint une précision de récupération des données de 73,9 %, surpassant ainsi les 69,7 % de JSON. • Syntaxe minimale : supprime la ponctuation inutile, utilise les guillemets uniquement lorsque la chaîne contient des espaces ou des caractères spéciaux, et prend en charge Unicode et les émojis. • Options flexibles : Permet des séparateurs personnalisés (tels que des virgules, des tabulations ou des barres verticales), la taille de l'indentation et l'ajout d'un préfixe de longueur (tel que [#3] pour indiquer une longueur de tableau de 3). • Prise en charge des types : outre la gestion des types de base, il peut également convertir Date, BigInt, etc. en formes sérialisables ; il ne prend pas en charge les fonctions ni les valeurs indéfinies, qui sont converties en null. TOON n'est pas un format de stockage universel, mais plutôt un outil d'optimisation pour les données d'entrée LLM. Ses avantages sont moins marqués pour les données non uniformes ou fortement imbriquées que pour les données tabulaires simples. Le lien avec l'IA TOON est particulièrement adapté aux applications d'agents intelligents et de modélisation de modèles logiques (LLM), telles que l'interrogation ou l'analyse de grands volumes de données structurées. Sa conception tabulaire améliore la compréhension du modèle et la précision de la récupération des données tout en réduisant la surcharge liée aux jetons, ce qui rend les systèmes d'IA à grande échelle plus évolutifs. Adresse open source
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Recommandation Open Source] TOON : Format de sérialisation open source conçu spécifiquement pour les systèmes LLM (Low-](https://pbs.twimg.com/media/G5Mytcha0AA2XsX.jpg)