[開源推薦] TOON: 開源序列化格式,專為LLM 設計,用於傳遞結構化資料。它本質上是一種緊湊、確定性的JSON 替代表示形式,能夠顯著減少token 消耗,同時保持資料的完整性和可讀性。 項目目的 TOON (Token-Oriented Object Notation) 的核心目標是最佳化LLM 提示中的結構化資料傳輸。隨著AI 系統上下文視窗的擴展和使用頻率的增加,token 成本成為關鍵瓶頸。 TOON 透過移除JSON 中的冗餘符號(如括號、引號和重複鍵名),將資料轉換為更有效率的格式,特別適用於大型統一數組(如使用者記錄或時間序列資料)。基準測試顯示,它可將token 使用量減少30-60%,從而降低API 呼叫成本並提升LLM 的資料解析可靠性。 關鍵特徵· token 高效:採用類似YAML 的縮排結構和CSV 的表格式陣列表示,僅需聲明一次鍵名,後續資料以行形式呈現,避免重複。 · LLM 友善:內建顯式長度標記和欄位聲明,幫助模型準確驗證和擷取資訊。基準中,TOON 在資料擷取準確率上達73.9%,優於JSON 的69.7%。 · 最小化語法:去除不必要的標點,僅在字串包含空格或特殊字元時使用引號,支援Unicode 和表情符號。 · 靈活選項:允許自訂分隔符號(如逗號、製表符或垂直線)、縮排大小,以及是否要加上長度前綴(如[#3] 表示陣列長度3)。 · 類型支援:處理基本型別外,也可轉換Date、BigInt 等為可序列化的形式;不支援函數或undefined,轉為null。 TOON 並非通用儲存格式,而是針對LLM 輸入的最佳化工具。對於非統一或深度嵌套的數據,其優勢不如簡單表格數據明顯。 和AI 的關聯 TOON 特別適合智慧體和LLM 應用場景,例如處理大量結構化資料的查詢或分析任務。其表格化設計提升了模型的理解和檢索精度,同時減少token 開銷,使大規模AI 系統更具可擴展性。 開源位址
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
![[開源推薦] TOON: 開源序列化格式,專為LLM 設計,用於傳遞結構化資料。它本質上是一種緊湊、確定性的JSON 替代表示形式,能夠顯著減少token 消耗,同時保持資料的完整性和可讀性。
項目目的
TOON (Token-Orien](https://pbs.twimg.com/media/G5Mytcha0AA2XsX.jpg)