[オープンソース推奨] TOON: LLM(Low-Level Memory)システム向けに構造化データを配信するために特別に設計されたオープンソースのシリアル化形式です。JSONに代わるコンパクトで決定論的な代替手段であり、データの整合性と可読性を維持しながらトークンの消費量を大幅に削減します。 プロジェクトの目的 TOON(トークン指向オブジェクト表記法)の核心は、LLMヒントにおける構造化データ伝送の最適化です。AIシステムのコンテキストウィンドウが拡大し、使用頻度が高まるにつれて、トークンコストが重大なボトルネックとなります。TOONは、JSONから冗長な記号(括弧、引用符、重複キーなど)を削除することで、データをより効率的な形式に変換します。これにより、ユーザーレコードや時系列データなどの大規模で均一な配列に特に適しています。ベンチマークテストでは、トークン使用量を30~60%削減できることが示されており、API呼び出しコストの削減とLLMデータ解析の信頼性向上につながります。 主な機能: 効率的なトークン: YAML のようなインデント構造と CSV スタイルの表形式の配列表現を採用しており、キー名の宣言が 1 つだけ必要で、後続のデータは行形式で表示されるため、重複を回避できます。 • LLM対応:明示的な長さタグとフィールド宣言が組み込まれているため、モデルは情報を正確に検証・抽出できます。ベンチマークでは、TOONは73.9%のデータ取得精度を達成し、JSONの69.7%を上回りました。 • 最小限の構文: 不要な句読点を削除し、文字列にスペースまたは特殊文字が含まれている場合にのみ引用符を使用し、Unicode と絵文字をサポートします。 • 柔軟なオプション: カスタム区切り文字 (カンマ、タブ、縦棒など)、インデントのサイズ、長さのプレフィックス (配列の長さが 3 であることを示す [#3] など) を追加するかどうかを指定できます。 • 型のサポート: 基本型の処理に加えて、Date、BigInt などをシリアル化可能な形式に変換することもできます。関数や undefined はサポートされておらず、これらは null に変換されます。 TOONは汎用的なストレージ形式ではなく、LLM入力のための最適化ツールです。その利点は、単純な表形式データの場合ほど顕著ではありません。 AIとのつながり TOONは、大量の構造化データのクエリや分析といったインテリジェントエージェントやLLMアプリケーションに特に適しています。表形式の設計により、モデルの理解と検索精度が向上するとともに、トークンのオーバーヘッドが削減され、大規模AIシステムのスケーラビリティが向上します。 オープンソースアドレス
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[オープンソース推奨] TOON: LLM(Low-Level Memory)システム向けに構造化データを配信するために特別に設計されたオープンソースのシリアル化形式です。JSONに代わるコンパクトで決定論的な代替手段であり、データの整合性](https://pbs.twimg.com/media/G5Mytcha0AA2XsX.jpg)