X (Twitter)

[オープンソース推奨事項] TENフレームワーク：産業グレードのオープンソースリアルタイムマルチモーダルAIエージェント構築フレームワーク LangChainがLLMテキストロジックのオーケストレーションを解決するために設計されたとすれば、@TenFrameworkは「リアルタイムのオーディオ/ビデオストリーム + AI」の複雑なオーケストレーションを解決するために設計されています。これは、「シンプルなチャットボット」と「人間のように聞き、見て、話すことができるリアルタイムアシスタント」との間の大きな技術的ギャップを埋めるものです。 TENはどのような問題を解決しますか？TEN以前は、「聞く（ASR）、考える（LLM）、話す（TTS）」、さらには「見る（Vision）」機能を備えたリアルタイム音声アシスタントを開発するには、開発者は非常に困難で断片的な統合作業に耐えなければなりませんでした。 • 「グルーコード」地獄: Deepgram (聞く)、OpenAI (考える)、ElevenLabs (話す) をグルー (接着) し、WebSocket の切断、オーディオ形式の変換、バッファリングを処理する独自のコードを記述する必要があります。 • 制御できない遅延: 各段階での累積的な遅延により、会話が簡単に途切れ、リアルタイムで中断したり応答したりできなくなります。 • 多言語統合の課題: 低レベルのオーディオおよびビデオ処理では C++ の高パフォーマンスが求められることが多く、AI ロジックは Python エコシステムに依存しているため、言語間のデバッグが非常に困難になります。 TEN Framework のソリューション: 標準化された「バス」を提供することで、レゴブロックで構築するようにさまざまな AI モデルや機能モジュールを拡張およびプラグインでき、フレームワークによって基礎となるデータフローと同時実行が自動的に処理されます。技術アーキテクチャの詳細な分析 TEN の設計哲学はモジュール性とグラフ駆動型です。 1. TEN Graph（ビジュアルオーケストレーション） • TENのキラー機能。ドラッグ＆ドロップでデータフローを定義できるビジュアルエディタ（TEN Designer）を提供します。例：マイク音声 -> ノイズ低減モジュール -> ASRモジュール -> LLMモジュール -> TTSモジュール -> スピーカー。インターフェース上で「OpenAI」を「Gemini」に直接置き換えたり、「リアルタイム翻訳」ノードを挿入したりすることで、基盤となるコードを書き換える必要はありません。 2. 多言語ランタイム（ポリグロットランタイム）: 異なる言語で書かれた拡張機能を同じアプリケーション内で連携させることができます。 • C++: 高性能オーディオおよびビデオのエンコードとデコード、および RTC 送信 (Agora SD-RTN など) に使用されます。 • Python: LLM ロジック、ツール呼び出し、その他の AI 関連タスクの処理に使用されます。 • Go: 高同時実行ネットワークサービスに使用されます。 3. エッジクラウド統合: 複雑な推論をクラウドに配置しながら、エッジデバイス (または ESP32 などのマイクロコントローラ) 上でいくつかの軽量モデル (ウェイクワード検出や VAD など) を実行することをサポートし、コストとレイテンシの点で最適なソリューションを実現します。オープンソースプロジェクト

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容