最近、オープンソースの音声エージェントフレームワークであるTEN Framewgithub.com/TEN-framework/….co/TP0pNajYxu。これはいわば「リアルタイム音声/マルチモーダルエージェントのためのオペレーティングシステム」のようなものです。統合されたリアルタイムストリーミングフレームワーク内で、STT、LLM、TTS、VAD、アバターなどのモジュールがプラグイン可能な「ビルディングブロック」として構築され、必要に応じて組み合わせたり置き換えたりすることができます。鍵となるのは、AIリアルタイム対話に関連する低レイテンシ、マルチモーダル性、クロスプラットフォーム展開といったエンジニアリング上の問題をパッケージ化し、解決することです。 他に何も変更することなく、ローカルでデプロイして実行するのに10分しかかかりませんでした。実際に使ってみると、リアルタイム音声Q&Aは非常にスムーズで、中断も可能で、応答も速く、遅延も約1秒です。MemoryやRAGといった一般的な機能も既に統合されており、AIによる感情的な伴侶、AIによる音声言語練習、AIによる電話カスタマーサービス、スマート音声ハードウェアへの拡張が可能です。公式サンプルでテストしたところ、非常に良好な結果が出ました。真のリアルタイム音声エージェントに興味のある方は、このオープンソースフレームワークをチェックしてみてください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。