[オープンソース推奨] Smart Turn v3.1:音声対話における「ターン検出」機能の大幅なアップデート。合成音声のみに頼るのではなく、実際の人間の音声データを導入することで、ユーザーが話し終えたかどうかを判断するモデルの精度が大幅に向上し、AIによる対話応答がより自然になります。@trydaily 🚀 主なハイライト: 精度が大幅に向上 · 純粋な合成データに別れを告げる: v3.1 の最大の進歩は、パートナー (Liva AI、Midcentury、MundoAI) が提供する実際の人間の音声サンプル (特に英語とスペイン語) を導入したことです。 • データ比較: v3.0 と比較すると、英語環境での新バージョンの精度は 88.3% から約 95% に急上昇し、スペイン語でも 90% 以上に向上しました。 重要な問題点への対応:以前のトレーニングでは合成TTSデータに依存していましたが、人間の話し言葉の自然な間や微妙なニュアンスが欠けていました。新しいデータにより、モデルは「真の間」と「偽の間」をより正確に区別できるようになりました。 🛠️ 技術的な詳細と柔軟性 このアップデートでは、さまざまなハードウェア要件に対応するために 2 つのモデル バージョンが提供されます。 • CPU バージョン (8MB、Int8 量子化): サイズが小さく、速度が速く、ほとんどのエッジ コンピューティングまたは一般的なサーバーに適しており、推論速度が非常に高速です (最低 12 ミリ秒)。 • GPU バージョン (32 MB、非量子化): サイズは少し大きくなりますが、GPU 上でより効率的に実行され、CPU バージョンよりも約 1% 高い精度が得られます。 🔄 簡素化されたアップグレードエクスペリエンスとシームレスな置き換え:v3.1はv3.0と同じアーキテクチャを維持しています。既にご利用の場合は、ONNXモデルファイルを置き換えるだけで済みます。推論コードの変更は不要です。 • エコシステム統合: 新しいモデルは Pipecat フレームワークの次のバージョンに直接統合され、開発者はほぼ「ゼロコード」でパフォーマンスの向上を享受できるようになります。 📊 オープンソースは、モデルの重みをオープンソース化しただけでなく、HuggingFace でのトレーニングとテスト用の新しいデータセット (smart-turn-data-v3.1) もリリースし、コミュニティがさらなる研究や微調整を実施しやすくしました。 原文を読む
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
![[オープンソース推奨] Smart Turn v3.1:音声対話における「ターン検出」機能の大幅なアップデート。合成音声のみに頼るのではなく、実際の人間の音声データを導入することで、ユーザーが話し終えたかどうかを判断するモデルの精度が大幅に](https://pbs.twimg.com/media/G7SQwL6b0AECp4J.jpg)