今年の AI 音声に関する興味深い進展の 1 つは、より人間らしく聞こえるようにモデルが「劣化」していることです。 私が見たいくつかの例? 遅延を追加し、バックグラウンド ノイズを追加し、応答性を減らします (一時停止時に割り込まない)、中断可能性を減らします (つなぎ言葉で止まらない)
来年には、中間の音声エージェントでさえ、基本的に人間と区別がつかないほどの音声になるだろうと私は予測している。 これにより、より多くの消費者向け音声アプリケーションが利用可能になります。「最後の2%」のリアリズムが、記憶に残る体験の核となる可能性があるからです。