X (Twitter)

11LabsがScribe v2リアルタイムAI音声モデルをリリース - 150ミリ秒未満の遅延、世界最高の精度 - 90以上の言語をサポート - リアルタイムパフォーマンスと多言語精度において、現在のトップレベルのモデルを上回ります。 - 音声の開始と終了を自動的に識別し、正確に分割して、空白ノイズを低減します。 - 接続が中断されても転写を再開します。 - 予測転写: モデルが後続の単語と句読点を予測し、流暢な出力を実現します。 - 専門用語データベースを内蔵し、複雑な語彙を認識し、テクノロジー、医療、金融などの専門分野をサポートします。

Scribe v2 は、リアルタイムのパフォーマンスと多言語の正確さにおいて最先端です。その精度は、GPT-4o や Deepgram などの類似製品を上回ります。

バックグラウンドノイズと複雑なコーパスを含む「ハードサンプル」では、他のすべてのモデルよりも優れたパフォーマンスを発揮します。これを使用することでxiaohu.ai/c/xiaohu-ai/11…のシナリオに対応する、自然で人間のような話し方を持つ AI エージェントを構築できます。詳しい紹介：https://t.co/oMJqxAK14i

小互（@imxiaohu）のスレッド

作者情報

スレッド内容