[Recomendação de código aberto] Smart Turn v3.1: Uma atualização significativa para a "detecção de turnos" em diálogos por voz. Ao introduzir dados reais de fala humana em vez de depender exclusivamente de fala sintetizada, melhora consideravelmente a precisão do modelo em determinar se o usuário terminou de falar, tornando as respostas de diálogo da IA mais naturais. @trydaily 🚀 Principais destaques: Precisão significativamente aprimorada · Diga adeus aos dados puramente sintéticos: o maior avanço da versão 3.1 reside na introdução de amostras reais de fala humana (especialmente inglês e espanhol) fornecidas por parceiros (Liva AI, Midcentury, MundoAI). • Comparação de dados: Em comparação com a versão 3.0, a precisão da nova versão em inglês aumentou de 88,3% para cerca de 95%, e em espanhol também melhorou para mais de 90%. Resolvendo um problema crucial: o treinamento anterior dependia de dados sintéticos de síntese de voz, que não incluíam as pausas naturais e as nuances sutis da fala humana. Os novos dados permitem que o modelo distinga com mais precisão entre "pausas verdadeiras" e "pausas falsas". 🛠️ Detalhes técnicos e flexibilidade Esta atualização oferece duas versões de modelo para atender a diferentes requisitos de hardware: • Versão para CPU (8 MB, quantização Int8): Tamanho reduzido, alta velocidade, adequada para a maioria dos servidores de computação de borda ou servidores em geral, com velocidade de inferência extremamente rápida (tão baixa quanto 12 ms). • Versão para GPU (32 MB, não quantizada): Ligeiramente maior em tamanho, mas funciona de forma mais eficiente em uma GPU e tem uma precisão cerca de 1% maior do que a versão para CPU. 🔄 Experiência de atualização simplificada e substituição perfeita: a versão 3.1 mantém a mesma arquitetura da versão 3.0. Se você já é usuário, basta substituir o arquivo do modelo ONNX; nenhuma modificação no código de inferência é necessária. • Integração com o ecossistema: O novo modelo será integrado diretamente na próxima versão do framework Pipecat, permitindo que os desenvolvedores desfrutem de melhorias de desempenho com praticamente "zero código". 📊 O projeto Open Source não apenas disponibilizou os pesos do modelo, como também lançou um novo conjunto de dados (smart-turn-data-v3.1) para treinamento e teste no Hugging Face, facilitando para a comunidade a realização de pesquisas adicionais ou ajustes finos. Leia o texto original
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![[Recomendação de código aberto] Smart Turn v3.1: Uma atualização significativa para a "detecção de turnos" em diálogos p](https://pbs.twimg.com/media/G7SQwL6b0AECp4J.jpg)