xAI lança oficialmente a API Grok Voice Agent. O preço é de apenas US$ 0,05 por minuto. Classificado em 1º lugar nos benchmarks de inferência de áudio. Suas principais capacidades incluem: - Entrada e saída de voz em tempo real (comunicação de voz bidirecional) - Suporta dezenas de idiomas, incluindo o chinês. - Ele consegue reconhecer automaticamente o idioma do usuário e alternar livremente entre eles durante as conversas. - Suporta a chamada de ferramentas externas - Busca e raciocínio online em tempo real - Suporta controle por voz com dicas de emoção - Oferece uma variedade de opções de voz - Compatível com a especificação da API em tempo real da OpenAI
O Grok oferece diversas opções de voz, como: Ara (suave, natural) Eva (quente, feminina) Leão (Claro, Profissional)
Atualmente, os assistentes de voz em milhões de carros da Tesla em todo o mundo são alimentados pela tecnologia Grok. Dentro do carro, o Grok não só consegue entender o que você diz, como também operar diretamente os sistemas do veículo: Verificar o estado da bateria, o nível da bateria e o estado do veículo; planear rotas; gerar automaticamente planos de viagem a partir dos resultados da pesquisa em X (rota + paragens + recomendações ao longo do caminho).
Testes de benchmark de áudio inteligentes da Big Bench: Grok classificado em 1º lugar em benchmarks de inferência de áudio. console.x.ai/team/default/v…superanxiaohu.ai/c/xiaohu-ai/xa…s) Velocidade de resposta: Tempo médio para o primeiro áudio inferior a 1 segundo, aproximadamente 5 vezes mais rápido que os concorrentes recentes. Experimente online: https://t.co/AbSskmXvhu Introdução detalhada: https://t.co/yzASWYOgSs
