xAI가 Grok Voice Agent API를 공식 출시했습니다. 가격은 분당 단 0.05달러입니다. 오디오 추론 벤치마크에서 1위 핵심 기능은 다음과 같습니다. - 실시간 음성 입력 및 출력 (양방향 음성 통신) - 중국어를 포함한 수십 가지 언어를 지원합니다. - 사용자의 언어를 자동으로 인식하고 대화 중에 자유롭게 언어를 전환할 수 있습니다. - 외부 도구 호출을 지원합니다 - 실시간 온라인 검색 및 추론 - 감정 표현을 활용한 음성 제어를 지원합니다. - 다양한 음성 옵션을 제공합니다 - OpenAI 실시간 API 사양과 호환 가능
Grok은 다음과 같은 다양한 음성 옵션을 제공합니다. 아라(온화한, 자연스러운) 이브 (따뜻하고 여성스러운) 레오 (명료하고 전문적인)
현재 전 세계 수백만 대의 테슬라 차량에 탑재된 음성 비서는 Grok 기술을 기반으로 작동합니다. 차량 내부에서 Grok은 사용자의 말을 이해할 뿐만 아니라 차량 시스템을 직접 조작할 수도 있습니다. 배터리 상태, 배터리 잔량 및 차량 상태를 확인하고, 경로를 계획하며, X 검색 결과에서 경로 + 경유지 + 도중에 추천 사항 등을 포함한 여행 계획을 자동으로 생성합니다.
Big Bench Audio Smart Benchmarks에서 Grok이 오디오 추론 벤치마크 부문 1위를 차지했습니다. 스마트 점수: 95% (모든 경쟁사 대비 우수한 성능) 응답 속도: 평균 최초 오디오 출력 시간console.x.ai/team/default/v…5배 빠릅니다xiaohu.ai/c/xiaohu-ai/xa…s://t.co/AbSskmXvhu 자세한 소개: https://t.co/yzASWYOgSs
