X (Twitter)

Step-Audio-R1, un nouveau modèle audio open source de Step-Star, est le premier à prendre en charge « l'extension de la puissance de calcul d'inférence en temps réel ». Il permet aux utilisateurs d'écouter et de réfléchir simultanément, et d'obtenir des réponses plus précises à mesure qu'ils réfléchissent. Il surpasse le Gemini 2.5 Pro et rivalise avec le Gemini 3 dans les tests audio complets disponibles publiquement. Les modèles audio traditionnels convertissent d'abord le son en texte, puis laissent le modèle de texte traiter les données. Ce processus devient inefficace lorsque la chaîne s'allonge. Step-Audio-R1, en revanche, utilise la distillation par inférence d'ancrage modal pour traiter directement les caractéristiques acoustiques au sein d'une chaîne, le texte constituant le résultat final. Plus la chaîne est longue, plus les résultats sont précis. Adapté aux services clients vocaux ou aux assistants vocaux à plusieurs tours de parole, garantissant l'absence de perte de contexte lors des conversations à plusieurs tours de parole. #Modèle audio# StepAudioR1

github：github.com/stepfun-ai/Ste…

Fil de AIGCLINK (@aigclink)

Informations sur l'auteur

Contenu du fil