X (Twitter)

Step-Audio-R1, un nuevo modelo de audio de código abierto de Step-Star, es el primero en permitir la expansión de la capacidad de procesamiento de inferencia en tiempo de prueba. Permite a los usuarios escuchar y pensar simultáneamente, obteniendo respuestas más precisas cuanto más tiempo piensen. Supera al Gemini 2.5 Pro y rivaliza con el Gemini 3 en pruebas de referencia de audio integrales disponibles públicamente. Los modelos de audio tradicionales primero convierten el sonido en texto y luego permiten que el modelo de texto procese los datos. Este proceso se interrumpe a medida que la cadena se alarga. Sin embargo, Step-Audio-R1 utiliza la destilación de inferencia de anclaje modal para procesar directamente las características acústicas en una cadena, con el texto como resultado final. Cuanto más larga sea la cadena, más precisos serán los resultados. Adecuado para servicio de atención al cliente por voz o asistentes de voz de múltiples turnos, lo que garantiza que no haya pérdida de contexto durante las conversaciones de múltiples turnos. #Modelo de audio# StepAudioR1

github：github.com/stepfun-ai/Ste…

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo