X (Twitter)

O Step-Audio-R1, um modelo de áudio de código aberto recém-lançado pela Step-Star, é o primeiro a oferecer suporte à "expansão do poder computacional de inferência em tempo de teste". Ele permite que os usuários ouçam e pensem simultaneamente, obtendo respostas mais precisas quanto mais tempo dedicarem ao raciocínio. Ele supera o Gemini 2.5 Pro e rivaliza com o Gemini 3 em testes de áudio abrangentes disponíveis publicamente. Os modelos de áudio tradicionais primeiro convertem o som em texto e, em seguida, permitem que o modelo de texto processe os dados. Esse processo se torna ineficiente à medida que a cadeia se alonga. O Step-Audio-R1, por outro lado, utiliza a destilação por inferência de ancoragem modal para processar diretamente as características acústicas em uma cadeia, com o texto como saída final. Quanto mais longa a cadeia, mais precisos serão os resultados. Ideal para atendimento ao cliente por voz ou assistentes de voz com múltiplas interações, garantindo que não haja perda de contexto durante conversas com várias interações. #Modelo de áudio# StepAudioR1

github：github.com/stepfun-ai/Ste…

Thread de AIGCLINK (@aigclink)

Informações do autor

Conteúdo da thread