X (Twitter)

Step-Star의 새로운 오픈소스 오디오 모델인 Step-Audio-R1은 "테스트 시간 추론 컴퓨팅 성능 확장"을 지원하는 최초의 모델입니다. 사용자가 듣고 동시에 생각할 수 있도록 지원하며, 생각하는 시간이 길어질수록 더 정확한 답변을 얻을 수 있습니다. 이 제품은 공개적으로 제공되는 종합 오디오 벤치마크에서 Gemini 2.5 Pro보다 성능이 뛰어나고 Gemini 3과 경쟁합니다. 기존 오디오 모델은 먼저 소리를 텍스트로 변환한 다음, 텍스트 모델이 데이터를 처리하도록 합니다. 이 과정은 체인이 길어질수록 중단됩니다. 그러나 Step-Audio-R1은 모달 앵커링 추론 증류법을 사용하여 체인의 음향 특징을 직접 처리하고 텍스트를 최종 출력으로 사용합니다. 체인이 길수록 결과의 정확도가 높아집니다. 음성 고객 서비스나 여러 차례 대화하는 음성 지원에 적합하며, 여러 차례 대화하는 동안 맥락이 손실되지 않습니다. #오디오 모델# StepAudioR1

깃허브: https://t.co/7TtOasJSH4

AIGCLINK(@aigclink)의 스레드

작성자 정보

스레드 내용