階躍星辰新開源的一款首個支援「測試時推理算力擴展」的音頻大模型:Step-Audio-R1,實現了邊聽邊想,想得越久答得越準 公開綜合音訊基準上優於Gemini 2.5 Pro,比肩Gemini 3 傳統音訊模型先把聲音轉文字,再讓文本模型思考,鏈一長就崩,Step-Audio-R1用模態錨定推理蒸餾直接對聲學特徵做鍊式思考,文字只是最後輸出,鏈越長越準 適合做語音客服或多輪語音助手,多輪對話不失去上下文 #音訊模型#StepAudioR1
github:github.com/stepfun-ai/Ste…
