X (Twitter)

階躍星辰新開源的一款首個支援「測試時推理算力擴展」的音頻大模型：Step-Audio-R1，實現了邊聽邊想，想得越久答得越準公開綜合音訊基準上優於Gemini 2.5 Pro，比肩Gemini 3 傳統音訊模型先把聲音轉文字，再讓文本模型思考，鏈一長就崩，Step-Audio-R1用模態錨定推理蒸餾直接對聲學特徵做鍊式思考，文字只是最後輸出，鏈越長越準適合做語音客服或多輪語音助手，多輪對話不失去上下文 #音訊模型 #StepAudioR1

github：github.com/stepfun-ai/Ste…

來自 AIGCLINK（@aigclink）的推文串

作者資訊

推文串內容