Step-Starが新たにオープンソース化した音声モデル「Step-Audio-R1」は、「テスト時の推論コンピューティング能力の拡張」をサポートする初のモデルです。ユーザーは聞くことと考えることを同時に行うことができ、考える時間が長ければ長いほど、より正確な回答が得られます。 公開されている総合的なオーディオベンチマークでは、Gemini 2.5 Pro を上回り、Gemini 3 に匹敵します。 従来の音声モデルでは、まず音声をテキストに変換し、その後テキストモデルでデータを処理します。このプロセスは、チェーンが長くなるにつれて機能不全に陥ります。一方、Step-Audio-R1は、モーダル・アンカリング推論蒸留を用いて、音響特徴をチェーン内で直接処理し、最終出力としてテキストを生成します。チェーンが長ければ長いほど、結果の精度は向上します。 音声カスタマー サービスやマルチターン音声アシスタントに適しており、マルチターンの会話中にコンテキストが失われないことを保証します。 #オーディオモデル# StepAudioR1
ギットハブ: github.com/stepfun-ai/Ste…
