NVIDIA 剛剛發布了專為gpt-oss-120b設計的加速模型 NVIDIA 剛剛發布了一個新模型gpt-oss-120b-Eagle3-throughput, 這個模型是專門為了搭配gpt-oss-120b 而設計的, 它可以用來作為gpt-oss-120b 的前置模型進行推測性解碼, 從而提升gpt-oss-120b 模型的輸出速度. 給不了解推測性解碼的同學介紹一下, 推測性解碼技術就是先用一個小模型來輸出, 然後批量將這些輸出塞給大模型, 讓大模型糾正, 這樣只要小模型"蒙對了" 速度就會很快, 而在正常語境下停用詞(在語言中頻率極高,但對區分句子核心語意貢獻很小的詞) 所以提速的效果很小.
模型資訊/1
如何運作








