切勿遮擋GPU! 在 @modal 的一篇新部落格文章中,我們探討了 AI 推理中一個主要的低效率類別:主機開銷。 我們列舉了三個與 @sgl_project 合作以減少主機開銷並防止 GPU 停頓的案例。 每一微秒都至關重要。 https://t.co/ZeumrZpSKE
對於推理過程,我喜歡把GPU想像成一艘大船,把CPU想像成領航員。領航員需要告訴船該往哪裡走。 如果船停下來等待領航員指示下一步行動,那就糟了!你會浪費資源和時間。
AI 推理中主機開銷的主要原因是與 CPU 不必要的同步——相當於讓船等待導航員。
像 @sgl_project 這樣的生產引擎避免了主機/裝置同步中最明顯的案例。 我們發現了兩種特殊情況,只需稍加巧妙處理即可避免同步: - 在設備上建立一些位置嵌入 - 在主機上重新計算一些 KV 快取頁的長度
PR 在這裡: hgithub.com/sgl-project/sg… github.com/sgl-project/sg…
減少主機開銷的另一個關鍵技巧是_融合_核心:將多個獨立的 GPU 核心啟動合併為一個核心啟動。 每次發射的額外時間只有大約一微秒,但每一微秒都至關重要!
我們發現,在較小的 VLM 中,某個特定操作會產生較大的核心啟動開銷——而我們看到這些 VLM 的部署量正在大幅增加(感謝 @Alibaba_Qwen)。 因此,我們使用 @PyTorch 編譯器自動融合內核,將執行時間從 40 微秒縮短到 5 微秒。
詳情請見此新聞稿:https://t.co/gvEqTgdIth
Torch 編譯對於快速降低推理延遲非常有效。 我們之前已經寫過相關文章: https://t.co/MN072QDXzz
還有更多微秒可以節省,還有更多 GPU 可以從未經優化的 CPU 程式碼的束縛中解放出來! 但 @modal 團隊很高興已經取得了一些進展,這些進展有助於我們的客戶提供互動式 AI 應用程式。 點擊此處閱讀部落格:https://t.co/ZeumrZqqAc



