X (Twitter)

切勿遮擋GPU！在 @modal 的一篇新部落格文章中，我們探討了 AI 推理中一個主要的低效率類別：主機開銷。我們列舉了三個與 @sgl_project 合作以減少主機開銷並防止 GPU 停頓的案例。每一微秒都至關重要。 https://t.co/ZeumrZpSKE

對於推理過程，我喜歡把GPU想像成一艘大船，把CPU想像成領航員。領航員需要告訴船該往哪裡走。如果船停下來等待領航員指示下一步行動，那就糟了！你會浪費資源和時間。

AI 推理中主機開銷的主要原因是與 CPU 不必要的同步——相當於讓船等待導航員。

像 @sgl_project 這樣的生產引擎避免了主機/裝置同步中最明顯的案例。我們發現了兩種特殊情況，只需稍加巧妙處理即可避免同步： - 在設備上建立一些位置嵌入 - 在主機上重新計算一些 KV 快取頁的長度

減少主機開銷的另一個關鍵技巧是_融合_核心：將多個獨立的 GPU 核心啟動合併為一個核心啟動。每次發射的額外時間只有大約一微秒，但每一微秒都至關重要！

我們發現，在較小的 VLM 中，某個特定操作會產生較大的核心啟動開銷——而我們看到這些 VLM 的部署量正在大幅增加（感謝 @Alibaba_Qwen）。因此，我們使用 @PyTorch 編譯器自動融合內核，將執行時間從 40 微秒縮短到 5 微秒。

詳情請見此新聞稿：https://t.co/gvEqTgdIth

Torch 編譯對於快速降低推理延遲非常有效。我們之前已經寫過相關文章： https://t.co/MN072QDXzz

還有更多微秒可以節省，還有更多 GPU 可以從未經優化的 CPU 程式碼的束縛中解放出來！但 @modal 團隊很高興已經取得了一些進展，這些進展有助於我們的客戶提供互動式 AI 應用程式。點擊此處閱讀部落格：https://t.co/ZeumrZqqAc

來自 Charles 🎉 Frye（@charles_irl）的推文串