今天和明天一整天都在進行 Torch C++ 和 CUDA 優化開發,會在這裡/YouTube/Twitch 上直播。目標是… 1) 讓 PufferLib 以每秒 1000 萬步的速度執行強化學習 2)消除難以分析的潛在瓶頸來源 3)看看我們能把它簡化到什麼程度 以下是一些針對GPU開發人員的問題
Q:我的網路規模較小,需要減少核心啟動次數。我的選擇有:1)忍受 CUDA Graph 的種種限制;2)編寫一些大型融合核心;3)兩者兼而有之。融合核心看起來不錯,但 NVIDIA 的 cublas 矩陣乘法器不是開源的。我該怎麼辦?
Q:目前為止,FP32 核心擴充相當容易實現,基本上就是用 C 語言寫程式碼。那麼,如何才能最輕鬆地實現對 TF32、FP16 和 BF16 的支持,而不會搞得一團糟呢?
Q:我的直覺是除非絕對必要,否則盡量避免使用額外的函式庫。例如,就我目前所見,我真的非常不喜歡 Triton(雖然如果它能一次性生成內核,然後我可以將其靜態包含到我的項目中,我會更滿意)。我的確需要對瓦片大小做一些調整。該怎麼做?