X (Twitter)

今天和明天一整天都在進行 Torch C++ 和 CUDA 優化開發，會在這裡/YouTube/Twitch 上直播。目標是… 1) 讓 PufferLib 以每秒 1000 萬步的速度執行強化學習 2）消除難以分析的潛在瓶頸來源 3）看看我們能把它簡化到什麼程度以下是一些針對GPU開發人員的問題

Q：我的網路規模較小，需要減少核心啟動次數。我的選擇有：1）忍受 CUDA Graph 的種種限制；2）編寫一些大型融合核心；3）兩者兼而有之。融合核心看起來不錯，但 NVIDIA 的 cublas 矩陣乘法器不是開源的。我該怎麼辦？

Q：目前為止，FP32 核心擴充相當容易實現，基本上就是用 C 語言寫程式碼。那麼，如何才能最輕鬆地實現對 TF32、FP16 和 BF16 的支持，而不會搞得一團糟呢？

Q：我的直覺是除非絕對必要，否則盡量避免使用額外的函式庫。例如，就我目前所見，我真的非常不喜歡 Triton（雖然如果它能一次性生成內核，然後我可以將其靜態包含到我的項目中，我會更滿意）。我的確需要對瓦片大小做一些調整。該怎麼做？

來自 Joseph Suarez 🐡（@jsuarez5341）的推文串