X (Twitter)

CUDA 是Nvidia 真正的護城河！身為完全不懂CUDA 的我，現在拉上Gemini 3.0 Pro 和Grok 4.1，也想試試能不能看懂「CUDA 2006 年誕生後最大的進步」，爭取變身「CUDA 初初初級工程師」😄 CUDA 13.1 中推出的最重要的一項里程碑式技術“ CUDA Tile”，它讓開發者專注於演算法邏輯，而把繁瑣的硬體適配工作交給系統，為什麼是這樣，怎麼做到的，對開發者的變化是什麼呢？帶著這幾個問題，讓Gemini 3.0 Pro 和Grok 4.1 跑起來... CUDA 13.1 核心變革：從「管路執行緒」到「管資料區塊」 (Tile-based Programming) · 過去(SIMT 模型)：傳統的CUDA 程式設計是基於SIMT（單指令多執行緒）。開發者需要精細地控製成千上萬個執行緒如何執行指令，就像指揮每個士兵的具體動作。雖然這能帶來極致的效能，但編寫和最佳化難度極大，尤其是要適配不同架構的GPU（例如呼叫Tensor Cores）。 · 現在(CUDA Tile 模型)： CUDA Tile 引入了「Tile（圖塊）」的概念。開發者不再需要關心單一執行緒或單一資料元素，而是直接對資料塊（Tiles）定義操作（例如矩陣乘法）。 · 類比：這就像在Python 中使用NumPy，你只需要說“把這兩個矩陣相乘”，底層的複雜計算細節對你是透明的。解決什麼痛點？ · 硬體複雜度的抽象化：現代GPU 硬體越來越複雜，擁有Tensor Cores (TC) 和Tensor Memory Accelerators (TMA) 等專用加速單元。以前要用好這些單元，開發者需要寫非常底層的程式碼。 CUDA Tile 將這些硬體細節抽象了起來，編譯器會自動幫你呼叫這些加速單元。 · 程式碼的可移植性(Portability)：這是最大的利多。使用CUDA Tile 編寫的程式碼具有極高的硬體無關性。這意味著你寫一次程式碼，就可以在未來不同世代的NVIDIA GPU 上高效運行，而不需要針對每一代新顯示卡重新優化底層指令。技術基石：CUDA Tile IR · CUDA Tile IR (中間表示)：這是整個技術的基礎。它引入了一套虛擬指令集，專門用於描述Tile 操作。 · 分工明確： · 開發者：負責將資料切分成Tile，並定義Tile 之間的運算。 · CUDA Tile IR：負責將這些高層操作對應到特定的硬體資源（如執行緒、記憶體層級、Tensor Cores）。開發者如何使用？ · 絕大多數開發者(Python 路徑)：你不需要直接寫複雜的IR 程式碼，而是透過NVIDIA cuTile Python 函式庫來使用它。這提供了類似Python 的高層接口，讓你能用簡單的程式碼寫出高效能的GPU 程式。 · 高階開發者/編譯器作者：如果你在開發自己的編譯器、框架或特定領域的語言(DSL)，你可以直接針對CUDA Tile IR 進行開發，建立自己的工具鏈。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容