问:目前为止,FP32 内核扩展相当容易实现,基本上就是用 C 语言编写代码。那么,如何才能最轻松地实现对 TF32、FP16 和 BF16 的支持,而不会搞得一团糟呢?
问:我的直觉是除非绝对必要,否则尽量避免使用额外的库。例如,就我目前所见,我真的非常不喜欢 Triton(虽然如果它能一次性生成内核,然后我可以将其静态包含到我的项目中,我会更满意)。我的确需要对瓦片大小进行一些调整。该怎么做?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月7日 13:09
问:目前为止,FP32 内核扩展相当容易实现,基本上就是用 C 语言编写代码。那么,如何才能最轻松地实现对 TF32、FP16 和 BF16 的支持,而不会搞得一团糟呢?
问:我的直觉是除非绝对必要,否则尽量避免使用额外的库。例如,就我目前所见,我真的非常不喜欢 Triton(虽然如果它能一次性生成内核,然后我可以将其静态包含到我的项目中,我会更满意)。我的确需要对瓦片大小进行一些调整。该怎么做?