CUDA-L2 使用强化学习在矩阵乘法方面优于 cuBLAS。 经过 1000 个 HGEMM 配置的测试,它在 A100 上优于 torch.matmul、cuBLAS 和 cuBLASLt AutoTuning。 离线模式下性能提升 22%。 服务器模式下增长 28.7%。 LLM 目前正在调整内核。
📄论文链接:htarxiv.org/pdf/2512.02551🔗 GitHub:https://t.co/xijapZLAgY
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月12日 18:00
CUDA-L2 使用强化学习在矩阵乘法方面优于 cuBLAS。 经过 1000 个 HGEMM 配置的测试,它在 A100 上优于 torch.matmul、cuBLAS 和 cuBLASLt AutoTuning。 离线模式下性能提升 22%。 服务器模式下增长 28.7%。 LLM 目前正在调整内核。
📄论文链接:htarxiv.org/pdf/2512.02551🔗 GitHub:https://t.co/xijapZLAgY