CUDA-L2 utiliza aprendizado por reforço para superar o cuBLAS na multiplicação de matrizes. Testado em 1000 configurações HGEMM, supera o torch.matmul, o cuBLAS e o cuBLASLt AutoTuning no A100. +22% no modo offline. +28,7% no modo servidor. Os LLMs agora estão ajustando kernels.
📄 Artigoarxiv.org/pdf/2512.02551KX 🔗 GitHgithub.com/deepreinforce-…LAgY

