P: Hasta ahora, los kernels de fp32 son bastante fáciles. Básicamente solo hay que escribir en C. ¿Cuál es la forma más sencilla de implementar soporte para TF32, FP16 y BF16 sin complicarlo todo?
P: Mi instinto me dice que evite usar librerías adicionales a menos que sea absolutamente necesario. Por ejemplo, no me gusta nada Triton (aunque me molestaría menos si generara los kernels una sola vez para luego incluirlos estáticamente en mi proyecto). Necesito ajustar el tamaño de los tiles. ¿Qué puedo hacer?