P: Até agora, os kernings para FP32 são bem fáceis. Basicamente, é só escrever código em C. Qual é a maneira mais fácil de implementar suporte para TF32, FP16 e BF16 sem fazer uma bagunça completa?
P: Meu instinto é evitar bibliotecas extras, a menos que sejam absolutamente necessárias. Realmente não gosto do Triton pelo que vejo, por exemplo (embora eu me incomodasse menos se ele gerasse os kernels uma única vez, que eu pudesse incluir estaticamente no meu projeto). Preciso ajustar o tamanho dos tiles. O que devo fazer?