Q : Jusqu'ici, la gestion des noyaux FP32 est assez simple. Il suffit d'écrire du C. Quelle est la méthode la plus simple pour gérer les formats TF32, FP16 et BF16 sans faire de bêtises ?
Q : Mon instinct me pousse à éviter les bibliothèques supplémentaires, sauf en cas d'absolue nécessité. Par exemple, je n'apprécie vraiment pas Triton (même si cela me dérangerait moins s'il générait les noyaux une seule fois, que je pourrais ensuite inclure statiquement dans mon projet). J'ai besoin d'ajuster la taille des tuiles. Comment faire ?