질문: 지금까지 fp32 커널은 꽤 쉽습니다. C로 작성하는 것만으로도 충분하죠. TF32, FP16, BF16을 엉망으로 만들지 않고 지원하는 가장 쉬운 방법은 무엇일까요?
질문: 제 본능은 꼭 필요한 경우가 아니면 추가 라이브러리는 피하는 것입니다. 예를 들어, 제가 보기에는 Triton이 정말 마음에 들지 않습니다. (물론, Triton이 커널을 한 번 생성해서 프로젝트에 정적으로 포함시킨다면 덜 짜증 나겠지만요.) 타일 크기 조정이 어느 정도 필요합니다. 어떻게 해야 할까요?