오늘과 내일 종일 Torch C++ & CUDA 최적화 개발, 여기/yt/twitch에서 스트리밍. 목표는 1) PufferLib가 초당 10M 단계로 RL을 수행하도록 합니다. 2) 프로파일링하기 어려운 잠재적 병목 현상의 원인을 제거합니다. 3) 얼마나 간단하게 만들 수 있는지 확인해 보세요 GPU 개발자를 위한 몇 가지 질문
질문: 네트워크 규모가 작아서 커널 실행 횟수를 줄여야 합니다. 1) cudagraph 지옥을 헤쳐나가거나, 2) 대용량 퓨전 커널을 작성하거나, 3) 둘 다 하는 방법이 있습니다. 퓨전 커널은 멋지지만, NVIDIA의 cublas matmul은 오픈 소스가 아닙니다. 어떻게 해야 할까요?
질문: 지금까지 fp32 커널은 꽤 쉽습니다. C로 작성하는 것만으로도 충분하죠. TF32, FP16, BF16을 엉망으로 만들지 않고 지원하는 가장 쉬운 방법은 무엇일까요?
질문: 제 본능은 꼭 필요한 경우가 아니면 추가 라이브러리는 피하는 것입니다. 예를 들어, 제가 보기에는 Triton이 정말 마음에 들지 않습니다. (물론, Triton이 커널을 한 번 생성해서 프로젝트에 정적으로 포함시킨다면 덜 짜증 나겠지만요.) 타일 크기 조정이 어느 정도 필요합니다. 어떻게 해야 할까요?