눈에 보이는 것 이상입니다 :KIMI-2-Thinking QAT. 더 많은/중국 AI 칩을 지원하는 것과도 관련이 있습니다. Kimi(Moonshot AI)가 QAT(양자화 인식 훈련)를 선택한 이유에 대한 짧은 글을 꼭 읽어보세요. 제가 읽은 내용은 다음과 같습니다. 요약: 메모리 바운드 시나리오(Kimi-2의 희소성 스케일을 갖춘 MoE가 해당)에서 추론 및 메모리 요구 사항에 대한 지연 시간을 줄이고 RL 학습 속도를 10-20% 높이는 것뿐만 아니라, INT4 포맷 덕분에 Huawei의 Cambricon 및 Ascend와 같은 대체 하드웨어 생태계도 사용할 수 있습니다. 블로그에서 인용한 내용: ================= 1) 왜 MXFP4가 아닌 INT4인가요? Kimi는 강력한 기존 커널 지원(예: Marlin)을 바탕으로 Blackwell이 아닌 GPU를 더 잘 지원하기 위해 "더 고급형" MXFP4/NVFP4 대신 INT4를 선택했습니다. 2) Kimi-2-Thinking 가중치는 4비트이고 활성화는 16비트입니다(W4A16으로 표시) 그들은 W4A8과 W4A4가 곧 출시될 것이라고 덧붙였습니다. FP4 네이티브 연산자를 탑재한 새로운 칩이 출시됨에 따라, Kimi의 양자화 경로는 계속해서 발전할 것입니다. 중국산 칩에서 INT4 지원: ================= Cambricon GPU는 MLU270, MLU370-X8 및 최신 칩과 같은 여러 모델에서 볼 수 있듯이 AI 추론 워크로드를 포함하여 INT4 양자화를 명시적으로 지원하며, GLM-4.6과 같은 대형 모델을 위한 INT4 통합을 포함한 최근 오픈 소스 릴리스에서도 이를 확인할 수 있습니다. Huawei Ascend NPU는 추론을 위한 INT4 양자화도 지원하는데, 이는 GEMM 및 양자화 모델 배포와 관련된 문서와 커널 릴리스를 통해 확인되었습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.