인상적인 새로운 Kimi 2 모델이 사용하는 영리한 기술은 "양자화 인식 훈련" 또는 QAT라고 합니다. 철학적으로 드롭아웃과 비슷합니다. 드롭아웃에서는 모델이 다른 뉴런의 공동 적응에 의존하는 것을 원하지 않습니다. 공동 적응은 모델을 취약하게 만들기 때문입니다. 따라서 학습 과정에서 일부 뉴런을 의도적으로 삭제하여 이러한 의존성을 피합니다. 여기서는 학습이 완료된 후 최종 양자화 과정에서 손실될 추론의 정밀도에 의존하는 모델을 원하지 않으므로, 그러한 의존성을 피하기 위해 학습 중에 의도적으로 정밀도를 잃습니다. 따라서 이 모델은 가중치의 하위 비트에 매우 중요한 정보가 저장되는 것에 의존할 수 없게 됩니다. 하지만 최적화 중에 그래디언트가 원활하게 흐르도록 하려면 정확도가 필요하므로, 전방 패스에서 INT4 효과를 시뮬레이션하는 동안 그래디언트 계산에만 전체 정밀도 가중치를 유지하여 정확도를 속입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.