K2 Thinking에 대한 Kimi AMA: 1. 460만 달러의 교육 비용은 공식적인 숫자가 아닙니다. 2. H800으로 훈련(H100은 약화) 3. NoPE MLA를 사용한 KDA(Kimi Delta Attention) 하이브리드는 RoPE를 사용한 전체 MLA보다 성능이 더 좋습니다. 4. 뮤온은 1T 매개변수에 잘 확장됩니다. "그릴을 통과하지 못하는 최적화 프로그램과 아키텍처가 수십 개 있습니다." 5. 키미 K2는 비전을 가질 것입니다 6. K2 Thinking은 기존 int4 추론 Marlin 커널을 활용하면서 Blackwell이 아닌 GPU에도 친화적인 INT4로 기본 설계되었습니다.
- "웬 K3?" - "샘의 1조 달러짜리 데이터 센터가 지어지기 전에" 😂 AMA 링크: https://t.co/6yZSsjQXvM
