X (Twitter)

Kimi-K2-Thinking과 MiniMax M2의 크기를 비교하면 어떤가요? 2/n 1. MiniMax M2는 전체 주의력을 갖춘 10B 활성 매개변수와 230B 총 매개변수를 가지고 있습니다. 2. Kimi K2는 350억 개의 활성 매개변수와 1조 개의 총 매개변수를 가지고 있습니다. 둘 다 대부분의 가중치를 8비트로 갖습니다. 즉, M2는 호스팅하기가 훨씬 더 쉽고 KV 캐시도 훨씬 더 컴팩트해집니다. MiniMax M2는 전체 주의를 사용하는데, Kimi-M2가 주의 계층에 흥미로운 일을 했는지 보는 것은 흥미로울 것입니다. (이 계산을 위해 저는 Kimi-K2-Thinking이 Kimi-K2-Base를 기반으로 한다고 가정합니다)

GDP(@bookwormengr)의 스레드

작성자 정보

스레드 내용