X (Twitter)

울트라맨: 그럼 서버실을 짓지 않으면 새로운 모델을 출시하지 않겠다는 거야? Reddit에서 진행된 Dark Side of the Moon의 AMA(Ask Me Anything)에서 나온 특종 소식입니다! 정보가 가득 담겨 있어요! 가장 큰 폭탄선언은 ComfortAsk449(양지린으로 추정)가 키미-K3 출시일에 대해 한 답변입니다. "울트라맨의 1조 달러짜리 데이터 센터가 지어지기 전에 출시하겠습니다!" 하하하하! 본론으로 돌아와서, 이번 세션의 핵심 내용을 요약해 보겠습니다. 여러분이 아직 몰랐을 법한 많은 내용을 다루었다고 생각합니다. 첫째, 460만 달러의 훈련 비용은 단지 소문일 뿐이지만, 훈련 비용이 특별히 높지는 않을 것이라는 점은 확실합니다. 공식 개발팀은 훈련에 H800 GPU와 Infiniband를 사용한다고 밝혔는데, 이는 미국의 고급 GPU보다 수는 적지만 각 카드를 최대한 활용합니다. int4 정밀도는 누구나 알고 있습니다. int4를 선택하면 Blackwell이 아닌 GPU에 더 친화적이며 Marlin 커널을 사용할 수 있습니다. 키미 K3와 관련하여, KDA 관련 컨셉이 K3에 도입될 가능성이 매우 높으며, 중요한 아키텍처 변경 사항을 반영하여 새로운 기능이 개발될 것입니다. 커뮤니티의 관측에 따르면, 키미 K3는 2개월마다 첫 번째 금요일(2026년 1월 9일로 예상)에 출시될 예정입니다. 다른 신규 모델과 관련하여, 현재 커뮤니티에서 가장 많이 요청되는 모델은 3B에서 48B 사이이며, 100~120B MoE 사이 모델에 대한 수요도 높습니다. 또한, 새로운 시각 언어 모델(Kimi-VL)이 개발될 가능성이 있다는 소식도 전해졌습니다! (Kimi-VL은 이전에 언급되었습니다.) 기술적으로 KDA + NoPE MLA는 전체 MLA + RoPE보다 성능이 우수하며, Muon 옵티마이저는 1T 매개변수 규모에서 최초로 검증되었습니다. K2 Thinking은 학습을 위해 엔드투엔드 에이전트 강화 학습을 사용합니다. 연구팀은 이전에 1M 컨텍스트 윈도우(당시 비용이 너무 높았음)를 구현했으며, 향후 버전에서는 컨텍스트 길이(현재 256K)를 늘릴 예정입니다. 연구팀은 현재 버전이 토큰 효율성보다 성능을 우선시한다는 점을 인지하고 있으며, 보상 함수에 효율성을 통합하여 적극적으로 개선하고 있습니다. 또 다른 소식으로는 OK Computer가 곧 김미-K2식 사고방식 버전을 출시할 예정이라는 소식이 있습니다. 이 버전은 아첨과 지나친 낙관주의를 지양하고 특별히 맞춤화된 글쓰기 스타일을 선보일 예정입니다. #moonshotAI #kimik2 #kimik3 #kimivl #AMA