어젯밤, 키미 K2의 트레이닝 팀은 Reddit LocalLLaMA 채널에서 AMA를 진행했습니다. 해외 사용자들의 K2-Thinking 리뷰를 살펴봤는데, 제 댓글 섹션에 있는 국내 사용자들의 리뷰와는 상당히 달랐습니다. 해외 사용자는 가격에 상대적으로 덜 민감합니다. 물론, 토큰 단위가 아닌 통화 건수 단위로 요금을 부과하는 데 몇 가지 문제가 있다는 점도 언급했습니다. 전반적으로 이는 기술과 품질에 대한 집중도, 그리고 LocalLLaMA 채널의 특성과 관련이 있습니다. 그들은 어젯밤 AMA에서도 많은 질문에 답변했고, 저는 그 중 더 유익한 질문들을 모아봤습니다. ---------------------------- 차기 플래그십 모델인 키미에도 KDA가 적용될 예정인가요? 장점은 무엇인가요? NoPE MLA를 적용한 KDA 하이브리드는 기존 MLA + RoPE보다 성능이 우수합니다. 사전 학습과 강화 학습 단계 모두에서 더 빠르고, 더 경제적이며, 더 효율적입니다. 이를 통해 사전 교육 및 배포가 더 빨라지고 더 많은 사용자에게 서비스를 제공할 수 있습니다. K3 훈련에 사용될 수도 있습니다. K2에 시각 언어(VL) 버전이 있을까요? 네, 진행 중입니다. K2는 다른 모델들만큼 사용하기 편리하지 않습니다(잘 어울리지 않습니다). 의도적으로 설계된 건가요? 아니면 훈련 후 생긴 결과인가요? K2의 비순응적 성격은 신중한 데이터 선택을 통해 설계되었습니다. 사전 학습과 사후 학습 모두 이 스타일에 기여합니다. 사전 학습은 관련 사전 지식을 부호화하는 반면, 사후 학습은 고유한 특징을 더합니다. Kimi for Coding의 현재 청구 방식은 API 요청 수를 기반으로 하는데, 이는 매우 불투명합니다. 하나의 프롬프트가 여러 요청을 유발할 수 있습니다. 토큰이나 프롬프트 중 하나를 기준으로 청구 방식을 변경할 수 있을까요? 현재 요청 건수에 따라 요금을 청구하고 있습니다. 이는 사용자에게 명확하게 표시되고 비용 구조에 더 잘 부합하기 때문입니다. 하지만 사용자의 혼란을 이해하고 있으며 개선 방안을 검토할 예정입니다. fp4가 int4보다 상당히 개선되었다고 생각하시나요? 아니면 int4도 이미 충분히 좋은 인코딩 방식인가요? int4를 선택한 이유는 기존 int4 추론 Marlin 커널을 활용하는 동시에 Blackwell이 아닌 GPU와의 호환성을 높이기 위해서입니다. K2 Thinking 모델은 GPT-5 Thinking 모델보다 강력하지만, 출력 속도가 훨씬 느립니다. 의도적으로 "더 오래 생각하도록" 만들어야 할까요? K2-Thinking이 추론 단계에서 더 자세하고 시간이 많이 걸린다는 점을 인정하면서도 최적화를 진행 중입니다. 일반 텍스트 프록시에 집중하는 것은 최첨단(SOTA) 상태를 달성하기 위한 단기적 희생인가, 아니면 장기적인 도박인가? 시각 언어 모델(VL)에 필요한 데이터를 확보하고 학습하는 데는 시간이 걸리므로, 먼저 텍스트 모델을 출시하기로 했습니다. 460만 달러짜리 K2 Thinking 교육 비용은 진짜인가요? 이는 공식적인 수치가 아닙니다. 교육 비용의 상당 부분이 연구 및 실험과 관련되어 있기 때문에 정량화하기 어렵습니다. K2 사고방식을 만들면서 가장 큰 어려움은 무엇이었나요? 감사합니다! 한 가지 과제는 "생각-도구-생각-도구" 패턴을 상호 배치하는 것입니다. 이는 LLM에서 비교적 새로운 방식이며, 제대로 작동하도록 하려면 많은 노력이 필요합니다. 몇 달간의 평가 끝에 K2 Thinking은 Sonnet 4.5와 Opus 4.1에서 놓친 문제점을 찾아낼 수 있었습니다. 솔직히 말해서, K2 Thinking은 시스템 프롬프트 하나만 개선하면 동일한 수준의 성능을 달성할 수 있을 것 같습니다. 이 모든 것이 새로운 아키텍처 덕분인가요? 아니면 훈련 데이터의 품질도 향상되었나요? 적절한 평가 방법과 데이터를 확보하는 것이 성능 향상에 매우 중요하다고 생각합니다. 아키텍처와 최적화 도구는 샘플 효율성을 향상시킵니다. 훈련 스택에 어떤 종류의 하드웨어를 사용하시나요? 귀사의 인프라가 미국 대기업에서 사용하는 스택과 어떻게 비교되는지 알고 싶습니다. 우리는 Infiniband가 탑재된 H800 GPU를 사용했습니다. 이 제품은 미국산 하이엔드 GPU만큼 좋지는 않았고, 수량도 많지 않았지만, 모든 카드를 최대한 활용했습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
