X (Twitter)

Kimi-K2-Thinking: @Kimi_Moonshot은 최근 심층 추론 및 지능형 에이전트 기능을 위한 오픈 소스 모델을 출시했습니다. 고효율 추론 엔진일 뿐만 아니라, 내장된 지능형 에이전트 기능을 통해 복잡한 작업에서 도구를 동적으로 호출하여 간단한 질의응답부터 수백 단계에 달하는 자율적인 워크플로우까지 엔드투엔드 처리를 구현할 수 있습니다. 이 모델은 대규모 언어 모델이 더 큰 자율성과 실용성을 향해 진화한 모습을 보여주며, 특히 프로그래밍, 연구, 글쓰기 등의 분야에서 탁월한 성과를 보이고 있습니다. 핵심 설계: MoE 아키텍처 하의 효율적인 "사고" 메커니즘 Kimi-K2-Thinking은 총 매개변수 크기가 1T인 MoE 아키텍처를 채택했지만, 활성화 매개변수는 32B에 불과합니다. 이는 컴퓨팅 리소스 측면에서 더 효율적입니다. 토큰당 소수의 전문가만 활성화되므로 전체 매개변수 모델의 중복 오버헤드를 피할 수 있습니다. 구체적인 매개변수는 다음과 같습니다. 61개 계층(밀집 계층 1개 포함), 어텐션 계층의 은닉 차원 7,168개, MoE의 전문가당 2,048개, 384명의 전문가(토큰당 8명 선택, 공유 전문가 1명 포함), 64개의 어텐션 헤드, SwiGLU 활성화 함수, MLA 어텐션 메커니즘, 160,000단어 어휘, 그리고 256K 컨텍스트 길이 지원. 이 설계는 모델이 긴 시퀀스를 처리할 때 낮은 지연 시간을 유지하면서도 CoT 메커니즘을 통해 점진적인 추론 경로를 생성할 수 있도록 합니다. 기존 모델의 선형적인 출력과 달리, 이 설계는 사고와 도구 호출을 번갈아 가며 순환하는 폐쇄 루프를 형성합니다. 즉, 모델은 먼저 문제 분해에 대해 "생각"한 다음, 외부 도구를 호출하여 데이터를 수집하고, 마지막으로 출력을 통합합니다. 이러한 지능형 에이전트 유사 프로세스는 수학적 문제 해결이나 코드 디버깅과 같이 반복적인 검증이 필요한 작업에 특히 적합합니다. 주요 혁신: 양자화 학습 및 장기 안정성 모델의 가장 큰 특징은 두 가지 주요 엔지니어링 최적화에 있습니다. 첫째, 네이티브 INT4 양자화는 양자화 인식 학습(QAT)을 통해 가중치를 4비트 정수 정밀도로 압축하여 추론 속도를 약 2배 향상시키고 GPU 메모리 사용량을 50% 이상 줄입니다. 이는 후처리 양자화가 아닌 학습 시작 단계부터 통합되어 정확도 손실을 최소화합니다(대부분의 벤치마크에서 FP16과 유사). 둘째, 장기적인 에이전트 안정성입니다. 기존 모델은 30~50회의 도구 호출 후 "길을 잃는" 경향이 있지만, Kimi-K2-Thinking은 목표 지향적 행동을 유지하면서 200~300단계 동안 안정적으로 실행할 수 있습니다. 이는 강화 학습 미세 조정(RLHF) 및 도구 사용을 위한 시뮬레이션 데이터를 포함한 전담 학습 전략 덕분에 여러 단계의 상호작용에서 모델이 일관성을 유지할 수 있도록 지원합니다. 이러한 혁신을 통해 모델은 "수동적 대응"에서 "능동적 탐색"으로 전환되어 웹 검색, 코드 생성 또는 다중 모드 분석과 같은 실제 시나리오에 적합하게 됩니다. 성과: 벤치마킹 리더십. Kimi-K2-Thinking은 여러 평가에서 뛰어난 성과를 보였으며, 특히 도구를 사용하는 "무거운" 작업에서 경쟁사를 능가했습니다. 예를 들어, Humanity's Last Exam(HLE) 추론 벤치마크에서 도구 없이 23.9%, 도구를 사용했을 때 44.9%, 그리고 무거운 도구를 사용한 시나리오에서 51.0%의 점수를 달성했습니다. 수학 과제 AIME25에서 도구 없이 94.5%, 도구를 사용했을 때 99.1%, 그리고 무거운 도구를 사용했을 때 100.0%를 달성했습니다. 일반 지식 MMLU-Pro 점수는 84.6%에 달했습니다. 에이전트 검색 벤치마크 BrowseComp에서 60.2%, 프로그래밍 과제 SWE-bench Verified에서 71.3%, LiveCodeBenchV6에서 83.1%, Seal-0 에이전트 벤치마크에서 56.3%를 달성했습니다. 특히 주목할 만한 점은 BrowseComp-ZH와 같은 중국어 과제에서 62.3%의 점수를 기록했다는 점입니다. 이러한 성과는 복잡하고 다단계로 구성된 환경에서 이 모델의 신뢰성을 입증합니다. 실용적인 애플리케이션과 생태계 지원 모델은 Hugging Face에서 오픈 소스로 호스팅되며, OpenAI/Anthropic 호환 API를 지원하여 손쉽게 통합할 수 있습니다. 채팅이나 유틸리티 호출은 간단한 Python 코드로 구현할 수 있습니다. 예를 들어, 기본 채팅에서는 질문을 입력하면 모델이 추론 경로(reasoning_content)와 함께 답변을 출력합니다. 유틸리티 호출의 경우, 날씨 쿼리와 같은 함수를 정의하면 모델이 자동으로 호출 시점을 결정하고 여러 라운드를 반복하여 결과를 얻습니다. 라이선스는 수정된 MIT로, 상업적 사용은 가능하지만 오픈 소스 조건이 적용됩니다. Moonshot AI는 vLLM/SGLang과 같은 프레임워크에 대한 배포 가이드와 도구 사용 설명서도 제공하여 개발자가 빠르게 시작할 수 있도록 지원합니다. 전반적으로 이 모델은 지능형 에이전트 개발의 진입 장벽을 낮추어 AI를 실험실에서 프로덕션 환경으로 발전시킵니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용