DeepSeek에서 새로운 모델인 DeepSeek-V3.2-Speciale을 출시했습니다! 점수로 판단하건대, DeepSeek-V3.2-Exp의 최적화된 버전입니다. 수학 시험의 AIME25 점수는 99.2%에 도달했는데, 이는 이미 엄청난 수치입니다. SWE-Bench Verified 점수도 73.1점을 기록했는데, 이는 Claude-Sonnet-4.5의 77.2점과는 여전히 차이가 있습니다. 이번 릴리스의 주요 내용을 요약해 보겠습니다. 가장 중요한 점은 DeepSeek이 자체적으로 최적화된 희소 어텐션 메커니즘을 구현했다는 것입니다. 희소 어텐션은 긴 컨텍스트를 최적화하는 데 사용되며, 매우 긴 컨텍스트에서도 리소스를 절약하면서 우수한 성능을 발휘합니다. 기본 컨텍스트 길이는 163K로 단축되었습니다. 둘째, 가장 중요한 것은 대규모 에이전트 작업 데이터의 합성이라고 생각합니다. 대규모 모델의 진화 속도에 가장 큰 제약은 학습 자료입니다. 수동으로 생성된 자료는 더 이상 대규모 모델을 학습하는 데 충분하지 않습니다. DeepSeek은 에이전트 작업 학습 데이터를 자동으로 합성하는 방법을 모색했는데, 이는 단기간에 대규모 모델의 성능을 빠르게 향상시키는 데 중요한 역할을 합니다. 확장 가능한 강화 학습 프레임워크도 언급했습니다. 하지만 모델 카드 설명에는 구체적인 내용이 나와 있지 않습니다. 기술 보고서는 아직 업로드되지 않았지만, 업로드되면 자세한 설명을 제공하겠습니다. 그리고 지금 테스트 중이에요! 나중에 DeepSeek-V3.2-Speciale의 프로그래밍 기능에 대한 실제 테스트를 보여드릴게요!
성능 매개변수 / 2
성능 매개변수 / 3











