방금 최신 SWE-Benchverified 테스트 결과를 확인했는데, MiniMax-M2가 오픈웨이트 모델 중 가장 높은 점수를 받았습니다! Minimax M2는 현재 오픈소스 모델 중 최고로 손꼽히며, 매우 강력한 에이전트 기능을 갖추고 있습니다. 하지만 공식 문서에 따르면 테스트에 많은 토큰이 소모되었다고 합니다. 그럼에도 불구하고, 200단계 이상의 긴 작업 처리 능력은 매우 뛰어나며 안정성을 유지합니다. Deepseek v3.2 Reasoning 버전은 매우 저렴한 가격으로 두 번째로 인기가 많은데, 다소 느린 편입니다. 급하지 않다면 가격 대비 성능이 매우 뛰어납니다. 약 100단계만 거치면 훌륭한 결과를 얻을 수 있습니다. GLM 4.6은 이번 버전에서 빠른 속도, 저렴한 가격, 그리고 뛰어난 성능을 제공하여 가성비 측면에서 최고의 성능을 자랑합니다. qwen3 coder 480b a35b와 비슷한 성능을 보이지만, 응답 속도가 훨씬 빠릅니다. 전반적으로 오픈소스 모델은 매우 빠르게 발전하고 있습니다. Gemini 3 Pro나 Claude 4.5 Opus와 같은 폐쇄형 소스 모델보다는 아직 뒤처져 있지만, 주요 상용 모델들을 꾸준히 따라잡고 있습니다. #SWEBench #AIEvaluation #LargeModel #Minimax #DeepSeek #GLM #OpenSourceModel #AIPerformance #CodeGeneration
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
