X (Twitter)

MiroThinker v1.0은 다른 테스트 세트에서도 인상적인 성능을 보였습니다. ① HLE 최종 인체 테스트: 정확도 37.7%, Python + 검색 도구를 사용한 GPT-5-high의 정확도 35.2%를 넘어섬. ② BrowseComp-ZH: DeepSeek-v3.2보다 7.7퍼센트 포인트 더 뛰어납니다. 기본적으로 GPT, Grok, Claude와 같은 상위 모델과 동등하며, 최상위 계층에 속합니다. 이 팀의 "심층적 상호작용 확장"이라는 개념은 매우 흥미롭습니다. 더 많은 데이터 + 더 큰 매개변수 = 더 강력한 모델이라는 기존의 스케일링 법칙이 이제 한계에 다다르고 있습니다. 심층적 상호작용 확장 법칙: 에이전트와 환경 간의 상호작용 깊이와 폭을 확장하여 추론 및 의사 결정 능력을 지속 가능하게 향상시킵니다. 간단히 말해, Aget은 지속적으로 "시행착오"를 겪고 환경에 "반영"할 수 있습니다. 반복 횟수가 많을수록 모델은 더욱 스마트해집니다. 이 전략은 "컨텍스트 길이"와 "효과적인 상호작용 라운드 수"에 대한 기존 LLM의 한계를 극복할 수 있습니다. MiroThinker 기본 모델은 완전한 오픈 소스 아키텍처를 재사용하여 모든 모델 가중치, 툴체인, 상호작용 프레임워크를 사용할 수 있도록 합니다. 이 오픈소스 프로젝트는 전 세계의 개발자와 연구자들에게 좋은 소식입니다. 온라인 데모를 시도해 보세요:

向阳乔木(@vista8)의 스레드

작성자 정보

스레드 내용