거의 모든 대형 모델은 매우 유용한 "심층 연구" 기능을 제공합니다. OpenAI는 심층적인 연구 역량을 테스트하기 위해 BrowseComp라는 데이터 세트를 설계했는데, 이는 엄청나게 어려운 작업입니다. 실제 사람이 2시간 안에 끝낼 수 없는 경우 포기율은 70.8%에 달합니다. 총 1,266개의 질문이 있었고, OpenAI Deep Research는 51.5%의 정확도만을 달성했습니다. 오픈소스 에이전트 기반 모델인 MiroThinker v1.0은 이 테스트에서 47.1%의 정확도를 달성했습니다. "심층 연구" 유형의 에이전트 상품을 개발하거나 배우고 싶다면. 강력 추천합니다! Huggingface와 GitHub에서 오픈 소스로 공개되었고, 완전 무료입니다! 모델: 허깅페이스: https://t.co/f8LVh2Zkmz 해당 모델과 논문은 GitHub에서 확인할 수 있습니다: https://t.co/KTPC2PnxDO 대리인:
MiroThinker v1.0은 다른 테스트 세트에서도 인상적인 성능을 보였습니다. ① HLE 최종 인체 테스트: 정확도 37.7%, Python + 검색 도구를 사용한 GPT-5-high의 정확도 35.2%를 넘어섬. ② BrowseComp-ZH: DeepSeek-v3.2보다 7.7퍼센트 포인트 더 뛰어납니다. 기본적으로 GPT, Grok, Claude와 같은 상위 모델과 동등하며, 최상위 계층에 속합니다. 이 팀의 "심층적 상호작용 확장"이라는 개념은 매우 흥미롭습니다. 더 많은 데이터 + 더 큰 매개변수 = 더 강력한 모델이라는 기존의 스케일링 법칙이 이제 한계에 다다르고 있습니다. 심층적 상호작용 확장 법칙: 에이전트와 환경 간의 상호작용 깊이와 폭을 확장하여 추론 및 의사 결정 능력을 지속 가능하게 향상시킵니다. 간단히 말해, Aget은 지속적으로 "시행착오"를 겪고 환경에 "반영"할 수 있습니다. 반복 횟수가 많을수록 모델은 더욱 스마트해집니다. 이 전략은 "컨텍스트 길이"와 "효과적인 상호작용 라운드 수"에 대한 기존 LLM의 한계를 극복할 수 있습니다. MiroThinker 기본 모델은 완전한 오픈 소스 아키텍처를 재사용하여 모든 모델 가중치, 툴체인, 상호작용 프레임워크를 사용할 수 있도록 합니다. 이 오픈소스 프로젝트는 전 세계의 개발자와 연구자들에게 좋은 소식입니다. 온라인 데모를 시도해 보세요:

