또한, 72B 모델을 컨텍스트 제한 없이 사용하여 음식을 배달하는 극단적인 테스트가 수행되었습니다. 이 모델은 최종적으로 202회의 도구 호출을 수행하여 총 1,270만 개의 토큰을 소비하고, 11건의 주문을 완료하여 211.12를 획득했습니다. 202회의 도구 호출 중 단 한 건만 API 위반(즉, 잘못된 메서드 호출)을 발생시켰으며, 이는 72B 모델이 매우 긴 컨텍스트에서도 탁월한 리콜 성능과 도구 호출 기능을 유지함을 보여줍니다. 요약하자면, 72B는 복잡한 에이전트 작업에서 가장 우수한 성능을 보이고, 8B는 리소스 효율성에서 탁월하며, 30B는 실행 측면에서 개선이 필요합니다. 특히 연구 에이전트 시나리오에서 많은 도구를 사용해야 하는 경우, MiroThinker 시리즈 모델을 사용해 보는 것이 좋습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.

