X (Twitter)

대형 모델을 매달 업데이트하는 게 요즘 유행인가요? MiniMax-M2.1 실사용 테스트! MiniMax-M2.1 베타 테스트 신청이 승인되었습니다. MiniMax M2.1 테스트 결과는 다음과 같습니다. MiniMax-M2와 비교했을 때, 이 테스트는 프로그래밍, 에이전트 기능 및 장기 컨텍스트 기억 기능에서 상당한 개선을 보여줍니다. 특히 에이전트 기능과 장기 컨텍스트 기억 기능은 압도적으로 우수하여, 이를 MiniMax-M3라고 부르는 것이 과언이 아닙니다. 24시간 동안 300회 반복된 실리콘 기반 배달원 테스트(대형 모델이 배달 도구를 호출하여 음식을 배달하는 방식)에서 MiniMax M2.1은 총 392회의 도구 호출을 실행하여 419.77위안의 수익을 올렸습니다. 이 테스트는 컨텍스트 공간의 약 56%를 활용했으며, 해당 범위 내에서 도구 호출은 우수한 성능을 보였습니다. 이에 비해 MiniMax M2는 285.27위안의 수익을 올렸지만, 도구 호출을 중단하고 위의 과정을 반복하기 전에 컨텍스트 공간의 32%만 사용했습니다. MiniMax-M2.1은 192K 길이의 컨텍스트에서 94%의 리콜률을 자랑하는 반면, MiniMax-M2는 52%에 불과했습니다. 이는 획기적으로 개선된 수치입니다. 다른 여러 익숙한 프로그래밍 기술 테스트에서도 다양한 수준의 개선이 나타났습니다. 이 새로운 모델은 특히 대규모 에이전트 작업에 적합하며, 이러한 요구 사항이 있는 분들은 사용해 보시기 바랍니다. #미니맥스 #미니맥스M21 #AI코딩 #ai에이전트 #KCORES 대형모델아레나

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용