大規模モデルを毎月アップデートするのが流行り? MiniMax-M2.1を実世界テスト中! MiniMax-M2.1ベータテストの申請が承認されました。MiniMax M2.1のテスト結果は以下の通りです。 MiniMax-M2と比較すると、プログラミング能力、エージェント能力、ロングコンテキスト想起能力において大幅な向上が見られました。特にエージェント能力とロングコンテキスト想起能力は圧倒的に優れており、MiniMax-M3と呼んでも過言ではありません。 MiniMax M2.1は、24時間300ラウンドのシリコンベース配達ライダーテスト(大型モデルがツールを呼び出して食べ物を配達するテスト)において、合計392回のツール呼び出しを実行し、419.77元を獲得しました。このテストではコンテキスト空間の約56%が使用され、その中でツール呼び出しは良好なパフォーマンスを示しました。 それに比べて、MiniMax M2は285.27元の利益を生み出しましたが、ツールの呼び出しを停止して上記を繰り返し行う前に、コンテキスト空間の32%しか使用しませんでした。 MiniMax-M2.1は、192Kの長さのコンテキストにおいて94%の再現率を誇ります。一方、MiniMax-M2はわずか52%でした。これは劇的な改善です。 他にも、いくつかの一般的なプログラミングスキルテストでも、様々な程度の改善が見られました。この新しいモデルは、特に大規模なエージェントタスクに適しています。そのようなニーズをお持ちの方は、ぜひお試しください。 #MiniMax #MiniMaxM21 #AIコーディング #aiagent #KCORES大規模モデルアリーナ
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。