申し訳ございませんが、特大サイズのみの取り扱いとなります。GLM-4.7 でテスト済みです。 このテストでは、GLM-4.7 のプログラミング機能、エージェント/ツールコール機能、およびロングコンテキストリコール機能がカバーされ、新しくリリースされた GLM 4.7 のテスト結果が示されました。 エージェントの能力を検査するシリコンベースのライダーテストでは、大型モデルにツールを使用してライダーが食べ物を受け取ったり配達したりする様子をシミュレートするだけです。 GLM 4.7は、24時間、300ラウンドのエクストリームフードデリバリーテストで571.91元の収益を達成し、合計354回のツールコールを実行しました。このテストはコンテキスト空間の約50%を使用し、10万回を超えた時点で動作を停止しました。 エージェント テストでは、モデルの単一セッション内で複数のツール呼び出しを開始できる機能により、新たな高効率が達成され、時間が節約され、最も有益なソリューションを選択できるようになりました。 次にホグワーツテストがあります。これは、長い文脈から情報を思い出す能力を測るテストです。簡単に言うと、長い文脈の中で文脈を記憶し、質問に正確に答える能力を測るテストです。 GLM 4.7 は、192K 未満の注文では 91% ~ 100%、200K 未満の注文では 95% のリコール率を達成し、非常に優れたリコール パフォーマンスを示しました。 最後に、プログラミング能力テストについてですが、最大のポイントはパーティクルエフェクト、モデリング、ライティングの改善、特に空間表現力の大幅な向上です。もちろん、パフォーマンスの問題はまだ残っていますが、次期バージョンでは生成されたコードのパフォーマンス最適化に重点が置かれることを期待しています。 まとめると、GLM 4.7はあらゆる面で大幅な改善を示しており、主要なプログラミングモデルとして間違いなく最適です。LMArenaやSWE-benchなどのプログラミングテストにおいて、最先端(SOTA)のパフォーマンスを達成しています。 しかし、テスト中にAPIの速度が一定ではなく、速い時もあれば遅い時もあったことに気づきました。これは、皆さんが新しいバージョンを使用しているためでしょうか?公式チームがすぐにマシンを追加してくれることを期待しています。 #GLM47 #ZhipuAI #ZhipuGLM #AIAgent #AIプログラミング #LargeModel #オープンソース #KCORESLargeModelArena
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。