GLM-4.6V 実世界テスト!ToolCall を使って大規模モデルで何ができるでしょうか? GLM-4.6Vの実世界テストをご紹介します!GLM-4.6Vはエージェント/MCP機能をサポートしているため、PDFを使用したテキストや画像の書き込み、画面録画を使用したウェブサイトの再構築、フードデリバリーのレシート認識など、テストシナリオを拡張しました。 テスト結果を直接見てみましょう: 最初のテストはテイクアウトのレシートでした。複数のテイクアウトレシートをアップロードし、モデルに何を食べたか、いくら支払ったかを計算し、潜在的なアレルゲンを特定するよう指示しました。このテストは完璧に合格しました。その後のテストでも、GLM-4.6VのOCR機能は最も優れた機能であり、OCRシナリオに完璧に対応できることが証明されました。 次は、新しくアップデートされたPDFビジュアルレポートエージェントのテストです。このテストではPDFをアップロードし、モデルはスクリーンショットエージェントを使用してPDFの内容を要約し、スクリーンショットを含むリッチテキストを生成します。このテストでは、AIはシンプルなレイアウトのPDFを問題なく処理し、画像の抽出に成功しました。しかし、今回のモデル作成に使用した雑誌のPDFのように、複雑な形式のPDFでは、個々の画像を抽出するのではなく、ページ全体を画像として出力しました。 #GLM #GLM46V #ZhipuAI #VLM #Zhipu
次に、画面録画から動的なウェブサイトを生成するテストを行いました。このテストでは、OCR機能は非常に良好で、ウェブページ内のテキストは再現できましたが、テキストアニメーションは再現できませんでした。対象を絞ったトレーニングが必要であると推測されます。 次に、キリンとカモシカの画像を用いたオブジェクトラベリングテストが行われました。この画像は、多くの妨害要因があるため、慎重に選択されました。例えば、右側のキリンは2つの首がほぼ重なり合っており、誤認しやすい状態です。また、その下の2頭のカモシカはキリンに隠れていますが、頭と尾は繋がっています。モデルが哺乳類の体構造を理解できない場合、誤認しやすい状態です。このテストでは、キリンは完璧に識別されましたが、カモシカ1頭を見逃しました。これは、このテストを実施できなかった従来のGLM-4.5Vと比較して改善された点です。 次はウェブサイトのシミュレーションテストです。しかし、皆さんも従来のウェブサイトシミュレーションには飽き飽きしていると思いますので、今回は化学実験の画像を使って難易度を上げました。GLM-4.6Vを使い、three.jsを使って化学実験をモデル化し、シミュレーションを行いました。水電気分解実験は問題なく実行され、バッテリー以外はすべて正しく再現されました。次に、加熱して酸素を発生させるという複雑なシーンが登場しました。ここで重要なのは、実験器具はすべて再現されていたものの、空間的な位置が間違っていたことです。とはいえ、これは大型の頭部モデルでも難しいテストなので、仕方がないかもしれません。
最後に、知識テストがありました。マルチメーターの画像を与え、GLM-4.6Vに大型モデルでバッテリー容量をどのようにテストするかを尋ねました。これもGLM-4.6Vにとって問題ありませんでした。これはGLM-4.6Vのもう一つの大きな利点です。十分なパラメータがあれば、優れた知識が得られます。以前、GLM-4.5Vでテストした際には、麻雀の役を判別することさえできました。 まとめると、数ヶ月前のGLM-4.5Vと比較して、このバージョンでは継続的なパフォーマンス向上が見られ、これまで不可能だったテストが可能になっただけでなく、エージェント/MCP機能が追加され、ツールを用いたタスクの完了が可能になり、モデルの適用シナリオが大幅に拡大しました。ただし、テストにおける複雑なシナリオにはさらなる改良が必要です。次回のアップデートにご期待ください。 さらに、Zhipu は GLM コーディング プランに GLM-4.6V も含め、価格が GLM-4.5V の半分になったため、マルチモーダル プログラミング タスクがはるかに使いやすくなりました。 #GLM #GLM46V #ZhipuAI #VLM









