X (Twitter)

次に、画面録画から動的なウェブサイトを生成するテストを行いました。このテストでは、OCR機能は非常に良好で、ウェブページ内のテキストは再現できましたが、テキストアニメーションは再現できませんでした。対象を絞ったトレーニングが必要であると推測されます。次に、キリンとカモシカの画像を用いたオブジェクトラベリングテストが行われました。この画像は、多くの妨害要因があるため、慎重に選択されました。例えば、右側のキリンは2つの首がほぼ重なり合っており、誤認しやすい状態です。また、その下の2頭のカモシカはキリンに隠れていますが、頭と尾は繋がっています。モデルが哺乳類の体構造を理解できない場合、誤認しやすい状態です。このテストでは、キリンは完璧に識別されましたが、カモシカ1頭を見逃しました。これは、このテストを実施できなかった従来のGLM-4.5Vと比較して改善された点です。次はウェブサイトのシミュレーションテストです。しかし、皆さんも従来のウェブサイトシミュレーションには飽き飽きしていると思いますので、今回は化学実験の画像を使って難易度を上げました。GLM-4.6Vを使い、three.jsを使って化学実験をモデル化し、シミュレーションを行いました。水電気分解実験は問題なく実行され、バッテリー以外はすべて正しく再現されました。次に、加熱して酸素を発生させるという複雑なシーンが登場しました。ここで重要なのは、実験器具はすべて再現されていたものの、空間的な位置が間違っていたことです。とはいえ、これは大型の頭部モデルでも難しいテストなので、仕方がないかもしれません。

最後に、知識テストがありました。マルチメーターの画像を与え、GLM-4.6Vに大型モデルでバッテリー容量をどのようにテストするかを尋ねました。これもGLM-4.6Vにとって問題ありませんでした。これはGLM-4.6Vのもう一つの大きな利点です。十分なパラメータがあれば、優れた知識が得られます。以前、GLM-4.5Vでテストした際には、麻雀の役を判別することさえできました。まとめると、数ヶ月前のGLM-4.5Vと比較して、このバージョンでは継続的なパフォーマンス向上が見られ、これまで不可能だったテストが可能になっただけでなく、エージェント/MCP機能が追加され、ツールを用いたタスクの完了が可能になり、モデルの適用シナリオが大幅に拡大しました。ただし、テストにおける複雑なシナリオにはさらなる改良が必要です。次回のアップデートにご期待ください。さらに、Zhipu は GLM コーディングプランに GLM-4.6V も含め、価格が GLM-4.5V の半分になったため、マルチモーダルプログラミングタスクがはるかに使いやすくなりました。 #GLM #GLM46V #ZhipuAI #VLM

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容