Zhipu は、GLM-4.6V をオープンソース化したばかりですが、その中核機能は「画像の解釈」を「画像に基づいた動作」に変換することです。 これまで、マルチモーダルモデルは主に画像コンテンツを記述していました。GLM-4.6Vでは、ツール呼び出しをビジュアルモデルに直接統合し、画像自体をコマンドパラメータとして利用します。 例えば、街頭写真を与えると、画像検索/価格比較 API を自動的に呼び出し、ソース、価格、商品のサムネイル、一致度と相違点、購入リンクの情報を含むショッピング ガイドを返します。 また、フロントエンドのレプリケーションも備えており、デザインの下書きがあれば、ピクセルパーフェクトな高品質の HTML/CSS/JS コードを生成し、スクリーンショットによる複数回の微調整をサポートします。 2つのバージョン: GLM-4.6V(106B-A12B)、高性能クラウドバージョン GLM-4.6V-Flash (9B)、ローカル低遅延バージョン、無料で使用可能。 128kのビジュアルコンテキストをサポートすることは、財務報告書全体、ゲーム全体、あるいは取扱説明書全体を1つのファイルにまとめるようなものです。また、ページ間やカメラ間での比較や要約も可能になり、スクリーンショットを何度も撮影したり、データを断片的に入力したりする手間が省けます。 GLM-4.6Vの価格はGLM-4.5Vより50%安くなっています。API呼び出し料金は、入力トークン100万トークンあたり1元、出力トークン100万トークンあたり3元です。 #GLM46V #スマートスペクトラムGLM
GitHub:github.com/zai-org/GLM-V1 ハグフェイス: httphuggingface.co/collections/za…daコミュニmodelscope.cn/collections/GL…02QC 技術ブロz.ai/blog/glm-4.6vsYA