Google は最近、140 以上の言語をネイティブにサポートし、最小サイズが 270 MB の T5Gemma 2 マルチモーダル ロング コンテキスト エンコーダー/デコーダー モデルをオープンソース化しました。 Gemma 3 をベースにしており、コーディング、推論、事実分析、多言語処理、マルチモーダル処理、長文テキスト処理などのタスクにおいて、同サイズの Gemma 3 や第 1 世代の T5 Gemma よりも優れたパフォーマンスを発揮します。 T5Gemma 2 にはビジュアル エンコーダーが内蔵されており、画像ベースの質問応答や画像とテキストの混合推論が可能になります。 Gemma 3 のローカルおよびグローバル アテンション メカニズムを活用することで、一度に 128,000 トークンを処理でき、長いドキュメントや長い会話も処理できるようになります。 エンコーダー/デコーダー モデルは、シーケンス間のタスクに適しており、翻訳ツール、インテリジェントな顧客サービス システム、画像ベースの質疑応答システムなどの構築に使用できます。 #T5Gemma2 #googleGemma
モデルhuggingface.co/collections/go…Fu ブblog.google/technology/dev…iXci
