Google ha publicado recientemente el código abierto de su modelo de codificador-decodificador de contexto largo multimodal T5Gemma 2, que admite de forma nativa más de 140 idiomas y tiene un tamaño mínimo de 270 MB. Basado en Gemma 3, supera al Gemma 3 del mismo tamaño y al T5 Gemma de primera generación en tareas como codificación, razonamiento, análisis factual, procesamiento multilingüe, procesamiento multimodal y procesamiento de textos largos. El T5Gemma 2 viene con un codificador visual incorporado, que permite responder preguntas basadas en imágenes y razonamiento mixto imagen-texto. Aprovechando el mecanismo de atención local y global de Gemma 3, puede procesar 128.000 tokens a la vez, lo que le permite gestionar documentos largos y conversaciones largas. Los modelos codificador-decodificador son más adecuados para tareas de secuencia a secuencia y se pueden utilizar para crear herramientas de traducción, sistemas inteligentes de atención al cliente, sistemas de preguntas y respuestas basados en imágenes, y más. #T5Gemma2 #googleGemma
Modhuggingface.co/collections/go…cIKFblog.google/technology/dev…tUAT6iXci
