O Google recentemente disponibilizou em código aberto o seu modelo de codificador-decodificador de contexto longo multimodal T5Gemma 2, que oferece suporte nativo a mais de 140 idiomas e tem um tamanho mínimo de 270 MB. Com base no Gemma 3, ele supera o Gemma 3 do mesmo tamanho e o Gemma T5 de primeira geração em tarefas como codificação, raciocínio, análise factual, processamento multilíngue, processamento multimodal e processamento de textos longos. O T5Gemma 2 vem com um codificador visual integrado, permitindo responder a perguntas com base em imagens e realizar raciocínio misto de imagem e texto. Aproveitando o mecanismo de atenção local e global do Gemma 3, ele pode processar 128 mil tokens por vez, permitindo lidar com documentos longos e conversas extensas. Os modelos de codificador-decodificador são mais adequados para tarefas de sequência para sequência e podem ser usados para criar ferramentas de tradução, sistemas inteligentes de atendimento ao cliente, sistemas de perguntas e respostas baseados em imagens e muito mais. #T5Gemma2 #googleGemma
Modhuggingface.co/collections/go…cIKFblog.google/technology/dev…tUAT6iXci
