Joguei o Gemini 3 ontem através do acesso antecipado. Algumas impressões: Em primeiro lugar, costumo aconselhar cautela com benchmarks públicos, pois, na minha opinião, eles são bastante fáceis de manipular. Tudo se resume à disciplina e ao autocontrole da equipe (que, por sua vez, é fortemente incentivada a não fazer isso) para não sobreajustar os conjuntos de teste por meio de manipulações elaboradas em dados adjacentes aos conjuntos de teste no espaço de incorporação de documentos. Na realidade, como todos os outros estão fazendo isso, a pressão para fazer o mesmo é alta. Vá conversar com a modelo. Converse com as outras modelos (Siga o Ciclo LLM - use uma LLM diferente a cada dia). Tive uma impressão inicial muito positiva ontem em relação à personalidade, escrita, estilo de programação, humor, etc., um potencial muito sólido para uso diário, claramente uma LLM de primeira linha, parabéns à equipe! Nos próximos dias/semanas, estou bastante curioso e atento a uma avaliação conjunta de grupos focais em avaliações privadas, que muitas pessoas/organizações parecem estar criando para si mesmas e ocasionalmente divulgando aqui.
Minha interação mais divertida foi quando o modelo (acho que me deram uma versão antiga com um prompt de sistema desatualizado) se recusou a acreditar que estávamos em 2025 e continuou inventando motivos para dizer que eu devia estar tentando enganá-lo ou pregando alguma peça elaborada. Eu continuava mostrando imagens e artigos "do futuro" e ele insistia que tudo era falso. Me acusou de usar IA generativa para burlar seus desafios e argumentou por que verbetes reais da Wikipédia eram gerados automaticamente e quais eram as "provas óbvias". Ele destacou pequenos detalhes quando mostrei resultados da Busca de Imagens do Google, argumentando que as miniaturas eram geradas por IA. Depois, percebi que tinha esquecido de ativar a ferramenta "Busca do Google". Ao ativá-la, o modelo pesquisou na internet e teve uma revelação chocante: eu devia estar certo o tempo todo :D. É nesses momentos inesperados, quando você está claramente fora dos trilhos e perdido na selva das generalizações, que você consegue sentir melhor o cheiro do modelo.
