Joguei o Gemini 3 ontem através do acesso antecipado. Algumas impressões: Em primeiro lugar, costumo aconselhar cautela com benchmarks públicos, pois, na minha opinião, eles são bastante fáceis de manipular. Tudo se resume à disciplina e ao autocontrole da equipe (que, por sua vez, é fortemente incentivada a não fazer isso) para não sobreajustar os conjuntos de teste por meio de manipulações elaboradas em dados adjacentes aos conjuntos de teste no espaço de incorporação de documentos. Na realidade, como todos os outros estão fazendo isso, a pressão para fazer o mesmo é alta. Vá conversar com a modelo. Converse com as outras modelos (Siga o Ciclo LLM - use uma LLM diferente a cada dia). Tive uma impressão inicial muito positiva ontem em relação à personalidade, escrita, estilo de programação, humor, etc., um potencial muito sólido para uso diário, claramente uma LLM de primeira linha, parabéns à equipe! Nos próximos dias/semanas, estou bastante curioso e atento a uma avaliação conjunta de grupos focais em avaliações privadas, que muitas pessoas/organizações parecem estar criando para si mesmas e ocasionalmente divulgando aqui.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.