X (Twitter)

Joguei o Gemini 3 ontem através do acesso antecipado. Algumas impressões: Em primeiro lugar, costumo aconselhar cautela com benchmarks públicos, pois, na minha opinião, eles são bastante fáceis de manipular. Tudo se resume à disciplina e ao autocontrole da equipe (que, por sua vez, é fortemente incentivada a não fazer isso) para não sobreajustar os conjuntos de teste por meio de manipulações elaboradas em dados adjacentes aos conjuntos de teste no espaço de incorporação de documentos. Na realidade, como todos os outros estão fazendo isso, a pressão para fazer o mesmo é alta. Vá conversar com a modelo. Converse com as outras modelos (Siga o Ciclo LLM - use uma LLM diferente a cada dia). Tive uma impressão inicial muito positiva ontem em relação à personalidade, escrita, estilo de programação, humor, etc., um potencial muito sólido para uso diário, claramente uma LLM de primeira linha, parabéns à equipe! Nos próximos dias/semanas, estou bastante curioso e atento a uma avaliação conjunta de grupos focais em avaliações privadas, que muitas pessoas/organizações parecem estar criando para si mesmas e ocasionalmente divulgando aqui.

Thread de Andrej Karpathy (@karpathy)

Informações do autor

Conteúdo da thread