X (Twitter)

Ayer probé Gemini 3 con acceso anticipado. Algunas impresiones: En primer lugar, suelo recomendar precaución con los benchmarks públicos, ya que, en mi opinión, son fáciles de manipular. Todo se reduce a la disciplina y el autocontrol del equipo (que, por cierto, tiene fuertes incentivos para no hacerlo) para no sobreajustar los conjuntos de prueba mediante complejas manipulaciones de datos adyacentes en el espacio de incrustación de documentos. En realidad, dado que todos los demás lo hacen, la presión para hacerlo es alta. Habla con el modelo. Habla con los demás modelos (Sigue el ciclo LLM: usa un LLM diferente cada día). Ayer tuve una impresión muy positiva en cuanto a personalidad, escritura, conexión con el público, humor, etc. Tiene un gran potencial para ser un modelo de uso diario; sin duda, un LLM de primera categoría. ¡Enhorabuena al equipo! Durante los próximos días/semanas, tengo mucha curiosidad y estoy buscando un conjunto de herramientas para evaluaciones privadas, que muchas personas/organizaciones parecen estar creando para sí mismas y sobre las que ocasionalmente informan aquí.

Hilo de Andrej Karpathy (@karpathy)

Información del autor

Contenido del hilo