X (Twitter)

Mis notas sobre Géminis 3 # Versión corta: Antes que nada: ya han visto los resultados de las pruebas de rendimiento, así que no creo que sea necesario que dé mi opinión. Aun así, según mis pruebas, este modelo es de lo más fiable, y quiero hablar de él. Supera con creces a GPT-5 Pro, Gemini 2.5 Deep Think y a todos los demás en los problemas más difíciles. Es el nuevo SOTA en: → depuración de errores complejos del compilador → refactorizar archivos sin errores lógicos → resolución de problemas difíciles de cálculo laminar → Arte ASCII (¡ahora está casi decente!) → OU competitivo de tercera generación (no daré más detalles 😭) Sigue siendo un LLM, sin embargo. Tiene modos de fallo similares y, en algunos escenarios, es peor que Sonnet/GPT-5. Parece ser muy malo en: → inferir intención → no exagerar → codificación de vibras de un solo disparo → escritura creativa → preguntas de salud Además, sospecho que este punto de control no es el mejor que tiene Google. Ahora, pasemos a una descripción general completa de Gemini 3, escrita a mano. --- # Versión larga 1. Prueba de Vibración: Programación de Cálculo λ Me gusta esta prueba de vibración porque es a prueba de trampas: tan pronto como un modelo resuelve mi problema más difícil, simplemente creo uno más difícil, cambiando un poco las reglas del juego. Historial actual: → Mapa de n-tuplas: resuelto por Grok 3 (febrero de 2025) → n-tuple-fold: resuelto por GPT-5 (agosto de 2025) → n-tuple-rotl: resuelto por Gemini 3 (¡hoy!) Implementar rotl es impresionante, porque: → ningún otro modelo se acerca siquiera a resolverlo → La solución de Géminis es 2 veces más sencilla que la mía. → Gemini 3 lo resolvió 5 veces más rápido que yo De hecho, su solución es tan breve que cabe en una sola línea: λn.λt.λk.(tλx.(nλg.λh.(h(gλq.λr.λs.(q(rs))))λu.λf.(fx)λu.uk)) ¿Verdad que es bonito? Esta minúscula función es un rotador genérico para tuplas codificadas en λ. En comparación, todos los demás modelos crean un término cinco veces mayor... eso no funciona. Ningún otro modelo crea nada parecido. Esa respuesta me dejó boquiabierto. Publicaré un Gist con la solicitud y una solución ejecutable. 2. Depuración en el mundo real Hace unas semanas, me topé con un error difícil en HVM4. Publiqué sobre ello aquí, lamentando que ninguna IA pudiera resolverlo. Pues bien, resulta que una IA sí lo resolvió. Alguien logró ejecutar mi prompt en un punto de control antiguo mediante LMSys, y dio en el clavo: un desbordamiento negativo de pila en una optimización específica. La solución fue sencilla: reemplazar `WNF_SPOS < 0` por `WNF_SPOS < spos`. Esta fue la primera vez que una IA resolvió un problema real antes de que yo pudiera resolverlo por mi cuenta, y eso me permitió pasar al siguiente tema, lo que condujo a un gran progreso. He probado Gemini 3 con muchos mensajes de depuración antiguos y solucionó la mitad de ellos. ¡Errores que antes me llevaban horas, ahora los resuelve el ordenador en un minuto! Ahora, y lamentablemente: envié el problema de desbordamiento de pila al modelo Gemini 3 que se lanzó hoy, y no logró detectar la causa. Así que, o este modelo no es la variante más inteligente que tiene Google, o tuve muchísima suerte ese día. ): 3. Programación en el mundo real / Refactorización Este modelo es excelente para escribir archivos grandes sin errores. Por ejemplo, pedí a algunas IA que reescribieran HVM4.hs con algunos cambios importantes. Luego examiné las funciones más complejas. Como era de esperar, todos los modelos fallaron en detalles cruciales que provocaron errores graves, excepto Gemini 3, que lo hizo a la perfección. Esto me resulta especialmente alentador, ya que los modelos presentaban problemas con restricciones específicas como la linealidad, lo que los hacía inutilizables para las funciones básicas de HVM. Gemini 3 parece ser extremadamente competente en este aspecto. (Código en la imagen de abajo.) 4. Problemas y peculiaridades Le pedí a Gemini 3 que compilara una aplicación web de una sola vez, y el resultado fue deficiente. GPT-5.1 (alta calidad) me entregó un archivo completo, con todo lo que le solicité y sin errores. Gemini 3 me entregó un archivo tres veces más pequeño, con muchísimas funciones faltantes y numerosos errores. No logré que Gemini 3 compilara un archivo de una sola vez con una calidad comparable a la de GPT-5.1. También le envié mi prueba de detección de meningitis, y la descartó por completo (💀). No estoy segura de que confiaría en ella para temas de salud. Le pedí que escribiera una historia y fue mala. Sin excusas. Con frecuencia se excede y escribe archivos completos en lugar de simplemente reparar los agujeros. ¿Parece incluso más lento que GPT-5 (alta) en la CLI de Gemini, aunque es mucho más rápido cuando se le llama directamente? Por último, y curiosamente, tiene dificultades para generar código incorrecto cuando el contexto lo requiere. Por ejemplo, si tu tipo tiene una instancia genérica de "Mostrar" y le pides que cree una personalizada, a menudo tendrá problemas, porque técnicamente eso sería un error. ¡No entiende que simplemente eliminarías la anterior después! 5. Conclusión Basta de escribir, adiós

El problema de la n-tupla-rgist.github.com/VictorTaelin/1…4quGTOy El error de HVM4 de hace unagist.github.com/VictorTaelin/a…co/TZwlZ264VI La respuesta correcta es: - problema: `desbordamiento inferior de pila` - solución: `WNF_SPOS > spos` Lithiumflow lo solucionó, pero Gemini 3 no :( ¿Existe algún modelo público que pueda resolverlo?

Obviamente, esto es solo el primer día, así que tómenlo con cautela, sobre todo en las partes que menos he probado. Dicen que es genial para la escritura creativa y también para la salud. ¿Será cierto? ¡Los problemas para inferir la intención son totalmente reales!

Hilo de Taelin (@VictorTaelin)

Información del autor

Contenido del hilo