X (Twitter)

¡Google Gemini 3 por fin ha llegado tras una larga espera! El modelo de IA más potente, con importantes avances en razonamiento, comprensión multimodal y capacidades de agente, alcanza un rendimiento de vanguardia casi universal. ¡Fue anunciado conjuntamente por el CEO de Google y el CEO/CTO de DeepMind! 1. El posicionamiento y la mejora general de Gemini 3 El modelo más potente de Google hasta la fecha, que supera significativamente a su predecesor Gemini 2.5 Pro, alcanza un rendimiento de vanguardia en casi todas las pruebas de referencia de IA convencionales. Las principales mejoras incluyen: • Mayor capacidad de razonamiento: Mejor comprensión de la intención del usuario, proporcionando respuestas más concisas, directas y perspicaces. Capacidades multimodales líderes: admite de forma nativa el procesamiento fluido de texto, imágenes, vídeo, audio y código. • Las capacidades de los agentes inteligentes se han mejorado enormemente: el modelo puede utilizar herramientas de forma autónoma, planificar tareas de varios pasos, operar terminales informáticas e incluso realizar simulaciones de toma de decisiones a largo plazo. • La ventana de contexto se amplía a 1 millón de tokens, lo que la hace adecuada para manejar documentos muy largos o conversaciones complejas. • Se ha añadido un nuevo modo, «Gemini 3 Deep Think», para mejorar aún más las capacidades de inferencia. Actualmente está disponible para evaluadores de seguridad y suscriptores de Google AI Ultra. 2. Datos clave de rendimiento El Gemini 3 Pro ocupó el primer lugar en la mayoría de las categorías: • Clasificación de preferencia de usuario de LMArena: 1501 Elo (N.° 1 general) El último examen de la humanidad (un rompecabezas de nivel experto superior): Modo normal 37,5%, Modo pensamiento profundo 41,0% • GPQA Diamante (Razonamiento Científico a Nivel de Doctorado): 91,9% en Modo Normal, 93,8% en Modo de Pensamiento Profundo • MMMU-Pro (Comprensión Gráfica Multimodal): 81% • Prueba de habilidad mutua de comprensión de vídeo (Video-MMMU): 87,6% • Verificado por SimpleQA (Precisión de los datos): 72,1% • SWE-bench verificado (Tarea real de ingeniería de software): 76,2% (significativamente superior a la generación anterior) • WebDev Arena (Capacidad de agente de desarrollo web): 1487 Elo (Primero) Terminal-Bench 2.0 (Uso de la herramienta Terminal): 54,2% • ARC-AGI-2 (Desafío de Razonamiento Abstracto Novedoso): Pensamiento Profundo + Modo de Ejecución de Código 45,1% 3. Ejemplos de aplicación práctica y aprendizaje: Subir recetas escritas a mano → Generar automáticamente libros de cocina casera con un diseño atractivo; Analizar documentos académicos → Generar tarjetas didácticas interactivas o gráficos visuales. • Creación y construcción: Genera poemas de reacción de fusión y animaciones visuales utilizando fórmulas físicas; crea rápidamente juegos 3D completos o arte voxel. • Planificación y agencia: Permitir que los modelos gestionen de forma autónoma las bandejas de entrada de Gmail y simulen las operaciones comerciales de las máquinas expendedoras durante muchos años y optimicen los ingresos. • Experiencia de búsqueda: Generar interfaces visuales inmersivas (como interpretaciones al estilo de revistas de las pinturas de Van Gogh) en el modo de IA de la Búsqueda de Google y admitir herramientas interactivas. 4. Disponibilidad y métodos de acceso • Usuarios regulares: La aplicación Gemini (móvil/web) se ha actualizado directamente a Gemini 3 y está disponible para todos de forma gratuita. • Funciones avanzadas: Los suscriptores de Google AI Pro/Ultra pueden usar un modo "Pensamiento" más potente en el modo de búsqueda con IA; el modo Pensamiento profundo está disponible primero para los usuarios Ultra. • Desarrolladores/empresas: Accesible a través de Google AI Studio, Vertex AI, Gemini API y Google Antigravity, con soporte para cadenas de herramientas de terceros (como Cursor y Replit). Esta es la primera vez que Google integra un modelo en su buscador el mismo día de su lanzamiento, lo que demuestra las ventajas de la distribución a gran escala. 5. Seguridad y responsabilidad Google destaca que Gemini 3 es su modelo de evaluación de seguridad más completo hasta la fecha: • Adopta el marco de seguridad fronteriza más reciente. • Colaborar con expertos y organizaciones externas de equipos rojos, como UK AISI, para realizar pruebas. • Mejora significativamente la resistencia a las vulnerabilidades de inyección, el uso indebido en ciberataques y otras amenazas. • La respuesta se centra más en “ideas reales” que en complacer a los usuarios.

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo