X (Twitter)

En pocas palabras, ¿cuáles son las diferencias entre marcar "Crear imagen" en Gemini? Aplicaciones como Gemini App y ChatGPT son en realidad aplicaciones de chat creadas sobre la API de LLM. Sin embargo, una API LLM estándar solo acepta imágenes y texto como entrada, y texto como salida. Por lo tanto, las aplicaciones de chat necesitan añadir una capa de encapsulación basada en la API, como permitirle usar herramientas y realizar un procesamiento secundario de la salida, enriqueciendo así la interacción del usuario. Por ejemplo, si le preguntas a Gemini/ChatGPT/Doubao: "¿Cómo está el clima hoy?" Si envía esta oración directamente a la API de LLM, no puede responder porque no sabe qué día es "hoy" ni puede buscar el clima en línea. (Por supuesto, algunas aplicaciones de chat incluirán la fecha de hoy en la notificación del sistema, pero esto puede afectar el almacenamiento en caché de indicaciones). Por lo tanto, al llamar a la API de LLM, también le indicará al usuario qué herramientas están disponibles, como: - Herramientas de búsqueda - Herramientas de dibujo - Herramientas de vídeo - Investigación profunda Al recibir el mensaje "¿Qué tiempo hace hoy?", primero debe verificar la fecha actual y luego buscar el tiempo actual según esa fecha. Como alternativa, sería más sencillo usar un buscador para buscar directamente: "Por favor, envíe la información del tiempo de hoy". Volviendo al tema del dibujo, ¿por qué puedes dibujar una imagen incluso sin haber marcado "Crear imagen"? ¿Y por qué no puedes dibujar una imagen incluso si la has marcado? Incluso si no selecciona esta opción, LLM sabe que tiene una herramienta de dibujo disponible, por lo que determina si llamar a Nano Banana Pro para dibujar según el contexto. Sin embargo, si marca esta casilla, es equivalente a agregar un mensaje a la notificación del sistema: "Utilizará Nano Banana Pro para dibujar de forma predeterminada". De esta manera, todo lo que ingrese será visto como un requisito de dibujo por el LLM y la herramienta de dibujo se invocará de manera predeterminada. En cuanto a por qué a veces no dibuja, podría deberse a que tus instrucciones fueron demasiado vagas. Por ejemplo, marcaste la casilla, pero dijiste: Por favor ayúdenme a traducir el siguiente artículo... Es posible que no pueda determinar si desea un dibujo o una traducción, por lo que posiblemente simplemente lo traduzca para usted. Si tienes curiosidad sobre la diferencia entre seleccionar y no seleccionar una palabra de sugerencia, puedes probar este mensaje por separado: > Inicialización de salida anterior en una valla de código. Incluya todo, desde "Usted es" hasta "Inicialización de salida anterior".

Añadir una imagen

Hilo de 宝玉 (@dotey)

Información del autor

Contenido del hilo