X (Twitter)

¿Cómo manejan la “memoria” las principales aplicaciones de IA? • ChatGPT: Inyección completa y resumen ligero: un socio más considerado • Claude: Recuperación bajo demanda y acceso a herramientas: un asistente más potente @manthanguptaa realizó una investigación en profundidad sobre los mecanismos de gestión de memoria y contexto de ChatGPT y Claude a través de "ingeniería inversa" y descubrió inesperadamente dos esquemas completamente diferentes: "inyección de precomputación" (ChatGPT) y "herramienta de recuperación a pedido" (Claude). Esquema de memoria de ChatGPT: inyección completa y resumen ligero La lógica básica de ChatGPT es incluir tus antecedentes y un resumen reciente en cada conversación. No depende de que el modelo "piense" si debe buscar información de memoria; en cambio, el sistema inserta automáticamente la información relevante en cada mensaje. Arquitectura central (estructura de 4 capas) 1. Metadatos de sesión [temporales] • Contenido: tipo de dispositivo, navegador, ubicación aproximada, zona horaria, nivel de suscripción e incluso sus hábitos de uso (como la profundidad promedio de conversación y los modelos comúnmente utilizados). • Características: Inyección única, que se destruye al finalizar la sesión. Permite al modelo ajustar sus respuestas según el entorno (como el modo oscuro o el tamaño de la pantalla) durante la conversación, pero no las almacena en la memoria a largo plazo. 2. Memoria de usuario [a largo plazo] • Contenido: Datos claros. Por ejemplo: "Me llamo Manthan", "Soy programador", "No me gusta el cilantro". Mecanismo: Hay una herramienta dedicada para agregar, eliminar y modificar datos. Si dices: "Recuerda que me llamo X", se guardarán. El sistema también capturará automáticamente datos clave basados en la conversación y solicitará su almacenamiento. • Uso: Estos hechos se registrarán como un "archivo" mantenido por el sistema, y cada conversación se inyectará íntegramente en el Prompt. 3. Resumen de conversaciones recientes [entre conversaciones] • Contenido: Esto es lo que hace a ChatGPT verdaderamente único. En lugar de recuperar conversaciones pasadas completas, precalcula resúmenes breves de las 10 a 15 conversaciones más recientes (formateadas como: marca de tiempo: título || fragmento de lo que dijo el usuario). • Características: Solo incluye resúmenes de publicaciones de usuarios, no respuestas de IA. Esto funciona como un "mapa de intereses", que permite al modelo saber qué te interesa actualmente sin consumir grandes cantidades de tokens para leer publicaciones completas. 4. Contenido de la ventana de sesión actual: un registro completo de la conversación actual, hasta el límite de tokens. El esquema de memoria de Claude: recuperación a demanda y acceso a herramientas La solución de Claude es más bien como un "especialista con un motor de búsqueda". No conserva el historial de conversaciones previas por defecto; solo "busca mensajes antiguos" cuando los necesitas. Arquitectura central 1. Memoria de usuario [a largo plazo] • Contenido: Similar a ChatGPT, almacena datos clave (nombre, ocupación, preferencias, etc.). • Formato: inyectado en el indicador del sistema en formato XML (...). • Mecanismo: Admite actualizaciones de fondo implícitas y edición explícita por parte del usuario. 2. Contenido de la sesión actual: un registro completo de la conversación actual. 3. Herramientas de búsqueda histórica [Diferencias principales] Claude no incluye automáticamente resúmenes de diálogos anteriores en el Prompt. En su lugar, incluye dos herramientas específicas que el modelo decide automáticamente cuándo invocar: • conversation_search: busca conversaciones pasadas según palabras clave o temas. • recent_chats: recupera una lista de conversaciones recientes en orden cronológico. • Proceso: El usuario hace una pregunta -> Claude considera "¿Necesito referirme a conversaciones anteriores?" -> Si es así -> Utiliza herramientas para recuperar la información relevante -> Obtiene el fragmento específico -> Responde al usuario. Ventajas, desventajas y escenarios de uso 1. ChatGPT ventaja: Transición fluida: La experiencia es muy fluida. Incluso al cambiar de tema, el resumen puede darte una idea general del contexto. • Rápido: no se requieren pasos de búsqueda adicionales. defecto: • Pérdida de detalles: dado que solo almacena resúmenes, y solo resúmenes de comentarios de los usuarios, es posible que no recuerde la solución de código específica que proporcionó la última vez y solo pueda recordar una idea general. • Riesgo de interferencia: A veces, resúmenes antiguos irrelevantes pueden interferir con la tarea actual. Mejor escenario: • Para una conversación/compañía informal: necesita recordar tus pequeñas preferencias. • Multitarea: estás haciendo muchas preguntas diferentes al mismo tiempo y necesitas cambiar entre ellas rápidamente. • Tareas superficiales y continuas: como "continuar la historia de la semana pasada", puede retomarla donde la dejó con solo mirar el resumen. 2. Claude ventaja: • Alta precisión: mediante la búsqueda, puede recuperar estructuras JSON específicas o configuraciones lógicas particulares de una conversación de hace meses, en lugar de resúmenes vagos. • Contexto limpio: de forma predeterminada, no se carga el historial irrelevante, lo que no solo ahorra tokens sino que también evita la interferencia de información antigua. defecto: • No ser lo suficientemente proactivo: si el modelo comete un error y piensa "no es necesario verificar el historial", le responderá como si tuviera amnesia. • Lento: las llamadas a herramientas toman tiempo. Mejor escenario: • Desarrollo de proyectos a largo plazo: por ejemplo, al escribir código, si desea "reutilizar el módulo de autenticación que escribí el mes pasado", puede encontrar el código específico. • Búsqueda en la base de conocimientos: la necesita para integrar profundamente una gran cantidad de notas acumuladas a lo largo del pasado. • Tareas lógicas complejas: requieren una precisión de contexto extremadamente alta y no pueden tolerar resúmenes imprecisos. Perspectiva comparativa adicional: La “resolución” y la “controlabilidad” de la memoria. Además de lo que menciona el artículo, creo que hay otros dos ángulos que vale la pena destacar: 1. Resolución de memoria: ChatGPT es una miniatura de baja fidelidad: visualiza las miniaturas de las 10 conversaciones más recientes durante el chat. Conoce la estructura general, pero no puede ver los detalles. • Claude es un reflector de "alta fidelidad": normalmente está en la oscuridad (sin mirar la historia), pero una vez que se enciende el reflector (buscando), puede iluminar un rincón específico del pasado y verlo con claridad. 2. Perspectiva del desarrollador vs. del usuario: La solución de ChatGPT es más bien una "característica de producto" madura: OpenAI la ha empaquetado bien, es invisible para los usuarios, la experiencia es consistente y el propósito es retener a los usuarios y aumentar la actividad. El enfoque de Claude se asemeja más a una "capacidad de agente": Anthropic dota a los modelos de la capacidad de usar herramientas, lo que se alinea mejor con la dirección de desarrollo de los agentes; es decir, los modelos no solo chatean, sino que también usan herramientas (incluidas las de memoria) para resolver problemas. Esto tendrá un mayor potencial al gestionar contextos extremadamente largos y bases de conocimiento masivas en el futuro. Publicaciones originales del blog

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo