Sigo viendo métodos interesantes en los que los agentes de LLM "condensan" o resumen el contexto a lo largo de las distintas etapas. Trabajamos en esto en otoño de 2020, acuñando de alguna manera el mismo término que se usa ahora: recuperación "condensada". Muestra un ejemplo muy temprano de modelos de lenguaje de autoaprendizaje para cadenas de razonamiento.
Esto precedió a una cadena de pensamiento autorregresiva, por lo que el razonamiento aquí es una larga cadena de consultas de búsqueda y fragmentos extraídos de un corpus de 5 millones de documentos. ¡Las puntuaciones de HoVer siguen siendo extremadamarxiv.org/abs/2101.00436ar hoy en día mediante ayuda o aprendizaje por refuerzo en los LLM modernos!
Crear Baleen fue extremadamente difícil. Creo que solo la receta final requirió entrenar unos 12 modelos en secuencia. Esa fue la motivación para desarrollar DSPy, para que puedas construir estos sistemas/agentes LLM modulares y permitirles autoentrenarse sin tener que hacer todo eso.
