Tenho visto muitos métodos interessantes em que os agentes LLM "condensam" ou resumem o contexto ao longo das etapas. Trabalhamos nisso no outono de 2020, cunhando de alguma forma o mesmo termo usado agora: recuperação "condensada". Isso demonstra um exemplo muito precoce de modelos de linguagem de autoaprendizagem para cadeias de raciocínio.
Isso precedeu a cadeia de pensamento autorregressiva, portanto o raciocínio aqui é uma longa cadeia de consultas de pesquisa e trechos extraídos de um corpus de 5 milhões de documentos. Até hoje, as pontuações obtidas no HoVer continuam extremamente darxiv.org/abs/2101.00436meio de dicas ou aprendizado por reforço em modelos de aprendizagem baseados em leis (LLMs) modernos!
Construir o Baleen foi extremamente trabalhoso. Acho que só a receita final envolveu o treinamento de uns 12 modelos em sequência. Essa foi a motivação para o desenvolvimento do DSPy, para que você possa construir esses sistemas/agentes LLM modulares e permitir que eles se autoaprendam sem precisar fazer tudo isso manualmente.
