Esto precedió a una cadena de pensamiento autorregresiva, por lo que el razonamiento aquí es una larga cadena de consultas de búsqueda y fragmentos extraídos de un corpus de 5 millones de documentos. ¡Las puntuaciones de HoVer siguen siendo extremadamarxiv.org/abs/2101.00436ar hoy en día mediante ayuda o aprendizaje por refuerzo en los LLM modernos!
Crear Baleen fue extremadamente difícil. Creo que solo la receta final requirió entrenar unos 12 modelos en secuencia. Esa fue la motivación para desarrollar DSPy, para que puedas construir estos sistemas/agentes LLM modulares y permitirles autoentrenarse sin tener que hacer todo eso.