En última instancia, debemos avanzar hacia una forma de "enseñar LLM" explicando en inglés qué hicieron mal y convirtiéndolo en gradientes e inculcando esa lección en el modelo de esa manera. Las recompensas binarias, escalares o de cualquier tipo no son tan eficientes como podrían. Si pudiera captar tus críticas (o incluso las de un juez de LLM) e internalizar la retroalimentación completa, en lugar de tener que deducirla de las diferencias de puntuaciones en la convergencia de datos masivos, aprendería mucho más rápido.
(obviamente, mantenga las recompensas escalares y binarias y todo ese jazz para cuando sean claramente caminos de menor resistencia, pero con usuarios reales tienen razones exactas por las que odiaron una respuesta: el modelo necesita entender por qué odiaron una respuesta, no solo obtener un visto bueno o no y aprender sobre muchas muestras)