Esta es una gran pregunta para reflexionar y sigue a otras preguntas de investigación interesantes: 1. ¿Existe un techo en el aprendizaje en contexto? 2. ¿Es la vida real la forma de romper ese techo? 3. ¿Cuánto conocimiento ya hay en los pesos que no sabemos cómo extraer de manera confiable? La optimización basada en texto definitivamente funciona en cierta medida. Por ejemplo, el flujo de: Arnés de agente —> Evaluar —> Rastros de minas —> Mejorar arnés Muchos experimentos interesantes para hacer sobre la eficiencia de la muestra, el costo/computación, comparando la optimización basada en texto y la basada en RL Otra cosa es que después de RL, ¿cuánto volveremos a ajustar su arnés que lo lleve nuevamente a la optimización basada en texto?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
