Esta entrada de blog analiza las limitaciones del hacking de recompensas en SFT y RL. Comparación de tres métodos de entrenamiento: SFT (ajuste fino supervisado) Muestreo: ❌ Estrategia de distanciamiento (trayectoria docente) Recompensa: ✅ Densa (por ficha) Pregunta: Errores compuestos en modo estudiante Aprendizaje por refuerzo (RL) Muestreo: ✅ En la estrategia (toma de estudiantes) Recompensa: ❌ Escasa (solo resultado final) Problema: Una señal por episodio, baja eficiencia. Si se utiliza en la destilación de políticas, el muestreo se resolverá mejor: ✅ En la política (trayectoria del estudiante) Recompensa: ✅ Densa (Los profesores puntúan cada ficha) Para una comprensión más profunda de este tema, recomiendo este artículo de Bojie: https://t.co/r9r14GGZ3u
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.