Me gustaría tener más señal en la señal de 1 bit al realizar recompensas escalares o asignación de créditos con grpo (mi presentimiento es que es diferente) Y algunos trabajan en nuevas reclamaciones de RL sobre modelos que no son qwen ya que aumenta con los castigos de resultados positivos incluso (divagaciones un tanto ajenas al tuit citado ahora que lo pienso)
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.