Hoy escribí tres kernels que fusionan varias puertas y escaneos en nuestra celda recurrente, además de un kernel de pérdida PPO fusionado. El resultado es un entrenamiento de más de 2 millones de pasos por segundo antes incluso de empezar a optimizar. Dediqué más de 12 horas al desarrollo hoy. Mañana, levantaré pesas todo el día y me relajaré. ¡Viva pufferlib! Buenas noches.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.