No estoy seguro de cómo podría encajar esto, pero también podría ser una propuesta para el entrenamiento sin tokenizador. La representación vectorial de dimensiones ajustables sería mucho más preferible a la de tokens fijos.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.