Dito isso, os tokenizadores eficientes ainda usam palavras compostas em chinês e até mesmo substrings principais (lembro-me de um da Qwen que tinha, tipo, 50 caracteres para uma frase típica em chinês simplificado).
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.