Às vezes me pergunto como os LLMs são percebidos de forma diferente em chinês. Talvez a perda de "essência" que ocorreu com o DeepSeek após a R1 simplesmente não exista do outro lado da Grande Barreira Linguística.
Dito isso, os tokenizadores eficientes ainda usam palavras compostas em chinês e até mesmo substrings principais (lembro-me de um da Qwen que tinha, tipo, 50 caracteres para uma frase típica em chinês simplificado).