A veces me pregunto qué tan diferente se perciben los LLM en chino. Quizás la decadencia de la "conciencia" que sufrió DeepSeek después de la versión R1 simplemente no existe al otro lado de la Gran Muralla del Idioma.
Dicho esto, los tokenizadores eficientes aún usan palabras chinas compuestas e incluso subcadenas principales (recuerdo que la de Qwen tenía alrededor de 50 caracteres para una línea típica del lenguaje de pato de CPC).