Je me demande parfois si les LLM vivent les choses différemment en chinois. Peut-être que le déclin de la « profondeur spirituelle » qu'a connu DeepSeek après R1 n'existe tout simplement pas de l'autre côté du Grand Mur de la Langue.
Cela dit, les analyseurs lexicaux efficaces utilisent encore des mots chinois composés et même des sous-chaînes importantes (je me souviens que celui de Qwen comportait environ 50 caractères pour une phrase typique en langage chinois).