Le chinois n'utilise pas d'espaces, la segmentation des mots pose donc un problème majeur. En chinois, un mot peut avoir plusieurs significations ; « 意思 » et « 意思 » peuvent avoir des significations complètement différentes. L'ordre des mots en chinois est flexible ; les sujets dans « Je l'ai frappé » et « Il a été frappé par moi » sont différents. Par conséquent, le chinois est trop complexe pour être traité par les machines. Je pensais comme ça aussi. Jusqu'à ce que je comprenne comment fonctionne Word2Vec. Elle ne se soucie absolument pas des règles grammaticales de la langue. Il ne regarde qu'une seule chose : qui se trouve autour de ce mot. Le mot « pomme » est souvent entouré de mots comme « fruit », « banane » et « frais ». La pomme est elle aussi entourée d'eux. Le mot « pomme » est également entouré par lui. Pour Word2Vec, ces trois termes désignent la même chose. Parce qu'ils sont utilisés de la même manière. Les mots chinois peuvent avoir plusieurs significations ? Aucun problème. Le mot « pomme » (fruit) est entouré de mots comme « manger », « sucré » et « frais ». Le logo « Apple » est entouré de « téléphones », d'« ordinateurs » et d'« événements de lancement ». Word2Vec leur fournira des vecteurs différents. Parce que leurs contextes sont différents. Vous avez des difficultés avec la segmentation des mots chinois ? Aucun problème. Word2Vec peut être entraîné directement au niveau des caractères. Aucune segmentation des mots n'est nécessaire ; vous pouvez directement observer les relations entre les caractères. Certaines études ont même montré que les vecteurs de mots chinois au niveau des caractères sont tout aussi efficaces que les vecteurs de segmentation des mots. Car pour les machines, le langage n'est pas une règle, mais des statistiques. Il n'a pas besoin de comprendre la syntaxe ; il lui suffit d'analyser suffisamment de données. À force de le voir, il le saura de lui-même : Quels mots apparaissent fréquemment ensemble ? Quels mots ont des significations similaires ? Quelles phrases expriment des idées similaires ? Que ce soit en anglais ou en chinois, c'est la même chose pour Word2Vec : Un ensemble de symboles et les relations statistiques entre ces symboles. L'IA chinoise est-elle donc inférieure à l'IA anglaise ? Ce n'est pas un problème de langue. C'est un problème de données. Il y a plus de données en anglais, donc le modèle anglais est meilleur. Les données chinoises étant insuffisantes, le modèle chinois est peu performant. Mais ce n'est pas la faute de la langue chinoise. Word2Vec a prouvé que : Les machines peuvent apprendre n'importe quelle langue avec suffisamment de données. La complexité du langage est un obstacle pour les gens. Pour les machines, il s'agit simplement d'une différence dans les modèles statistiques. --- Une autre version générée par l'IA.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.