X (Twitter)

中文沒有空格，分詞就是個大問題。中文一詞多義，"意思"和"意思"可能是完全不同的意思。中文語序靈活，"我打了他"和"他被我打了"，主詞都不一樣。所以，中文太複雜，機器搞不定。我以前也這麼想。直到我了解Word2Vec 是怎麼運作的。它根本不在乎語言的文法規則。它只看一件事：這個詞周圍是誰。 "蘋果"周圍經常是"水果""香蕉""新鮮"。 "蘋果"周圍也是。 "apple"周圍也是。對Word2Vec 來說，這三個字是一回事。因為它們的用法一樣。中文有單字多義？沒關係。 "蘋果"（水果）周圍是"吃""甜""新鮮"。 "蘋果"（公司）周圍是"手機""電腦""發表會"。 Word2Vec 會給它們不同的向量。因為它們的上下文不一樣。中文分詞難？也沒關係。 Word2Vec 可以直接在字元層級上訓練。不需要分詞，直接看字和字的關係。甚至有研究發現，字元層級的中文詞向量，效果不比分詞後的差。因為對機器來說，語言不是規則，是統計。它不需要懂文法，它只需要看夠多的數據。看多了，它自己就知道：哪些字常一起出現，哪些字意思相近，哪些句子表達相似的意思。英文也好，中文也好，對Word2Vec 來說，都是一樣的：一堆符號，和這些符號之間的統計關係。所以，中文AI 不如英文？不是語言的問題。是數據的問題。英文數據多，所以英文模型好。中文資料少，所以中文模型差。但這不是中文的錯。 Word2Vec 證明了：任何語言，只要有足夠的數據，機器都能學會。語言的複雜性，對人是障礙。對機器，只是統計模式的差別。 --- 另一個AI生成版本。

来自向阳乔木（@vista8）的推文线程

作者信息

线程正文