中文沒有空格,分詞就是個大問題。 中文一詞多義,"意思"和"意思"可能是完全不同的意思。 中文語序靈活,"我打了他"和"他被我打了",主詞都不一樣。 所以,中文太複雜,機器搞不定。 我以前也這麼想。 直到我了解Word2Vec 是怎麼運作的。 它根本不在乎語言的文法規則。 它只看一件事:這個詞周圍是誰。 "蘋果"周圍經常是"水果""香蕉""新鮮"。 "蘋果"周圍也是。 "apple"周圍也是。 對Word2Vec 來說,這三個字是一回事。 因為它們的用法一樣。 中文有單字多義?沒關係。 "蘋果"(水果)周圍是"吃""甜""新鮮"。 "蘋果"(公司)周圍是"手機""電腦""發表會"。 Word2Vec 會給它們不同的向量。 因為它們的上下文不一樣。 中文分詞難?也沒關係。 Word2Vec 可以直接在字元層級上訓練。 不需要分詞,直接看字和字的關係。 甚至有研究發現,字元層級的中文詞向量,效果不比分詞後的差。 因為對機器來說,語言不是規則,是統計。 它不需要懂文法,它只需要看夠多的數據。 看多了,它自己就知道: 哪些字常一起出現,哪些字意思相近,哪些句子表達相似的意思。 英文也好,中文也好,對Word2Vec 來說,都是一樣的: 一堆符號,和這些符號之間的統計關係。 所以,中文AI 不如英文? 不是語言的問題。 是數據的問題。 英文數據多,所以英文模型好。 中文資料少,所以中文模型差。 但這不是中文的錯。 Word2Vec 證明了: 任何語言,只要有足夠的數據,機器都能學會。 語言的複雜性,對人是障礙。 對機器,只是統計模式的差別。 --- 另一個AI生成版本。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。