중국어에는 공백이 없으므로 단어 분할이 큰 문제입니다. 중국어에서는 단어가 여러 가지 의미를 가질 수 있습니다. "意思"와 "意思"는 완전히 다른 의미를 가질 수 있습니다. 중국어의 어순은 유연합니다. "나는 그를 때렸다"와 "그는 나에게 맞았다"의 주어가 다릅니다. 그러므로 중국어는 기계가 처리하기에는 너무 복잡합니다. 나도 그렇게 생각하곤 했죠. Word2Vec이 어떻게 작동하는지 이해할 때까지는요. 그것은 언어의 문법적 규칙에 전혀 관심이 없습니다. 그것은 오직 한 가지, 즉 이 단어 주변에 누가 있는지에만 주목합니다. "사과"라는 단어는 종종 "과일", "바나나", "신선한"과 같은 단어로 둘러싸여 있습니다. 사과도 그들에 둘러싸여 있습니다. "사과"라는 단어도 이것으로 둘러싸여 있습니다. Word2Vec의 경우, 이 세 용어는 같은 것을 의미합니다. 같은 방식으로 사용되기 때문입니다. 중국어 단어는 여러 가지 의미를 가질 수 있나요? 문제없습니다. "사과"라는 단어(과일)는 "먹다", "달콤하다", "신선하다"와 같은 단어로 둘러싸여 있습니다. "Apple" 로고는 "휴대폰", "컴퓨터", "출시 이벤트"로 둘러싸여 있습니다. Word2Vec은 서로 다른 벡터를 제공합니다. 그들의 맥락이 다르기 때문입니다. 중국어 단어 분할에 어려움이 있나요? 문제없습니다. Word2Vec은 문자 수준에서 직접 학습할 수 있습니다. 단어를 나눌 필요가 없습니다. 문자 간의 관계를 직접 살펴볼 수 있습니다. 일부 연구에서는 문자 수준의 중국어 단어 벡터가 단어 분할 벡터만큼 효과적이라는 것을 발견했습니다. 기계에게 언어는 규칙이 아니라 통계이기 때문입니다. 구문을 이해할 필요는 없고, 충분한 양의 데이터만 살펴보면 됩니다. 여러 번 본 후에는 스스로 알게 될 것입니다. 어떤 단어가 자주 함께 등장하나요? 어떤 단어가 비슷한 의미를 가지고 있나요? 어떤 문장이 비슷한 생각을 표현하나요? 영어든 중국어든 Word2Vec에서는 동일합니다. 일련의 기호와 이러한 기호 간의 통계적 관계입니다. 그렇다면 중국의 AI가 영국의 AI보다 열등한가요? 언어 문제가 아닙니다. 데이터 문제예요. 영어로 된 데이터가 더 많으므로 영어 모델이 더 좋습니다. 중국에 대한 데이터가 부족하기 때문에 중국 모델이 좋지 않습니다. 하지만 이는 중국어의 잘못이 아닙니다. Word2Vec은 다음 사실을 증명했습니다. 충분한 데이터가 주어지면 기계는 모든 언어를 배울 수 있습니다. 언어의 복잡성은 사람들에게 장애물이 됩니다. 기계의 경우 통계적 모델의 차이일 뿐입니다. --- 또 다른 AI 생성 버전입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.