ChatGPT가 대시를 사용하는 이유는 현재로선 알 수 없지만, 이 문제를 분석한 블로그 게시물을 봤는데 꽤 흥미로웠습니다. 흥미로운 점 중 하나는 AI가 특히 "탐색하다"라는 단어를 사용하는 것을 좋아한다는 것입니다. 이 현상에 대한 답은 알려져 있습니다: RLHF(인간 피드백 강화 학습)입니다. 간단히 말해, AI 모델 훈련의 마지막 단계는 수많은 인간 "멘토"를 고용하여 답을 채점하는 것입니다. OpenAI의 멘토 중 다수는 케냐와 나이지리아 같은 아프리카 국가에 있습니다. 이 지역에서 사용되는 "아프리카 영어"에서는 "delve"가 매우 흔하고 적절한 단어입니다. 그래서 AI가 "델브(delve)"를 사용하자 아프리카 멘토들은 "이게 좋은 표현이네."라고 생각하며 높은 점수를 주었습니다. 그러자 AI는 "아, 고객이 제가 '델브'를 사용하는 걸 좋아하구나."라고 학습했습니다. 그렇다면 대시도 그런 이유일까요? 이러한 사고방식에 따라 저자는 대시가 아프리카 영어에서도 자주 사용되는지 조사했습니다. 하지만 사실은 그렇지 않았습니다! 나이지리아 영어에서 대시의 빈도(단어당 0.022%)는 일반 영어의 평균 수준(0.25%~0.275%)보다 훨씬 낮습니다. 이는 두 가지 AI "아코디언"인 "델브"와 "대시"(—)가 서로 다른 기원을 가지고 있음을 나타냅니다. 저자는 결국 결정적인 단서를 발견했습니다. 바로 시간입니다. 기억하시겠지만, 2022년 말 GPT-3.5에서는 실제로 이런 문제가 없었습니다. 이 "대시 중독"은 GPT-4와 GPT-4o에서만 실제로 나타났습니다. OpenAI만 그런 것이 아닙니다. Google과 Anthropic의 모델, 일부 대형 중국 모델도 대시를 사용하기 시작했습니다. 그렇다면 2022년부터 2024년까지 모든 AI 연구실의 학습 데이터에서 공통적으로 발생한 변화는 무엇일까요? 답은 다음과 같습니다. AI 회사들은 "데이터 부족"에 직면해 있으며, AI에 책, 특히 "오래된 책"을 필사적으로 "먹이고" 있습니다. 2022년 AI는 주로 인터넷의 공개 데이터와 불법 복제 전자책(예: LibGen)에 의존했습니다. 그러나 이러한 데이터는 빠르게 부족해졌고, 품질도 불안정해졌습니다. 모델을 더욱 "문화적"이고 "더 높은 품질"로 만들기 위해 AI 회사(법원 문서에 따르면 Anthropic은 2024년 2월에 이 작업을 시작했고 OpenAI는 그보다 더 일찍 시작했음)는 대규모 프로젝트를 시작했습니다. 즉, 물리적 책을 대량으로 스캔하고 디지털화하여 훈련 데이터로 사용하는 것입니다. 좋아요, 이제 사건을 해결할 마지막 퍼즐 조각이 나왔습니다. AI가 대량(아마도 수백만 권)의 스캔된 종이 책을 소비했는데, 이 책들은 어느 시대의 책일까요? 불법 복제 전자책 웹사이트에 있는 책들은 대부분 현대 대중문학입니다. 하지만 AI 회사들은 "배를 채우고" 저작권을 회피하기 위해 이미 퍼블릭 도메인에 등록된 오래된 작품의 상당 부분을 스캔합니다. 저자는 영어 구두점 사용 빈도에 대한 연구를 발견했는데, 그 결과는 다음과 같습니다. 영어 문학에서 대시가 사용된 빈도는 1860년경에 정점을 찍었고(약 0.35%), 19세기 후반과 20세기 초반에는 현대 영어보다 대시가 훨씬 많이 사용되었습니다. 저자는 예를 들어 설명합니다. 유명한 책인 모비딕(1851년 출판)에는 대시가 무려 1,728번 등장합니다! 이제 진실이 밝혀졌습니다. 오늘날 우리가 사용하는 가장 진보된 AI는 2020년 인터넷에서 "구두점"을 배우지 않고, 오히려 1890년대의 오래된 소설에서 "구두점"을 배웠습니다. "고품질" 코퍼스를 얻기 위해 AI 회사들은 19세기 후반과 20세기 초반의 수많은 문학 작품을 모델에 입력했습니다. AI는 대시(-)에 대한 열렬한 애정을 포함하여 당시의 문체를 충실히 학습했습니다. 물론 저자는 이것이 여전히 증거 기반 추측이며, 몇 가지 사소한 의문이 아직 해결되지 않았다는 점을 인정합니다. 1. 왜 AI는 대시(-) 사용법만 배우고 모비딕의 선장처럼 말하는 것은 배우지 못했을까요? 어쩌면 AI 모델이 특정 어휘는 배우지 않고 구두점의 "무의식적인" 스타일만 습득했을까요? 2. 더 간단한 설명이 있을까요? 예를 들어, 샘 알트먼은 RLHF의 인간 튜터들이 대시(-)가 포함된 답변을 "선호하는 것 같다"고, 그것이 더 "구어체적"이라고 생각해서 "더 많은 것을 추가했다"고 무심코 언급한 적이 있습니다. 하지만 모든 것을 고려해 볼 때, 현재 가장 설득력 있는 이론은 "오래된 책 스캔"입니다. 이는 GPT-3.5에서는 그렇지 않았던 반면, GPT-4 이후 모델(모두 방대한 양의 신간 데이터로 학습됨)에서는 전체적으로 대시에 "중독"된 이유를 완벽하게 설명합니다. 관심이 있으시다면 원본 기사를 확인해 보세요: https://t.co/BxRnoWxsnS
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.