너무 흥미로워서 AI가 기사를 다시 써주는 걸 거부할 수가 없었습니다. 미스터리가 풀렸습니다! AI가 대시를 강박적으로 사용하는 진짜 이유는... AI가 쓴 기사에는 항상 "AI 풍미"가 있습니다. 특히 영어 글쓰기에서 가장 두드러지는 특징 중 하나는 대시를 자주 사용한다는 것입니다. 솔직히 말해서, AI 모델(특히 GPT-4 이후 버전)이 대시를 남용하는 수준은 터무니없을 정도입니다. 더욱 우스운 점은 프롬프트를 사용해서 이를 "수정"하는 것이 거의 불가능하다는 것입니다. 한 네티즌은 OpenAI 포럼에 "대시를 사용하지 마세요", "더 간결한 구두점을 사용하세요" 등 다양한 방법을 시도했지만, 모델은 "알겠습니다"라고 말한 뒤 돌아서서 이전과 같은 구두점을 사용했다고 게시했습니다. 이 모든 일은 뭔가 이상한 점이 있습니다. 논리적으로 말하면, AI는 "반복자"이며, 모든 행동은 훈련 데이터에서 나와야 합니다. 하지만 현대 영어에서 가장 자주 사용되는 문장 부호가 아닌 대시가 AI가 "가장 좋아하는" 부호가 된 이유는 무엇일까요? 흥미로운 점은 현재 업계 내에서 이 질문에 대한 **보편적으로 수용되고 확정된 답변**이 없다는 것입니다. 오늘은 탐정 놀이를 하며 숀 괴데케의 흥미로운 분석과 함께 AI의 "글쓰기 습관"의 기원을 밝혀보겠습니다. 여러 가지 "신뢰할 수 없는" 추측 가장 가능성 있는 답을 밝히기 전에, 먼저 "지뢰를 치우고" 널리 유포된 몇 가지 이론을 제거해야 합니다. 자세히 살펴보면 그 이론들은 뒷받침할 수 없습니다. 추측 1: 훈련 데이터에 이미 많은 양이 들어 있었나요? 가장 직관적인 추측은 이렇습니다. AI가 대시를 많이 사용하는 이유는 "학습"하는 자료, 즉 인터넷 전체의 영어 텍스트에서 대시를 많이 사용하기 때문일까요? 나는 처음에 그 설명을 믿지 않았다. 생각해보세요. 대시가 인간의 글에서 그렇게 흔하다면 그렇게 눈에 띄는 "결함"이 아니겠죠? 우리가 "AI"가 강력하다고 느끼는 이유는 AI가 일반 인간보다 대시를 훨씬 더 자주 사용한다는 것을 직관적으로 인지하기 때문입니다. AI가 쉼표를 너무 자주 사용한다면 괜찮을까요? 아니요, 우리도 다 그렇게 사용하거든요. 따라서 이러한 설명은 핵심적인 질문인 'AI가 왜 그것을 "선호"하는가?'를 직접적으로 피하게 됩니다. 추측 2: 대시는 "모든 것을 다 할 수 있는" 기능이고, AI는 "게으른" 기능일까요? 조금 "의인화된" 것처럼 들리는 또 다른 이론이 있습니다. 요점은 AI가 다음 단어(토큰)를 예측하는 데 어려움을 겪을 때, 실제로는 상당히 "어려움을 겪고" 있다는 것입니다. 대시를 사용하는 것은 마치 "뒷문"을 남겨두는 것과 같습니다. 생각해 보세요. 대시는 보충 설명을 제시할 수도 있고, 완전히 새로운 관점을 열어줄 수도 있고, 심지어 전환점을 나타낼 수도 있습니다. 그렇다면 AI는 대시를 던지는 것이 다음 문장을 어떤 식으로든 작동하게 하는 "가장 안전하고" "가장 다재다능한" 방법이라고 "계산"하고 생각했을까요? 저도 그렇게 믿지 않아요. 첫째, 다른 구두점(쉼표, 세미콜론 등)도 많은 맥락에서 유연하게 사용할 수 있습니다. 둘째, 저는 "게으름"이나 "출구" 같은 인간의 사고 과정을 대규모 언어 모델의 작동 원리에 적용하는 것은 다소... 주제넘다고 생각합니다. 모델은 단순히 "다음으로 가장 가능성이 높은 토큰을 예측"할 뿐, "속임수를 쓰려는" 주관적인 의도는 없습니다. 추측 3: "돈을 절약하기 위해"(토큰 효율성을 높이기 위해)? 이 주장은 좀 더 기술적이지만, 반박하기 가장 쉬운 주장이기도 합니다. 이로 인해 토큰 효율성이라는 개념이 생겨났습니다. 간단히 말해서, 대규모 언어 모델은 텍스트를 단어별로 처리하지 않고, 단어를 "토큰"으로 분해합니다. 예를 들어, "믿을 수 없다"는 "믿을 수 없다", "믿을 수 있다", "믿을 수 있다"의 세 가지 토큰으로 나눌 수 있습니다. AI의 계산 비용은 처리하는 토큰의 수와 직접적으로 관련됩니다. 이론은 AI가 대시 하나(토큰 1개 가치)로 장황한 접속사(예: "따라서" 또는 "즉"과 같이 토큰 2~3개가 필요할 수 있는 문구)를 대체할 수 있다는 것을 발견했다는 것입니다. 대시를 사용하면 "돈을 절약"할 수 있습니다! 음... 이 설명은 아직도 잘 맞지 않습니다. 첫째, 대부분의 경우 대시는 쉼표로 완벽하게 대체될 수 있습니다(쉼표도 토큰 1개만 차지합니다). 예를 들어, AI는 종종 "X가 아니라 Y예요"라고 씁니다. 이것은 "X가 아니라 Y다"라고 쉽게 쓸 수 있습니다. 누구도 다른 사람보다 더 많은 토큰을 저축하지 않습니다. 둘째, GPT-4o와 같은 거대 기업이 비용 최적화를 위해 구두점을 이렇게 "세부적으로 관리"할 것이라고 생각하시나요? 정말 토큰을 아끼고 싶었다면, "쓸데없는 소리 하지 말자"는 식의 구태의연한 표현을 반복하지 않는 게 더 나았을 것 같지 않나요? 그랬다면 토큰을 많이 아낄 수 있었을 텐데요. 따라서 위에서 언급한 세 가지 "주요" 추측은 기본적으로 배제되었습니다. 그렇다면 진짜 범인은 누구일까? 좀 더 자세히 살펴보겠습니다. RLHF의 잘못일까요? 이 시점에서 우리는 좀 더 심층적인 내용, AI 커뮤니티에서 잘 알려진 용어인 RLHF에 대해 이야기할 필요가 있습니다. 전체 이름은 인간 피드백을 통한 강화 학습입니다. 이건 뭐예요? 대략 AI의 '직무 전 교육'과 '성과 평가' 단계라고 생각하면 됩니다. 모델(예: GPT-4)이 기본적으로 훈련되면 AI 회사는 수백 명 또는 수천 명의 인간 "평가자"를 고용하여 AI와 채팅하고 AI의 답변에 점수를 매깁니다. "이 답변은 너무 장황합니다. 싫어요!" "이 답변은 정말 도움이 되었고 제 문제를 해결해 주었습니다. 추천해요!" 이 모델은 인간의 "긍정적 리뷰"와 "부정적 리뷰"를 바탕으로 자신의 말하는 방식을 지속적으로 "반영"하고 "수정"하여 자신을 더 "유용하고" 더 "좋아할 만한" 사람으로 만들 것입니다. 좋아요, 질문은 다음과 같습니다. 비용 절감을 위해 AI 기업들은 이 "점수 매기기" 작업을 반드시 아웃소싱할 것입니다. 하지만 누구에게? 정답은 생활비가 저렴하지만 영어를 사용하는 인구가 많은 나라입니다. 예를 들어, OpenAI의 주요 RLHF 팀은 아프리카의 케냐와 나이지리아에 있습니다. 이로 인해 매우 흥미로운 결과가 도출됩니다. AI의 "취향"은 주로 아프리카 주석자들의 "영어 방언"에 의해 형성됩니다. 가장 유명한 예 중 하나는 "delve"(깊이 연구하다)라는 단어입니다. 눈치채셨나요? GPT-4는 "탐험(delve)", "탐험(explore)", "태피스트리(tapestry)"처럼 약간 "고상한" 느낌을 주는 화려한 단어를 특히 좋아합니다. (태피스트리는 "청사진(blueprint)"이나 "스크롤(scroll)"로 해석될 수 있습니다.) 그 이유는 아프리카 영어(식민지 이후 국가의 영어의 변형)에서 이렇게 약간 화려한 어휘를 사용하는 것이 "교양 있고" "언어적으로 능숙하다"는 표시로 여겨졌기 때문입니다. 케냐 주석가들은 이 모델이 "탐색(delve)"이라는 단어를 사용한 것을 보고 매우 기뻐했습니다. "와, 정말 좋은 단어네요. 정말 진짜 같아요! 만점이에요!" 그 결과, 모델은 이렇게 결론지었습니다. "사람들은 내가 "delve"를 쓰는 걸 좋아하니까, 앞으로는 더 자주 쓰겠다!" (이 문제는 또한 큰 논쟁을 불러일으켰습니다. 폴 그레이엄은 한때 이 용어를 비판했지만, 많은 인도와 나이지리아 학자들이 그가 문화적 차이를 이해하지 못한다고 말하며 "교훈을 얻었습니다".) "아프리카 영어"에서도 대시가 문제가 되나요? 그럼 질문은 이렇습니다. 대시로도 같은 일이 일어날 수 있을까요? 나이지리아 영어를 사용하는 사람들이 일상 대화에서 대시를 많이 사용하기 때문에 주석 작성자들도 대시가 들어간 답변을 선호하는 걸까요? 이 추측은 정말 완벽하죠? "delve"와 "dash"가 함께 등장하는 이유가 설명되죠. 하지만 원작자 숀 괴데케는 꼼꼼한 사람이었고, 실제로 데이터를 확인하러 갔습니다. 그는 "나이지리아 영어 텍스트" 데이터 세트를 찾은 다음, 그 안에 있는 대시의 빈도를 세는 프로그램을 실행했습니다. 그리고 무슨 일이 일어났는지 아시나요? 그 데이터는 얼굴에 침을 뱉는 것과 같습니다. 데이터에 따르면 나이지리아 영어 데이터 세트에서 대시의 빈도(전체 단어의 백분율)는 약 0.022%입니다. 영어 구두점의 역사에 관한 논문에서는 현대 영어 텍스트에서 대시의 빈도가 0.25%에서 0.275% 사이에서 변동한다고 지적합니다. 이제 이해하셨나요? 나이지리아 영어(아프리카 영어를 대표)는 일반 영어에 비해 대시를 훨씬 덜 사용합니다! 따라서 이 단서도 끊어졌습니다. RLHF와 아프리카 라벨러는 "델브" 오류에 대한 책임을 져야 할 수도 있지만, "대시" 오류에 대한 책임은 그들에게 있지 않습니다. 진짜 "용의자": 19세기의 오래된 책 좋아요, 많은 가능성을 배제한 후 말씀드리자면, 다음 설명은 제가 지금까지 본 것 중 가장 신뢰할 만하고 설득력이 있는 설명입니다. 이는 매우 중요한 관찰에서 나온 것입니다. 흥미로운 점 하나 알아차리셨나요? GPT-3.5에서는 대시를 거의 사용하지 않는다는 거예요! 이런 "특이점"은 GPT-4(및 GPT-4o)에서 대량으로 나타나기 시작했습니다. Anthropic의 Claude와 Google의 Gemini도 이런 문제가 있습니다. 이를 통해 기간은 2022년 말(GPT-3.5 릴리스)에서 2024년 초(GPT-4o 릴리스)까지 1년 남짓으로 단축되었습니다. 2022년과 2024년 사이에 정확히 무슨 일이 일어났나요? 답은 하나뿐입니다. 훈련 데이터의 구성이 근본적으로 바뀌었습니다. 생각해 보세요. 2022년 OpenAI가 모델을 훈련시켰을 당시, 사용된 데이터는 주로 인터넷에서 스크래핑한 공개적으로 사용 가능한 텍스트(예: 위키피디아, Reddit 게시물, 뉴스 웹사이트)와 LibGen 및 Z-Library와 같은 웹사이트에서 "획득한" 엄청난 양의 불법 복제 전자책이었습니다. 하지만 2023년 대형 모델의 성능이 세상을 놀라게 하자 모든 AI 회사는 미쳐버렸습니다. 그들은 고품질의 훈련 데이터가 미래의 "석유"와 "금"이라는 것을 즉시 깨달았습니다. 인터넷의 "쓰레기"는 더 이상 새로운 세대의 모델을 만족시킬 수 없습니다. 그들에게는 더 많고, 더 고품질이며, 더 깔끔한 텍스트가 필요합니다. 그들은 어디에 목표를 두었는가? 실제 책. AI 기업(OpenAI, Anthropic, Google 등)은 광적인 "데이터 군비 경쟁"을 시작하면서 인류 역사상 모든 논문 출판물을 대량으로 스캔하고 디지털화하는 데 비용을 아끼지 않았습니다. (Anthropic의 법원 문서에 따르면, 그들은 2024년 2월에 이 작업을 시작했습니다. OpenAI가 명시적으로 언급하지는 않았지만, 업계에서는 그들이 더 일찍, 더 적극적으로 시작했다는 믿음이 널리 퍼져 있습니다.) 좋아요, 이제 중요한 연결 지점입니다. 새로 스캔한 실제 책과 이전에 LibGen에 등록되었던 불법 복제 책의 주요 차이점은 무엇입니까? 차이점은 시대에 따라 다릅니다. 불법 복제된 전자책 웹사이트의 콘텐츠는 대부분 현대 문학과 대중적인 독서 자료(해리포터, 다양한 베스트셀러 소설, 현대 교과서 등)에 치우쳐 있습니다. 이는 네티즌들이 실제로 다운로드하여 읽고 싶어하는 내용이기 때문입니다. AI 회사가 데이터를 "구출"하려고 할 때, 그들은 인류 역사에서 손에 넣을 수 있는 모든 책을 샅샅이 뒤질 것입니다. 특히 오랫동안 "공개 도메인"에 있었던 오래된 책들을 말입니다. 이 책들은 대부분 어느 시대의 책인가요? 19세기 후반과 20세기 초반. 이제 앞서 언급한 "구두점에 대한 역사 연구 논문"으로 돌아가 보겠습니다. 여기에는 놀라운 발견이 담겨 있습니다. 영어 글쓰기에서 대시(-)의 사용은 1860년경에 역사적으로 가장 많았습니다(약 0.35%). 이후 점차 감소하여 1950년대 이후 0.25%~0.275% 수준에서 안정화되었습니다. 다시 한번 살펴보세요. 19세기 후반과 20세기 초반의 문학 작품(예: 디킨스와 멜빌의 작품)은 현대 영어보다 대시를 약 30% 더 자주 사용했습니다! 예를 들어, 유명한 책 "모비딕"에는 무려 1,728개의 대시가 들어 있습니다! 진실은 밝혀졌죠? 아마도 가장 합리적인 설명은 다음과 같습니다. AI 모델이 대시를 광범위하게 사용하는 이유는 그들이 보편적인 구두점을 "스마트하게" 선택했기 때문이 아니며, 아프리카 구두점을 선호하기 때문이 아닙니다. 그 이유는 2023년의 "데이터 군비 경쟁"에서 19세기와 20세기 초의 "고품질" 고서를 대량으로 강제로 "먹였기"(사전 훈련) 때문입니다. 그리고 그 책들은 모두 대시일 뿐이에요! 이러한 "쓰기 습관"은 마치 고대의 "문법적 DNA"처럼 모델의 신경망에 깊이 새겨져 있습니다. 요약하자면, 제가 아직 알아내지 못한 몇 가지 사소한 문제가 있습니다. 좋습니다. 이 "사례 해결" 과정의 단계를 살펴보겠습니다. 1. 구조적 설명(토큰 절약, 다목적): 가능성 낮음. GPT-3.5에는 이 문제가 없으며, 반례(쉼표)가 있습니다. 2. RLHF 해석(주석자 선호도): 가능성 낮음. 아프리카 영어 데이터는 방언 이론을 반박함. 3. 훈련 데이터 해석(오래된 책 오염): 가능성이 가장 높음. 이는 GPT-4에서 폭발적인 성장이 시작된 이유(데이터 구성이 변경되었기 때문)를 완벽하게 설명하고, AI의 활용도가 현대인의 평균 수준보다 높은 이유(AI의 "교과서"가 우리보다 오래되었기 때문)도 설명합니다. 개인적으로 (원저자와 마찬가지로) 저는 세 번째 가능성, 즉 훈련 데이터의 오염(특히 오래된 책의 경우)에 가장 가깝습니다. 하지만 이 문제는 아직 끝나지 않았습니다. 이 "오래된 책의 이론"이 사실이라 하더라도, 여전히 내가 이해하지 못하는 "사소한 문제"가 몇 가지 있습니다. 문제 1: 모비딕의 역설 가장 큰 혼란의 원인은 다음과 같습니다. AI가 정말로 19세기 고전을 "읽었다면", 왜 그 글은 모비딕이나 두 도시 이야기처럼 읽히지 않을까? 그것은 단지 다른 사람들의 구두점을 "훔쳤을" 뿐, 그들의 화려하고 복잡하고 고대의 문자 스타일을 배우지 못했습니다. 저는 이에 대해 제 나름대로 추측을 해봤습니다. 이는 제가 앞서 언급한 "계층적 훈련"으로 인해 발생한 "프랑켄슈타인의 괴물"과 같은 결과일 수 있습니다. 다음과 같이 상상해 보세요. 1. 사전 훈련 단계: AI는 마치 어두운 방에 갇힌 아기처럼 모비딕을 포함한 수조 개의 토큰을 억지로 "삼키는" 것과 같습니다. 이 단계에서 AI는 문법, 어휘, 사실, 그리고 우연히도 깊이 새겨진 캐치프레이즈인 "대시"를 학습합니다. 이 시점에서 AI의 "영혼"은 19세기의 것입니다. 2. "미세 조정" 단계(SFT & RLHF): AI가 성장하여 "직무 전 훈련"을 위해 출시되었습니다. 수천 명의 21세기 언어 편집자(케냐인 포함)가 언어 패턴을 "재구성"하기 시작하여 21세기의 정중하고, 친절하고, 고객 중심적인 "현대적 스타일"(예: "기꺼이 도와드리겠습니다" 또는 "대규모 언어 모델로서...")로 말하도록 강요했습니다. 그래서 결국 여러분이 보게 되는 것은 "분열된 성격"을 가진 AI입니다. 이 언어는 "19세기 문법적 영혼"(따라서 대시를 좋아함)을 가지고 있지만 "21세기 고객 서비스 망토"(따라서 AI 비서의 말투)를 입어야만 합니다. 이게 사이버펑크가 아닌가? 두 번째 문제: RLHF는 정말로 "무고한" 것일까요? 또 다른 가능성은 RLHF가 완전히 "무죄"하지 않을 수도 있다는 것입니다. "아프리카 방언" 이론은 반박되었지만, 대시 자체가 텍스트를 더 "구어체적으로" 읽히게 만들 가능성이 있을까요? 생각해 보세요. 우리가 채팅할 때 종종 "어...", "그게—", "내 말은—" 같은 말을 하지 않나요? 기능 측면에서 볼 때, 대시는 실제로 이러한 "일시 정지"와 "보충"을 시뮬레이션할 수 있습니다. 아마도 주석 작성자(어디에 있든)는 단순히 "와, 이 답변은 대시를 사용했더니 덜 딱딱하고 '채팅' 같네. 멋지다! 높은 점수!"라고 생각했을 것입니다. OpenAI의 CEO인 샘 알트먼은 인터뷰에서 "사용자들이 이 스타일을 좋아하기 때문에 (의도적으로) 대시를 더 추가했다"고 모호하게 언급했습니다. 그렇다면 "고대 서적 이론"과 함께 적용해 볼 수 있을 것 같습니다. 기존 책(사전 학습)은 AI에게 대시를 사용할 수 있는 "능력"과 "높은 확률"을 부여했지만, 라벨러(RLHF)는 이 능력을 "강화"하고 "보상"하여 더욱 두드러지게 만들었습니다. 에필로그: 해커 뉴스의 "중간" 원저자가 기사를 게시한 후, 이 기사는 Hacker News(프로그래머를 위한 Douban의 약자)에서 빠르게 퍼졌습니다. 또 다른 흥미로운 이론이 블로그 플랫폼인 Medium의 CEO의 댓글 섹션에 등장했습니다. CEO는 이렇게 말했습니다. "추측은 그만하세요. 이유를 말씀드릴게요! Medium은 고품질 학습 데이터 소스이기 때문입니다. Medium에서는 사용자가 입력한 두 개의 하이픈(`--`)을 표준 대시(`—`)로 자동 변환하는 시스템이 있습니다. 분명 그게 이유일 겁니다!" 솔직히 말해서, 이런 설명은 완전히 터무니없습니다. 그는 (많은 기술 전문가들처럼) 요점을 완전히 놓쳤습니다! 우리는 AI가 어떤 특정 문자를 사용했는지(`—`인지 `--`인지)에 대해 논의하는 것이 아니라, AI가 그 "기능"에 해당 구두점을 사용한 이유를 논의하는 것입니다. 즉, "중단-보충-전환"의 문법적 기능입니다! AI의 학습 데이터에서 OCR 오류나 자동 변환으로 인해 하이픈(예: "최신")이 대시로 많이 식별되더라도, 그렇게 되면 모델은 "최신"과 같은 곳에서 대시를 "잘못된" 방식으로 사용하는 것만 배우게 되고, "따라서"를 대체하기 위해 문장 끝에 대시를 사용하는 것은 배우게 되지 않습니다! 이것들은 완전히 다른 것입니다. 그래서 여러 가지를 생각해 본 끝에 저는 개인적으로 여전히 "19세기 고전" 이론에 기울어집니다. 여기서 가장 흥미로운 점은 겉보기에 "지능적"인 거대 괴물인 AI의 행동 패턴이 종종 예상치 못한, 심지어 다소 "어리석은" 이유에서 비롯된다는 사실을 발견했다는 것입니다. 작은 구두점은 "디지털 고고학"에서 화석과 같습니다. 이는 대규모 AI 모델의 "진화"에 대한 비밀을 담고 있습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.