X (Twitter)

제프 딘은 지난주 스탠퍼드에서 AI 활용의 핵심 요점을 요약하고 기사를 작성하는 프레젠테이션을 진행했습니다. 해당 영상은 댓글란에 있습니다. AI가 갑자기 이렇게 강력해진 이유는 무엇일까? 구글의 AI 책임자인 제프 딘은 자신의 경험을 바탕으로 이 이야기를 공유했습니다. 그는 "우리가 오늘날 보는 AI는 지난 15년간의 기술이 축적된 결과물입니다."라고 말했습니다. 그것은 단 하나의 돌파구가 아니었습니다. 일련의 돌파구였습니다. 모든 획기적인 발전은 AI에 있어서 거대한 도약을 의미합니다. 다음으로, 이러한 획기적인 발전이 무엇인지 설명하겠습니다. 가장 초기의 "모델이 고양이가 되는 법을 배웠다"부터 오늘날의 "AI가 국제 수학 올림피아드에서 금메달을 땄다"까지. 2012년에 이 모델은 스스로 고양이를 인식하는 법을 배웠습니다. 2012. 구글 브레인 프로젝트. 제프 딘과 그의 팀은 실험을 진행하고 있습니다. 그들은 AI가 스스로 사물을 인식하는 법을 배울 수 있는지 알고 싶어했습니다. 꼬리표를 붙이거나 "이건 고양이야" 또는 "이건 개야"라고 말하지 마세요. 그냥 사진 몇 장을 주고 스스로 보게 하세요. 그들은 무작위로 선택된 1천만 개의 유튜브 비디오 프레임을 사용했으며, 라벨은 사용하지 않았습니다. 그런 다음 신경망을 훈련시켰습니다. 그 네트워크는 이전보다 50배에서 100배 더 커졌습니다. 훈련 후, 그들은 네트워크 최상단의 뉴런들을 조사했습니다. 그들은 무엇에 민감했을까요? 그 결과는 모두를 충격에 빠뜨렸다. "고양이"에 특히 민감한 뉴런이 있습니다. 고양이 사진을 보여주면 이 뉴런이 활성화되고, 개 사진을 보여주면 활성화되지 않습니다. 이 모델은 스스로 "고양이"가 무엇인지 학습했습니다. 아무도 가르쳐 주지 않았어요. 1천만 장의 사진에서 배웠죠. 이것이 비지도 학습입니다. 제프 딘은 "정말 멋지네요."라고 말했습니다. 이는 AI가 스스로 개념을 발견할 수 있음을 보여줍니다. 인간이 "이게 뭐야?"라고 말할 필요 없이, 충분한 데이터만 살펴보면 됩니다. 이것이 AI의 학습능력의 시작점입니다. 우리는 AI가 어떻게 '보는 법'을 배우는지에 대해 이야기했습니다. 이제 AI가 어떻게 "언어를 이해하는 법"을 배우는지 알아보겠습니다. 핵심 기술: Word2Vec. 이전에는 컴퓨터가 각 단어를 고립된 기호로 취급하여 언어를 처리했습니다. "고양이"는 "고양이"였고, "개"는 "개"였습니다. 두 단어 사이에는 아무런 연관성이 없었습니다. 하지만 Word2Vec은 다릅니다. 각 단어를 고차원 벡터로 변환합니다. 무슨 뜻일까요? 각 단어가 숫자로 이루어진 문자열이라는 뜻입니다. 예를 들어, "King"은 (0.5, 0.8, 0.3, ...)일 수 있고, "Queen"은 (0.5, 0.2, 0.3, ...)일 수 있습니다. 하지만 놀라운 점은 이러한 벡터의 방향이 의미가 있다는 것입니다. 만약 "왕" - "남자" + "여자"로 계산을 한다면, 새로운 벡터를 얻게 될 것입니다. 이 벡터에 가장 가까운 단어는 "Queen"입니다. 이것이 바로 Word2Vec의 마법입니다. 단순히 단어를 숫자로 바꾸는 것이 아닙니다. 의미적 관계를 수학적 관계로 변환합니다. "왕"과 "여왕"의 관계는 "남자"와 "여자"의 관계와 같습니다. 이 관계는 벡터 방향으로 인코딩됩니다. 제프 딘은 "이를 통해 기계가 처음으로 언어를 '이해'할 수 있게 됐습니다."라고 말했습니다. 실제로 이해하지는 못하지만, 의미를 계산할 수는 있습니다. 우리는 AI가 언어를 어떻게 이해하는지 논의했습니다. 이제 좀 더 실제적인 문제인 컴퓨팅 성능에 대해 이야기해 보겠습니다. 2015년경, 구글은 개선된 음성 인식 모델을 출시하고자 했습니다. 이 모델은 매우 잘 작동했고 사용자들도 만족했습니다. 하지만 문제가 하나 있습니다. 제프 딘은 계산을 했습니다. 구글이 이 모델을 사용한다면 컴퓨터 수를 두 배로 늘려야 합니다. 네, 맞습니다. 두 배로 늘리세요. 이게 무슨 뜻일까요? 당시 구글은 이미 수십만 대의 서버를 보유하고 있었습니다. 그 수를 두 배로 늘리려면 수십만 대를 더 구매해야 했습니다. 그건 정말 비현실적이에요. 그래서 그들은 방법을 찾아야 했습니다. 정답은 전용 하드웨어입니다. 그들은 신경망이 독특한 특성을 가지고 있다는 것을 발견했습니다. 즉, 정확도가 낮은 계산에 대한 내성이 매우 강하다는 것입니다. 게다가 그 핵심은 고밀도 행렬 곱셈입니다. 이 두 가지 특성 덕분에 특수 칩을 설계할 수 있습니다. 범용 CPU나 GPU를 사용하지 않습니다. 대신 신경망을 위해 특별히 설계된 칩을 사용합니다. 이것이 TPU(텐서 처리 장치)입니다. 2015년에 TPUv1이 출시되었습니다. 당시의 CPU와 GPU보다 15~30배 빠르고, 에너지 효율도 30~80배 더 높았습니다. 이로써 컴퓨팅 성능 위기가 해결되었습니다. 그 후에도 그들은 계속해서 반복했습니다. 최신 시스템은 TPUv2보다 3600배 빠릅니다. 제프 딘은 "전용 하드웨어가 없었다면 오늘날 우리가 알고 있는 AI는 없었을 것"이라고 말했습니다. 컴퓨팅 파워는 AI의 인프라입니다. 트랜스포머는 모든 것을 바꾸었다 하드웨어에 대해 이야기했으니, 이제 아키텍처에 대해 이야기해 보겠습니다. 2017년에 구글의 한 동료가 새로운 아키텍처인 Transformer를 제안했습니다. 이로 인해 모든 것이 바뀌었습니다. Transformer 이전에는 언어 처리 모델이 모두 루프 모델이었습니다. 무슨 뜻이에요? 즉, 모델은 각 단어를 하나씩 처리해야 합니다. 게다가 모든 정보를 단일 벡터로 압축합니다. 이것은 매우 비효율적입니다. 트랜스포머는 그런 일을 하지 않습니다. 핵심 아이디어는 다음과 같습니다. 압축하지 마세요. 모든 중간 상태를 보존하세요. 그런 다음, 필요할 때 모델이 모든 상태에 "참여"하도록 합니다. 이것을 자기주의라고 합니다. 그리고 그 결과는 어땠나요? 정확도가 더 높습니다. 계산 부하가 10배에서 100배까지 감소하고, 모델 매개변수도 10배 감소합니다. 미친 짓이야. 더 빠르고, 더 정확하고, 더 작아. 게다가 Transformer는 언어만 처리할 수 있는 것은 아닙니다. 이미지 처리도 가능한데, 이것이 바로 Vision Transformer(ViT)입니다. 제프 딘은 "트랜스포머는 현대 AI의 기반이다"라고 말했습니다. ChatGPT는 Transformer를 사용합니다. 쌍둥이자리는 트랜스포머를 사용합니다. 여러분이 보는 모든 대형 모델은 트랜스포머입니다. 모델을 더 스마트하게 만드는 세 가지 기술 우리는 트랜스포머에 대해 이야기했습니다. 이제 훈련에 대해 이야기해 보겠습니다. 모델을 더 똑똑하게 만들려면 어떻게 해야 할까요? 세 가지 핵심 기술이 있습니다. 첫 번째는 희소 모델입니다. 일반적인 신경망에서는 모든 예측에 대해 전체 모델이 활성화됩니다. 이는 너무 낭비적입니다. 희소 모델은 다릅니다. 매개변수의 1%에서 5%만 활성화하고 나머지는 "잠복" 상태입니다. 이로 인해 교육 비용이 8배나 절감되었습니다. 제프 딘은 "제미니는 희소 모델이다"라고 말했습니다. 두 번째: 증류. 이는 대규모 모델에서 소규모 모델로 지식을 이전하는 것을 포함합니다. 이 이전은 어떻게 진행될까요? 큰 모델은 작은 모델에게 단순히 "옳은지" "틀린지"를 알려주는 것이 아닙니다. 확률 분포를 제공합니다. 이 신호는 매우 풍부합니다. 결과는? 작은 모델은 데이터의 3%만 사용하여 큰 모델과 동일한 효과를 얻었습니다. 세 번째: 생각의 사슬. 모델에 "작동 과정을 보여주는" 예를 들어 보세요. 예를 들어, 수학 문제를 풀 때 답을 직접 제시하는 대신 추론 과정을 단계별로 적어 보세요. 이를 통해 복잡한 추론 작업에서 모델의 정확도가 크게 향상됩니다. 이 세 가지 기술은 모델을 더욱 효율적이고 스마트하게 만듭니다. 우리는 이미 AI의 기술적 기반에 대해 논의했습니다. 이제 결과에 대해 이야기해 보겠습니다. 2022년, 구글 연구원들은 무언가에 대해 기대감을 품고 있었습니다. 이 모델은 마침내 중학교 수학 문제를 풀 수 있게 되었습니다. 정확도: 15%. "존은 토끼 다섯 마리를 키웠는데, 두 마리를 더 키웠습니다. 지금 존은 토끼를 몇 마리 키우고 있나요?" AI는 이런 유형의 질문에 약 15% 정도 정확하게 답할 수 있습니다. 그들은 이것이 획기적인 일이라고 생각했습니다. 2024년. 2년 후. 같은 팀이 제미니 2.5 프로를 출시했고, 국제 수학 올림피아드에도 참가했습니다. 여섯 개의 질문 중 다섯 개를 맞혔습니다. 이건 금메달 수준이에요. 중학교 수학 문제의 15%를 풀고 국제 수학 올림피아드에서 금메달을 따기까지. 2년. 제프 딘은 "이것이 AI가 발전하는 속도입니다."라고 말했습니다. 선형적이지도 않고, 점진적인 개선도 아닙니다. 지수적입니다. 2022년에도 AI는 여전히 덧셈을 배우고 있었습니다. 2024년이 되면 AI는 이미 올림피아드 수학 문제를 풀 수 있게 될 것입니다. 2026년은 어떨까요? 우리는 모릅니다. 하지만 이런 속도로 계속된다면 우리의 기대를 뛰어넘을 수도 있을 것 같습니다. 이것이 오늘날 우리가 보는 AI입니다. 점진적으로 강해진 것이 아니라 갑자기 강해졌습니다. 2012년 "모델이 고양이가 되는 법을 배웠다"부터 2024년 "AI가 국제 수학 올림피아드에서 금메달을 땄다"까지. 12년. AI는 거의 아무것도 모르는 상태에서 거의 모든 것을 아는 상태로 전환되었습니다. 그럼 다음은 뭐죠? 제프 딘은 AI가 의료, 교육, 과학 연구에 엄청난 영향을 미칠 것이라고 말했습니다. 코드를 작성할 줄 모르는 사람이라도 AI가 대신 웹사이트를 만들어 줄 수 있습니다. 이는 더 많은 사람들이 전문적인 지식을 접할 수 있도록 하는 것입니다. 하지만 우리는 잠재적인 위험에도 직면해야 합니다. 예를 들어, 잘못된 정보의 확산입니다. AI는 놀라울 정도로 사실적인 콘텐츠를 생성할 수 있습니다. 잘못 사용하면 심각한 결과를 초래할 수 있습니다. 제프 딘은 "잠재적인 부정적 영향을 무시할 수 없습니다. 우리의 목표는 AI의 이점을 극대화하는 동시에 잠재적 단점을 최소화하는 것입니다."라고 말했습니다. 이것이 AI의 이야기입니다. 역전파 알고리즘부터 트랜스포머, 제미니까지, 지난 15년 동안 기술, 하드웨어, 알고리즘이 모두 결합되었습니다. 오늘날 우리가 보는 AI는 이 모든 것의 산물입니다. 그리고 이 이야기는 계속됩니다.

youtube.com/watch?v=AnTw_t…

向阳乔木(@vista8)의 스레드

작성자 정보

스레드 내용