방금 장샤오쥔과 리샹의 3시간 분량 대화 전문을 다 봤는데, 정말 유익했습니다. 이 대화는 사실 6개월 전(2025년 4월)에 진행되었는데, AI 업계의 타임라인을 고려하면 그 이후로 내용이 많이 변경되었습니다. 장샤오쥔(Zhang Xiaojun)은 훌륭한 비유를 사용했습니다. 이번에는 리샹을 "CEO 모델"로 삼아 질문을 던졌습니다. 그가 MoE 모델을 대표한다고 가정하고, 처음 세 차례의 대화에서 그의 세 "전문가", 즉 기술 전문가, 전략 전문가, 그리고 조직 전문가를 언급했습니다. 대화가 후반부로 진행되면서 우리는 사람, 에너지, 친밀한 관계, 기억 과정, 그리고 인간 지능에 대해 이야기하기 시작했습니다. 리샹의 "답변"은 매우 솔직하고, 심지어 다소 "반직관적"이었습니다. 뤄융하오와의 대화와는 달리, 그는 성장과 기업가 정신에 집중했고 자동차와는 거의 관련이 없었습니다. 그는 AI에 대해 더 많이 이야기했고, 심지어 모델 학습 방법까지 논의했습니다. --- 주제 1: "정보 도구" 대 "생산 도구": 왜 AI는 아직까지 우리가 진정으로 일을 그만둘 수 있게 해주지 못했을까? 이는 리샹이 처음에 한 날카로운 관찰입니다. "제 동료와 친구들은 모두 인공지능이 얼마나 훌륭한지 이야기하지만, 모두의 근무 시간은 줄어들지 않았고, 업무 성과도 크게 향상되지 않았습니다." 왜? 그는 "엔트로피 증가"와 "엔트로피 감소"를 비교했습니다. AI는 특히 "엔트로피 증가"에 능숙합니다. 엄청난 양의 정보를 처리하고, 테라바이트 규모의 데이터를 처리하고, 복잡성을 극한까지 끌어올릴 수 있습니다. 그렇다면 인간은 어떨까요? 인간의 뇌는 본래 엔트로피를 줄이도록 설계되었습니다. 우리는 가장 간단한 규칙과 최소한의 에너지를 사용하여 문제를 해결하는 방법론과 도구를 고안해냅니다. 현재의 모순은 우리 대부분이 여전히 AI를 "정보 도구"(예: 챗봇) 또는 "보조 도구"(예: 지능형 음성)로 취급한다는 것입니다. 정보 도구: 질문하면 답해 줍니다. 단지 "다음 토큰", 즉 기준점을 제공할 뿐입니다. "엔트로피 감소"를 돕는 대신, 엄청난 양의 "잘못된 정보", 심지어 기만적인 정보까지 증폭시킵니다. - 접근성 도구: 내비게이션 조정, 음식 배달 플랫폼인 메이투안 확인 등을 지원합니다. 기존 경험을 향상시켜 주지만, 여전히 없어서는 안 될 도구입니다. 리샹은 AI의 진정한 혁신적 지점은 AI가 '생산 도구'로 진화하는 데 있다고 믿습니다. "생산 도구"란 무엇일까요? 그는 아주 간단하게 "지식과 행동의 통일"이라고 정의했습니다. 단순히 "알고"(알고) 있는 것이 아니라, "행동하고"(실행할 수 있어야 합니다.) 저를 진정으로 대체하고, 전문적인 업무를 완수하고, 제 하루 중 가장 중요한 8시간을 해결할 수 있어야 합니다. 그는 동료들이 스스로 서비스 비용을 지불하기 시작한 커서(Cursor)와 딥 리서치(Deep Research)와 같은 사례를 들었습니다. 왜냐고요? 이러한 도구들이 "일을 처리"하기 시작했기 때문입니다. 단순히 "말"만 하는 것이 아니라 실제로 "일을" 하고 있었던 것입니다. 이는 에이전트를 판단하는 그의 궁극적인 기준으로 이어진다. 에이전트의 유일한 목적은 "제작 도구" 역할을 하는 것이다. 대화만 가능하고 실제 행동을 취할 수 없는 에이전트는 가치가 극히 제한적이다. --- 주제 2: DeepSeek에서 무엇을 배울 수 있을까? 직관에 반하는 "모범 사례" 이 대화에서 리샹은 DeepSeek과 그 설립자 량원펑에 대한 존경심을 감추지 않았습니다. DeepSeek의 오픈소스 특성 덕분에 Ideal의 VLA(Visual Language Action Model) 언어 구성 요소 개발이 9개월이나 앞당겨졌습니다. 이후 Ideal은 DeepSeek에 대한 감사의 표시로 자체 운영 체제를 오픈소스로 공개했습니다. 그렇다면 DeepSeek은 정확히 무엇을 잘했을까요? 리샹의 요약은 다음과 같습니다. "매우 간단한 방법으로 최고의 인간적 관행을 활용합니다." 그는 두 가지 "모범 사례"를 분석했습니다. 첫 번째 접근 방식은 역량(연구 개발)을 개발하는 모범 사례입니다. - 1단계: 조사 수행 2단계: 개발 - 3단계: 역량 표현 - 4단계: 비즈니스 가치로 전환 - 우리가 흔히 저지르는 실수는 첫 번째 단계인 "연구"를 잊은 채 두 번째 단계인 "R&D"로 바로 넘어가는 것입니다. 두 번째 접근 방식은 비즈니스(추론)에 가장 적합한 방식입니다. - 1단계: 지수 분석 2단계: 목표 정의 - 3단계: 새로운 전략 4단계: 피드백/리뷰 - 우리가 흔히 저지르는 실수는 문제에 직면했을 때 세 번째 단계인 "전략"만 바꾸려고 하고, 첫 번째 단계인 "분석", 두 번째 단계인 "목표 설정", 네 번째 단계인 "검토"를 다시 하는 것을 잊는 것입니다. 이러한 단계를 엄격하게 따르는 것은 사실 "인간 본성에 어긋납니다." 인간의 본성은 항상 지름길을 택하고 원하는 것은 무엇이든 하려고 합니다. 훌륭한 조직은 이러한 인간 본성에 맞서 싸우는 조직입니다. 그는 량만풍이 이런 종류의 "자기 훈련"과 "모범 사례 준수"의 화신이라고 믿습니다. --- 주제 3: VLA 이해하기: 드라이버를 "구축"하는 방법은 무엇인가? 이 부분은 "기술 전문가" 모듈 전체에서 가장 핵심적인 부분입니다. 다른 사람들이 여전히 엔드투엔드 솔루션에 대해 이야기하는 동안, Li Xiang은 이미 차세대 VLA(Vision-Language-Action) 아키텍처를 자세히 분석하고 있습니다. 그는 운전자 지원 시스템의 진화를 세 단계로 나누었는데, 이는 매우 적절한 비유입니다. 첫 번째 단계는 규칙 기반 알고리즘 단계입니다. "곤충의 지능"과 유사합니다. 예를 들어, 개미는 고정밀 지도(페로몬)에만 의존하며, 규칙이 엄격하게 정의되어 있어 일반화가 불가능합니다. 두 번째 단계는 종단 간(end-to-end) 단계입니다. 마치 "포유류 지능"과 같습니다. 예를 들어, 서커스 동물은 자전거 타는 모습을 흉내 낼 수 있지만, 물리적 세계를 이해하지는 못합니다. 세 번째 단계는 VLA 단계입니다. "인간 지능"을 추구하는 단계입니다. 단순히 보는 것(시각)뿐만 아니라, 이해하는 것(추론 및 사고 사슬을 포함한 언어)과 실행하는 것(행동)까지 필요합니다. 그렇다면 이 "인간 운전자"는 어떻게 "만들어졌을까요"? 리샹은 간단한 "3단계 훈련 방법"을 제시했습니다. 1단계: 사전 훈련(VL 기반) – "지식을 배우기 위해 학교에 가는 것"과 유사 목표는 모델이 세상을 이해할 수 있도록 하는 것입니다. 훈련에는 어떤 데이터를 사용해야 하나요? 일반적인 코퍼스를 사용하는 것 외에도 Ideal에만 있는 세 가지 유형의 데이터를 사용해야 합니다. 1. 3D 비전 데이터(물리적 세계). 2. 고화질 2D 비전 데이터(예를 들어, 내비게이션 지도를 이해하기 위한 선명도는 오픈 소스보다 10배 더 높음). 3. VL 결합 코퍼스(가장 중요한 것으로, "이 탐색을 보고" + "인간이 이 판단을 내렸다"는 결합 데이터) 그 다음에는 어떻게 되나요? 우리는 클라우드에서 320억 개의 매개변수를 갖는 "의사" 모델을 차량 측에서 32억 개의 매개변수를 갖는 "전문가" MoE 모델로 정제하여 차량에서 실행될 수 있도록 했습니다. 2단계: 훈련 후(행동 통합) - "운전 학교에서 운전 배우기"와 유사 목표는 모방과 학습을 통해 "지식"을 "행동"으로 전환하는 것입니다. 어떻게 훈련하나요? VLA 모델은 인간 운전자의 행동을 통해 학습하고, 자신이 보고 이해하는 내용을 파악한 다음 어떤 조치를 취할지 결정합니다. 3단계: 강화 훈련(RL) – "실제로 도로를 운전하는 것처럼" 목표는 인간만큼 잘, 혹은 인간보다 더 잘 운전하는 것입니다. 어떻게 훈련하나요? 1. RLHF(인간 피드백): 인간의 개입과 운전 습관에 맞춰 "도로 위험 요소"가 아닌 "숙련된 운전자"처럼 운전되도록 조정합니다. 2. 순수 RL(세계 모델): 시뮬레이터(세계 모델)에서 "편안함", "교통 규칙" 및 "충돌"을 보상과 처벌 기준으로 사용하여 자유롭게 실행하고, 스스로 "학습"하도록 하여 평균적인 인간보다 더 잘 운전합니다. 이 세 단계를 거쳐 "VLA 드라이버 모델"이 생성됩니다. 리샹은 운송 부문이 VLA의 가장 초기 적용 분야가 될 것이라고 생각합니다. 더욱이 미래에는 "일반 상담원"은 존재하지 않고, 운전기사, 의사, 변호사 등 수많은 "전문 상담원"만 존재하게 되며, 이들은 모두 통합된 "에이전트 OS(지능형 상담원 운영 체제)"에서 구동될 것입니다. --- 주제 4: 이상적인 결말: "AGI 터미널 회사" 이는 "전략 전문가" 모듈에 대한 반성입니다. Ideal Company는 누구로부터 조직 역량을 배우나요? 리샹이 제안한 경로는 다음과 같습니다. 1. 매출 수십억 달러 시대: Toyota, GM(프로세스), Google(OKR)에서 배우세요. 2. 매출 1000억 시대: 화웨이(IPD, 조직 프로세스)에서 배워보세요. 3. 1조 달러(1000억 달러) 단계에 도달하려면: 우리는 애플에서 배워야 합니다. 우리는 애플로부터 무엇을 배워야 할까? 컴퓨터 회사에서 음악 플레이어 회사, 휴대폰 회사, 서비스 생태계 회사로 확장할 수 있는 능력에서 배워보세요. 이를 바탕으로 리샹은 "이상형"이라는 질문에 궁극적인 답을 제시했습니다. "이상형은 누구입니까?"라는 질문에 그는 더 이상 단순히 자동차를 언급하지 않고 매우 명확한 정의를 내렸습니다. "2030년까지 글로벌 AI 단말 기업으로 도약하고자 합니다." 그는 비유를 들었다. - PC시대에는 터미널 기업(애플)과 플랫폼 기업(마이크로소프트)이 있었습니다. - 모바일 인터넷 시대 : 단말 기업(애플)과 플랫폼 기업(구글)이 있습니다. - AGI 시대에는 필연적으로 플랫폼 기업(OpenAI 등)과 단말 기업이 등장할 것입니다. 이상적으로는 우리는 AGI 시대의 애플이 되어야 합니다. 그는 자동차가 네 가지 요소를 동시에 갖추고 있기 때문에 최초의 진정한 "AGI 터미널"이라고 믿습니다. 1. 360° 물리적 인식 2. 인지적 의사결정 3. 행동할 수 있는 능력; 4. 반성과 피드백. 하지만 그들의 야망은 자동차에 그치지 않을 것입니다. 5천억 대 이상의 규모에 도달하면, 애플의 아이폰처럼 홈 기기나 웨어러블 기기 등 위의 네 가지 요소를 모두 충족하는 다른 AGI 단말기를 개발해야 합니다. 사업 규모가 너무 크다는 비판에 대해 리샹은 직접 이렇게 말했다. "우리의 수익이 1,000억 위안이 넘으면 이런 일을 하는 게 합리적입니다. 수익성이 너무 좋은데 왜 안 하겠습니까?" --- 주제 5: "변화"에서 "성장"으로: 에너지, 지혜, 그리고 친밀한 관계 이 부분은 제가 이 대화에서 가장 좋아하는 부분인데, 바로 "사람"에 대한 이야기입니다. 리샹은 자신의 가장 중요한 경영 철학을 공유했습니다. "사람은 변화하기 어렵지만, 성장하려는 의지는 있습니다." 그래서 그는 경영할 때 "인간의 본성에 맞게 말하되, 그에 반하여 행동한다."라고 했습니다. 그는 인간의 본성에 맞는 말(함께 "성장"하자)을 하되, 그에 반하여 행동했습니다("모범 사례"를 엄격히 시행하자). 그는 또한 "에너지"라는 핵심 개념을 공유했습니다. 그는 조직의 핵심은 3~7명으로 구성된 "에너지 바디"(핵심 파트너 팀)를 구축하는 것이라고 믿습니다. 이 팀은 "더 강한 두뇌"(함께 결정을 내리는 것)와 "더 강한 심장"(서로를 지지하는 것)을 형성해야 합니다. 이 에너지는 어떻게 구성될 수 있을까? 그의 대답은 아버지로서의 경험에서 나왔습니다. "친밀한 관계에서는 자신의 필요를 과감하게 표현해야 합니다... 그들이 나를 필요로 하는 것보다 내가 그들(가족, 동료)을 더 필요로 합니다." 그는 "나는 당신을 필요로 해요"라고 표현할 때 에너지가 흐르기 시작한다는 것을 발견했습니다. 이는 모든 사람이 필요로 되기를 갈망하기 때문입니다. 이를 통해 그는 AI 시대에 대한 궁극적인 성찰을 하게 되었습니다. AI는 '지능'을 담당하고, 인간은 '지혜'를 담당합니다. - 지능(역량): AI는 무한정 개선될 수 있습니다. - 지혜(관계): 리샹은 지혜를 "모든 것과의 관계"로 정의합니다. 즉, 자신과의 관계, 다른 사람과의 관계, 자연과의 관계입니다. AI의 궁극적인 가치는 무엇일까요? 에너지를 소모하고 "지혜"를 창출하지 못하는 저부가가치 노동(예: 초대 전화)에서 인간을 해방시켜, 진정으로 "엔트로피를 줄이고" 에너지를 창출하는 일, 즉 "관계"를 관리하고 "지혜"를 증진하는 일을 할 시간을 확보하는 것입니다. 이는 "AI와 인간의 관계"라는 근본적인 질문에 대한 답일 수 있습니다. 인터뷰 텍스트 링크:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
