메타 모델이 알리바바의 새로운 증류 모델을 사용하는 이유에 대한 심층 분석. 충격적인 소식을 접했습니다. 블룸버그 보도에 따르면 메타의 새로운 모델인 아보카도는 알리바바의 첸웬, 구글의 젬마, 오픈AI의 GPT-OSS와 같은 오픈 가중 모델을 활용하여 개발되었다고 합니다. 게다가 이 모델은 폐쇄형 소스 비즈니스 모델입니다. 또한 Llama는 사실상 서비스가 종료된 것으로 보입니다. 마크 주커버그가 프로젝트를 포기했기 때문입니다. Avocado는 내년 1월에 출시될 예정입니다. 전문가의 관점에서 몇 가지 분석을 드리겠습니다. 왜 교사 모델로 하나만 사용하는 대신 세 가지 모델을 사용하는 걸까요? 이 결정에는 실용적인 이유가 있습니다. 정제 과정에서 여러 교사 모델을 활용하여 어떤 모델이 가장 적합한지 파악하고, 이를 바탕으로 학생 모델을 개발할 수 있습니다. 예를 들어, Qianwen의 개방형 가중치 모델은 다양한 모델을 포함하고 있으며, 중국어 능력과 프로그래밍 능력이 동일한 수준으로 우수함을 보여줍니다. 따라서 Qianwen 모델은 멀티모달 또는 프로그래밍+중국어 학습 영역에서 사용되고, 나머지 두 모델은 다른 영역에서 사용됩니다. 게다가 이 보고서에서 실제로 많은 정보를 얻을 수 있습니다. 원문에는 "구글의 Gemma, OpenAI의 gpt-oss, Qwen을 포함한 경쟁 모델에서 추출"이라는 내용이 언급되어 있는데, 이는 Avocado가 이미 학습 후 단계에 진입했음을 강력하게 시사합니다. 증류는 블랙박스 증류와 중간층 증류로 나눌 수 있습니다. 중간층 증류는 차원 투영을 필요로 하는데, 이는 학생 모델의 구조가 교사 모델의 구조를 모방해야 함을 의미합니다. 만약 이렇게 한다면, 사실상 "모델 복제"가 됩니다. 원문에서는 세 가지 개방형 가중치 모델을 사용했는데, 이들의 구조가 서로 다르기 때문에 중간층 증류가 불가능하다고 했습니다. 따라서 이는 훈련 후 단계에서의 고수준 전략일 가능성이 매우 높으며, 아보카도의 기본 모델은 이미 준비되어 있습니다. Meta는 사후 학습을 위해 자체 데이터를 합성하는 대신 개방형 가중치 모델 증류 방식을 사용하는데, 이는 "도메인별 고품질" 데이터(특히 논리적 추론, 코드, 복잡한 지침 준수 관련 데이터)가 심각하게 부족하다는 것을 의미합니다. Meta가 세계 최대 규모의 데이터셋(수십억 건의 채팅 기록 및 게시물)을 보유한 회사 중 하나라는 점을 고려할 때, 바로 이 점이 Meta의 약점입니다. 페이스북과 인스타그램의 데이터는 구어체, 약어, 감정적인 표현, 짧은 글들로 가득 차 있습니다. 이러한 데이터는 모델에게 "인간처럼 말하는 법"을 가르치는 데는 매우 유용하지만, "엔지니어처럼 생각하는 법"(추론/코딩)을 가르치는 데는 거의 도움이 되지 않으며, 본질적으로 단순한 노이즈에 불과합니다. 올해 10월에 발표된 "LLM 모델은 '두뇌 퇴화'에 걸릴 수 있다!"라는 논문을 기억하는 사람도 있을 것입니다. 이 논문은 소셜 미디어 데이터로 대규모 모델을 학습시키면 모델이 "뇌사 상태"가 될 수 있다고 주장했습니다. TBD(제품) 팀은 FAIR(연구) 팀과 역할이 다르기 때문에 상업적으로 자신들의 능력을 입증해야 할 필요성이 절실합니다. 따라서 경쟁사 모델을 분석하여 체면을 세우는 것은 그들에게 중요하지 않습니다. 사용성과 빠른 배포가 최우선이며, 심지어 마크 저커버그에게 설명하는 것조차 더 중요합니다. 요약하자면, 이 보고서는 해당 부분을 경시하는 경향이 있지만, 여기서 드러나는 정보는 다음과 같습니다. 1. 아보카도가 학습 후 단계에 진입했습니다. 기본 모델 아키텍처는 불확실하지만, 첸웬, 젬마, GPT-OSS와는 확실히 다르며, 메타 자체 아키텍처입니다. 2. Meta는 고품질의 도메인별 데이터(특히 논리적 추론, 코드 및 복잡한 지침 준수 관련 데이터)가 심각하게 부족합니다. 3. 팀은 극심한 압박을 받았고, 그 결과 사후 학습에 이러한 방법을 사용하게 되었습니다. 심지어 이러한 모델을 사용하여 학습용 데이터를 합성하지도 않았습니다. 대신, "답변을 직접 복사"하여 증류 작업을 수행했습니다. 4. 메타는 논리력과 코딩 실력 향상을 위해 "천문정법 요약" 시리즈를 활용하고 있습니다. 이건 알리바바의 "천문정법 요약" 시리즈의 가치를 역으로 "공식 인증"하는 셈 아닌가요? 하하하 #meta #AliQianwen #qwen #아보카도 #라마
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
