다음 내용은 탕지에의 weibo.com/2126427211/QjI…/t.co/AOdkBXNIey 최근에 알게 된 몇 가지 통찰을 공유하고 싶습니다. 여러분께 도움이 되기를 바랍니다. 사전 학습을 통해 대규모 모델은 세상에 대한 상식적인 지식을 습득하고 기본적인 추론 능력을 갖추게 됩니다. 더 많은 데이터, 더 큰 매개변수, 그리고 더욱 포화된 연산 능력은 여전히 기본 모델을 확장하는 가장 효율적인 방법입니다. 정렬 기능을 활성화하고 추론 능력을 향상시키는 것, 특히 보다 포괄적인 롱테일 데이터 처리 능력을 활성화하는 것은 모델 성능을 보장하는 또 다른 핵심 요소입니다. 일반적인 벤치마크는 모델의 전반적인 성능을 평가하지만, 많은 모델에서 과적합을 초래할 수도 있습니다. 실제 시나리오에서 모델은 어떻게 롱테일 데이터를 더 빠르고 정확하게 정렬하여 현실감을 높일 수 있을까요? 학습 중간 및 학습 후 단계에서의 처리는 더 많은 시나리오에서 빠른 정렬과 강력한 추론 능력을 가능하게 합니다. 에이전트 기능은 모델 역량 확장에 있어 중요한 이정표이며, AI 모델이 현실 세계(가상/물리 세계)에 진입할 수 있도록 하는 핵심 요소입니다. 에이전트 기능이 없다면, 대규모 모델은 마치 박사 학위를 취득한 사람이 끊임없이 학습하더라도 지식만 축적할 뿐 생산성으로 전환하지 못하는 것처럼 (이론 학습) 단계에 머물러 있을 것입니다. 이전에는 모델에 에이전트를 적용하는 방식이었지만, 이제는 모델이 에이전트 데이터를 학습 과정에 직접 통합할 수 있게 되어 활용도가 향상되었습니다. 그러나 여전히 해결해야 할 과제는 다양한 에이전트 환경 간의 일반화 및 전이 학습입니다. 따라서 가장 간단한 해결책은 다양한 에이전트 환경에서 데이터를 지속적으로 축적하고, 각 환경에 맞춘 강화 학습을 구현하는 것입니다. 모델 메모리 확보는 실제 환경에 모델을 적용하기 위한 필수 요소입니다. 인간의 기억은 단기 기억(전두엽 피질), 중기 기억(해마), 장기 기억(대뇌 피질), 그리고 과거 기억(위키 또는 역사책)의 네 단계로 나뉩니다. 대규모 모델이 이러한 다양한 기억 단계에 걸쳐 메모리를 확보하는 방법은 매우 중요합니다. 맥락, 시간 범위, 그리고 모델 매개변수는 인간 기억의 각 단계에 대응할 수 있지만, 이를 어떻게 구현하느냐가 핵심입니다. 한 가지 접근 방식은 메모리 압축, 즉 맥락 정보만 저장하는 것입니다. 대규모 모델이 충분히 긴 맥락 정보를 저장할 수 있다면, 단기, 중기, 장기 기억을 모두 확보하는 것이 사실상 가능해집니다. 그러나 모델 지식을 반복적으로 학습하고 모델 매개변수를 수정하는 것은 여전히 상당한 과제입니다. - 온라인 학습 및 자기 평가. 메모리 메커니즘에 대한 이해를 바탕으로 온라인 학습이 핵심 과제로 떠오릅니다. 현재 대규모 모델은 주기적으로 재학습되는데, 이는 여러 문제점을 야기합니다. 모델이 진정한 의미의 자기 반복 학습을 할 수 없다는 것입니다. 하지만 자기 학습과 자기 반복 학습은 차세대 모델의 필수 역량이 될 것입니다. 또한 재학습은 비효율적이며 많은 상호작용 데이터를 손실하게 합니다. 따라서 온라인 학습을 어떻게 구현할 것인가가 중요하며, 자기 평가는 온라인 학습의 핵심 요소입니다. 모델이 스스로 학습하려면 먼저 자신의 판단이 맞는지 틀린지 알아야 합니다. (확률적으로라도) 이를 알게 되면 최적화 목표를 파악하고 스스로 개선할 수 있습니다. 따라서 모델의 자기 평가 메커니즘을 구축하는 것은 어려운 과제입니다. 이는 차세대 스케일링 패러다임이 될 수도 있습니다. 지속적 학습/실시간 학습/온라인 학습? 마지막으로, 대규모 모델 개발이 점점 더 엔드투엔드 방식으로 진행됨에 따라 모델 개발과 응용을 결합하는 것은 필연적입니다. AI 모델 응용의 주된 목표는 새로운 앱을 만드는 것이 아니라, AI가 인간의 업무를 대체하는 데 있습니다. 따라서 다양한 직종을 대체할 수 있는 AI를 개발하는 것이 핵심입니다. 챗봇은 검색을 부분적으로 대체하고, 어떤 면에서는 감정적인 상호작용까지 포함합니다. 내년은 AI가 다양한 직종을 대체하는 데 있어 획기적인 해가 될 것입니다. 결론적으로, 다중 모달리티와 구현에 대해 논의해 보겠습니다. 다중 모달리티는 분명 유망한 미래 기술이지만, 현재 문제는 AGI의 지능적 상한선에 크게 기여하지 못하고 있으며, 일반 AGI의 정확한 지능적 상한선조차 아직 알려지지 않았다는 점입니다. 아마도 가장 효과적인 접근 방식은 텍스트, 다중 모달리티, 다중 모달 생성을 각각 분리하여 개발하는 것일 것입니다. 물론, 이 세 가지를 적절히 결합하여 탐구한다면 매우 다양한 가능성을 발견할 수 있겠지만, 이를 위해서는 용기와 상당한 재정적 지원이 필요합니다. 마찬가지로, 에이전트를 이해한다면 체화된 지능의 문제점이 무엇인지 알 수 있을 것입니다. 일반화가 너무 어렵다는 점(반드시 그런 것은 아니지만) 외에도, 소규모 샘플로는 일반적인 체화된 능력을 활성화하는 것이 사실상 불가능합니다. 그렇다면 어떻게 해야 할까요? 데이터를 수집하거나 종합하는 것은 쉽지도 않고 비용도 많이 듭니다. 반대로 데이터 규모가 커지면 일반적인 능력이 자연스럽게 드러나면서 진입 장벽이 생길 것입니다. 물론 이것은 지능과 관련된 문제에 불과합니다. 체화된 지능의 경우 로봇 자체도 문제입니다. 불안정성과 잦은 오작동은 체화된 지능의 발전을 저해합니다. 2026년까지 이러한 분야에서 상당한 진전이 기대됩니다. 도메인 마스터 모델과 그 응용 분야에 대해서도 논의해 보겠습니다. 저는 항상 도메인 마스터 모델 자체가 잘못된 명제라고 생각해 왔습니다. AI가 이미 보편화된 상황에서 도메인 특화 AI가 과연 존재할까 하는 의문이 들었기 때문입니다. 하지만 AI가 아직 완전히 실현되지 않았기에 도메인 모델은 앞으로도 오랫동안 존재할 것입니다(AI 개발 속도를 고려하면 얼마나 오래 지속될지는 예측하기 어렵습니다). 도메인 모델의 존재는 본질적으로 애플리케이션 기업들이 AI 기업들에게 패배를 인정하고 싶어 하지 않는다는 것을 반영합니다. 그들은 도메인 노하우라는 해자를 쌓아 AI의 침입을 막고 AI를 도구로 활용하려 합니다. 그러나 AI는 본질적으로 쓰나미와 같습니다. 모든 것을 휩쓸어 버립니다. 결국 일부 도메인 기업들은 해자를 뚫고 AI의 세계로 진입하게 될 것입니다. 간단히 말해, 도메인 데이터, 프로세스, 에이전트 데이터는 점차 마스터 모델에 편입될 것입니다. 대규모 모델을 적용할 때는 기본 원칙으로 돌아가야 합니다. 인공지능(AI)은 새로운 애플리케이션을 만들어낼 필요가 없습니다. AI의 본질은 특정 필수적인 인간 활동(특정 직무)을 수행하는 데 있어 인간을 모방하거나, 대체하거나, 지원하는 것입니다. 이는 크게 두 가지 유형으로 나눌 수 있습니다. 하나는 기존 소프트웨어에 AI 기능을 추가하여 인간의 개입이 필요했던 부분을 수정하는 것이고, 다른 하나는 특정 직무에 맞춰 인간의 노동력을 대체하는 AI 소프트웨어를 개발하는 것입니다. 따라서 대규모 모델을 적용할 때는 사람들에게 도움을 주고 새로운 가치를 창출해야 합니다. AI 소프트웨어가 개발되었지만 아무도 사용하지 않고 가치를 창출하지 못한다면, 그 AI 소프트웨어는 생명력을 갖지 못합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.