X (Twitter)

마이크로소프트 반독점 소송은 도트컴 붕괴의 여러 촉발점 중 하나였습니다. OpenAI/Microsoft/Google에 대한 획기적인 저작권 소송은 다음 소송의 전조가 될 것입니다. 여기에는 엄청난 양의 노출이 있습니다. 이러한 플레이어 중 하나가 저작권이 있는 작품에 대한 모델을 훈련하는 것을 더 이상 허용하지 않으면 LLM, VLM, 비디오 모델, 이미지 모델을 훈련하는 전체 산업에서 훈련 데이터의 경제성이 완전히 붕괴되는 선례가 만들어집니다. 목록은 계속됩니다. 다음 세대에서는 재조합 검색 엔진이 아닌 분포에서 진정한 추론과 새로운 정보 생성이 가능한 AI 세대가 필요할 것입니다. 물론, 훈련 데이터는 항상 필요하지만 더 작은 데이터 기반에서 컴퓨팅을 활용하고 입력에 비해 엄청난 수익을 얻을 수 있어야 합니다. 소설 한 권에 대한 권리를 획득하고 AI가 10권을 쓸 수 있어야 하는 것이지, 100만 권의 소설에 대한 권리를 구매하여 단 한 권만 쓰게 하는 것이 아닙니다(또한 이는 새로운 단행본 소설이 아니라 100만 권의 소설에서 재조합된 단어가 될 것입니다). 로열티 프리 데이터에 대한 사전 학습은 앞으로도 중요한 역할을 할 것으로 예상되지만, 이는 모델 형성에 있어 대규모 사전 학습의 패러다임을 확실히 변화시킬 것입니다. 알고리즘에 더욱 집중해야 할 것입니다.

Damian Tran(@damianvtran)의 스레드

작성자 정보

스레드 내용