O processo antitruste contra a Microsoft foi um dos vários pontos críticos que levaram ao estouro da bolha das empresas ponto com. Um processo judicial histórico sobre direitos autorais contra a OpenAI/Microsoft/Google será um prenúncio do próximo. Há um enorme risco envolvido: se algum desses players for proibido de treinar modelos com base em obras protegidas por direitos autorais, isso criará um precedente que levará ao colapso total da viabilidade econômica dos dados de treinamento para toda a indústria, incluindo o treinamento de LLMs, VLMs, modelos de vídeo, modelos de imagem... e a lista continua. Precisaremos de uma geração de IA na próxima onda que seja capaz de raciocinar genuinamente e criar novas informações a partir da distribuição, em vez de ser apenas um mecanismo de busca recombinante. É verdade que os dados de treinamento sempre serão um requisito, mas precisamos ser capazes de aproveitar o poder computacional em uma base de dados menor e obter retornos excepcionais em relação ao investimento inicial. Você precisa ser capaz de obter os direitos de um romance e fazer com que a IA escreva 10, em vez de precisar comprar os direitos de 1 milhão de romances apenas para que ela escreva um (e seriam palavras recombinadas de 1 milhão de romances, em vez de ser um novo romance fora de circulação). O pré-treinamento com dados livres de direitos autorais provavelmente continuará a desempenhar um papel importante, mas certamente muda o paradigma do pré-treinamento em larga escala na formação de modelos. Será necessário dar mais atenção aos algoritmos.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.