Será que os Grandes Modelos de Linguagem estão mortos? O padrinho do aprendizado por reforço acredita que eles são um beco sem saída. Quem fez essa declaração absurda foi Richard Sutton, um dos fundadores do aprendizado por reforço. Seu ponto de vista é direto: LLM não é inteligência artificial fundamental; é meramente uma tendência no campo da IA. O verdadeiro fundamento da IA deve ser o aprendizado por reforço. Suas opiniões são radicais, mas as razões que ele apresenta merecem ser consideradas. O primeiro problema fatal: "Inteligência" sem um objetivo. Sutton levantou uma questão: algo pode ser chamado de inteligência se não tiver um objetivo? Ele citou a definição de John McCarthy, dizendo que a essência da inteligência é "a parte computacional da capacidade de atingir um objetivo". De acordo com essa norma, quais são os problemas existentes com o LLM? O chamado "objetivo" do LLM é simplesmente prever a próxima palavra. Você digita um texto e ele te diz quais palavras provavelmente aparecerão em seguida. Mas isso é considerado um objetivo? Sutton foi direto ao ponto: Os tokens vêm até você por conta própria. Você prevê os tokens, mas não pode influenciá-los de forma alguma. Não se trata de objetivos no mundo exterior; é apenas um jogo de palavras. Sem um objetivo, não existe definição de "correto". O que constitui a coisa certa a fazer? Em aprendizado por reforço, a resposta é clara: coisas que lhe trazem recompensas. Mas e o LLM? Ele possui até mesmo um padrão vago para o que é certo e errado. O segundo defeito grave: a falta de um modelo de mundo realista. Em que serve o LLM? Em imitar seres humanos. Ele pode imitar a maneira como as pessoas falam, escrevem e até pensam. Mas Sutton afirmou: Imitar a linguagem não é o mesmo que compreender o mundo. O LLM pode prever o que uma pessoa dirá, mas não pode prever o que acontecerá. Essa distinção é crucial. Um modelo de mundo verdadeiro deve permitir que você preveja as consequências de suas ações. Por exemplo, se eu empurrar a xícara da mesa, ela cairá no chão e se quebrará. Trata-se de uma compreensão do mundo físico. Mas e quanto ao LLM? Ele só sabe que "as pessoas geralmente dizem que a xícara vai quebrar", o que são duas coisas diferentes. Mais importante ainda, os mestres em Direito não aprendem com acidentes. Suponha que você preveja que algo A acontecerá, mas em vez disso acontece B. Um sistema que realmente entende o mundo dirá: "Ah, estou errado, preciso ajustar meu modelo." Mas o LLM não dirá. Não existe esse conceito de "acidente" porque o modelo nunca prevê o mundo real; ele apenas prevê o que as pessoas dirão nos dados de treinamento. O resumo de Sutton é esclarecedor: o LLM aprende com dados de treinamento, não com a experiência. O que é experiência? É fazer algo e depois ver o que realmente acontece. Esse tipo de interação direta é a verdadeira fonte de aprendizado. O terceiro paradoxo: a armadilha da escalabilidade Sutton escreveu um artigo famoso chamado "A Lição Amarga". Ideia central: A história tem demonstrado repetidamente que os métodos que dependem do conhecimento humano acabarão por perder para os métodos que dependem puramente da computação e da aprendizagem. Muitas pessoas acreditam que o LLM é o exemplo mais recente dessa lição. Veja bem, os modelos treinados com quantidades massivas de dados e poder computacional não superam os sistemas de regras tradicionais? Mas Sutton disse: Aguardem para ver, o LLM acabará se tornando o oposto desta lição. Por quê? Porque o LLM, em essência, ainda depende do conhecimento humano. Aprende com a escrita, a fala e as ações humanas. Esses são os frutos do conhecimento humano. Sutton acredita que a abordagem verdadeiramente escalável é... O próprio sistema testa e observa o que funciona e o que não funciona. Não precisa que ninguém lhe diga o que é certo ou errado; aprende sozinha através da interação com o mundo. Este é o princípio fundamental da aprendizagem por reforço: o agente tem um objetivo, o agente realiza uma ação, o agente observa os resultados e o agente ajusta sua estratégia. Esse ciclo pode continuar indefinidamente, em constante evolução. E quanto ao LLM? O aprendizado nele termina no momento em que o treinamento acaba. Não consegue continuar aprendendo no mundo real porque simplesmente não sabe como interagir com o mundo. O mestrado em Direito (LLM) é como ser um mestre na imitação de idiomas. Ela consegue memorizar perfeitamente todos os roteiros e diálogos humanos; qualquer pergunta que você fizer, ela pode lhe dar uma resposta aparentemente plausível. Mas o que lhe falta? Falta-lhe a capacidade de agir. Não sabe o que quer (não tem objetivo). Não sei quais seriam as consequências de dizer essas coisas no mundo real (não tenho um modelo do mundo). É simplesmente uma máquina de encadeamento de palavras extremamente complexa. Qual seria a verdadeira inteligência? Deveria ser uma entidade com objetivos próprios, capaz de interagir com o mundo, aprender com cada interação e ajustar constantemente suas estratégias para melhor atingir seus objetivos. É isso que Sutton considera "IA básica". As opiniões de Sutton podem não estar totalmente corretas, mas as questões que ele levantou merecem ser consideradas. Talvez os mestrados em direito (LLMs) não "morram", pois continuarão sendo valiosos em muitos cenários de aplicação. Mas se o nosso objetivo é alcançar uma verdadeira inteligência artificial geral (AGI). O alerta de Sutton merece ser seriamente considerado: Ser capaz de falar não significa ser capaz de pensar. Ser capaz de imitar não significa ser capaz de aprender. A verdadeira inteligência pode exigir objetivos, ações e interação real com o mundo. Nossa jornada por este caminho está apenas começando. --- O texto acima foi gerado por IA e editado e formatado manualmente. Veja o vídeo na seção de comentários.
Se você lê frequentemente artigos sobre interpreyoutube.com/watch?v=21EYKq…rtificial, com certeza já se deparou com o artigo "Uma Lição Amarga". O velho de camisa florida tinha uma língua muito afiada. https://t.co/QfaCNFRCVO