Para facilitar a visualização dos vídeos, compilamos uma lista de termos relacionados à IA que aparecem neles. Aprendizagem por Reforço (AR) Imagine que você está ensinando uma criança a andar de bicicleta. Você não lhe daria um "Manual Padrão de Ciclismo", mas sim o deixaria tentar sozinho. Se ele cair, dói (punição), e se ele pedalar com firmeza, fica feliz (recompensa). Ele aprenderá naturalmente depois de algumas tentativas. Este é o cerne da aprendizagem por reforço: aprender com a experiência, orientado por objetivos. Sutton (aquele que ganhou o Prêmio Turing) acredita que este é o verdadeiro fundamento da IA. O agente executa ações, experimenta os resultados e, em seguida, ajusta sua estratégia para obter mais recompensas. É como jogar um jogo; você morre e começa de novo, descobrindo gradualmente as estratégias. Modelos de Linguagem de Grande Porte (LLMs) Gemini, ChatGPT e Claude seguem uma lógica diferente. A tarefa deles é simples: adivinhar a próxima palavra. Forneça a ele uma quantidade enorme de texto para que ele aprenda "é assim que os humanos geralmente falam". Mas Sutton sentiu que isso era um beco sem saída. Por quê? Porque se trata apenas de imitação, sem um objetivo real, e não de aprendizado a partir da experiência concreta. Assim como alguém que memorizou várias receitas pode não saber realmente como cozinhar. Modelo Mundial Você pode arremessar uma bola sem realmente arremessá-la; você pode prever mentalmente onde ela vai cair. Este é o modelo do mundo, sua compreensão das leis da física. Sutton afirmou que os mestrados em Direito (LLM) não possuem isso. Eles só conseguem prever "o que os humanos vão dizer", mas não "o que vai acontecer no mundo real". Meta Ter um objetivo é o que torna algo inteligente. Um sistema sem objetivo é como um papagaio que apenas repete o que você diz. Em aprendizado por reforço (RL), o objetivo é transformado em um sinal de recompensa, dizendo ao sistema "fazer isso é a coisa certa a fazer". Para os esquilos, o objetivo é encontrar nozes. Para o AlphaGo, o objetivo é vencer o jogo. Quais são os objetivos dos LLMs? Sutton considerava que "prever a próxima palavra" não era um objetivo substancial. Dados de experiência versus dados de treinamento Experiência é quando você realmente faz algo e vê as consequências. Eu toquei na chaleira e me queimei. Da próxima vez, já sei que não devo tocá-la. Os dados de treinamento são o que os outros lhe dizem: "A chaleira vai esquentar." Você se lembrou disso, mas não vivenciou de verdade. Sutton enfatizou que o verdadeiro aprendizado deve vir da experiência. Aprendizagem por Diferença Temporal (Aprendizagem TD) A obra-prima de Sutton. A questão a ser abordada é: como trabalhar de trás para frente, partindo de objetivos de longo prazo para deduzir ações de curto prazo? Ao jogar xadrez, você não sabe se sua jogada é boa ou ruim até o final. A tecnologia TD Learning permite que o sistema preveja se "essa ação irá melhorar ou piorar a situação" e, em seguida, ajuste sua estratégia imediatamente. É como corrigir sua rota de navegação enquanto você viaja; você não precisa esperar chegar ao destino para perceber que foi pelo caminho errado. Função de valor Avalie cada estado: "Considerando a situação atual, quais são as chances de atingir o objetivo?" A pontuação aumentou, o que significa que a etapa anterior estava correta; continue a reforçá-la. A pontuação caiu, o que significa que você errou. Não faça isso de novo da próxima vez. Representação do Estado A percepção de "Onde estou agora?" Ao entrar em um cômodo, você consegue identificar imediatamente se é uma cozinha ou um quarto. A IA também precisa transformar os dados dos sensores em "estados" para poder tomar decisões. Modelo de Transição Um modelo causal que pergunta "O que aconteceria se eu fizesse isso?" Você sabe que empurrar a porta a abrirá e que apertar o interruptor acenderá a luz. Essa é a sua compreensão das leis físicas do mundo. Sutton disse que essa era a única coisa que ele queria chamar de "modelo". A Lição Amarga O argumento central de um artigo que Sutton escreveu em 2019 é: Não imponha o conhecimento humano à IA; deixe-a aprender por conta própria. A história tem demonstrado repetidamente que os "métodos inteligentes" que se baseiam no conhecimento de especialistas humanos são os mais eficazes. No final, todos perderam para o método de força bruta de "usar poder computacional massivo para aprender". Os modelos de regressão logística parecem confirmar isso (treinados com quantidades massivas de dados). Mas Sutton acredita que eles acabarão se tornando contraexemplos porque lhes falta o elemento de "aprender com a experiência". Paradoxo de Moravec O que os humanos acham fácil, a IA acha difícil. O que os humanos acham difícil, a IA acha fácil. Deixe a IA resolver problemas matemáticos avançados — é moleza. Mas e se ensinássemos um robô a andar e a agarrar objetos como um bebê? Veja o progresso dos robôs atualmente. Sucessão de IA A previsão ousada de Sutton: a inteligência digital acabará por substituir os humanos como força dominante. Não se trata de uma revolta de robôs como nos filmes de ficção científica, mas sim de uma consequência inevitável da evolução. Assim como os organismos unicelulares evoluíram para organismos multicelulares. Agora é a hora de a "inteligência projetada" substituir a "inteligência evoluída naturalmente". Ele chamou isso de Era do Design. Em vez de depender da replicação de genes, projetamos diretamente agentes inteligentes e compreendemos plenamente como eles funcionam. TD-Gammon Na década de 1990, Jerry Tassarro usou o TD Learning para treinar uma IA que jogava gamão e derrotou o campeão mundial. Esta é a primeira vez que o aprendizado por reforço se mostrou eficaz. AlphaGo / AlphaZero Você com certeza já ouviu falar da vitória do AlphaGo sobre Lee Sedol. Mas ainda mais impressionante é o AlphaZero, que aprende inteiramente através de partidas individuais, sem precisar de registros de jogos humanos, e acaba fazendo movimentos que os humanos nunca viram antes. Sutton mencionou especificamente que o AlphaZero sacrifica peças em troca de vantagens posicionais, um estilo de "não ser ganancioso por ganhos imediatos" que até mesmo mestres humanos consideram incrível. MuZero Mais um trabalho da DeepMind. Curiosamente, não se trata de um "agente de propósito geral", mas sim de uma estrutura de treinamento; a cada vez, um agente específico precisa ser treinado para um jogo em particular. Isso também reflete as limitações atuais da IA: ela ainda não consegue atingir uma verdadeira inteligência geral. Diversas figuras-chave Richard Sutton, o pai do aprendizado por reforço e vencedor do Prêmio Turing, inventou o TD Learning e o Policy Gradient Learning. John McCarthy define inteligência como "a parte computacional da capacidade de atingir um objetivo". Alan Turing disse certa vez: "Queremos uma máquina que possa aprender com a experiência." Joseph Henrich estuda a evolução cultural, explicando como os humanos transmitem habilidades complexas por meio da imitação.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.