Rich Sutton se preparando para elaborar sua "visão de Superinteligência sem amargura" (com a qual ele aparentemente quer dizer apenas que ela respeita sua dura lição - e não qualquer amargura colateral causada a todos nós 😋) #NeurIPS2025
Sobre as "opções" — elas são uma generalização MDP dos macro-operadores STRIPS. O desafio com elas não é tanto como criá-las — existem muitas — mas sim como manter apenas as boas e descartar as inúteis — o chamado "problema da utilidade".
Uma preocupação que tenho em relação a esse tipo de abordagem que permite ao agente "descobrir suas próprias abstrações" é que essas abstrações podem não corresponder às que desenvolvemos, agravando assim o problema de alinhamento.
Ufa! Que bom que o Rich aprovou o planejamento! Mas falando sério, concordo que "planejar" é converter o modelo de transição que o agente já possui em uma política; porém, muitas vezes é difícil separar planejamento e apx.com/rao2z/status/1…/t.co/72HjXOJ1G6 #NeurIPS2025
Mudando de assunto, fico pensando quantos na plateia sabem que "Modelos de Transição" é apenas o nome em RL para o termo mais popular em LLM, "Modelo Mundial"... #NeurIPS2025 [Aliás, adorei a forma como Rich descartou a questão "o medo da morte é necessário para o comportamento ético?" com um "Não... e isso também não tem nada a ver com a minha palestra..."]
Resumindo: a palestra de Rich no #NeurIPS2025 exorta aqueles que defendem que "LLMs é tudo o que você precisa" a prestarem mais atenção aos desafios de aprender com a experiência real... mas, na minha opinião, ele subestima a dificuldade de fazer isso rx.com/rao2z/status/1…to humano existente. https://t.co/85IfNVLC3j
As pessoas subestimam o quão mais difícil seria alinhar agentes que aprendem puramente com a própria experiência aos nossos valores. Por mais que o alinhamento de LLM tenha se tornado uma espécie de indústria caseira, é brincadeira de cx.com/rao2z/status/1…NeurIPS2025




