Uma escadaria de sigmóides Após ler o artigo de Dwarkesh, investiguei uma referência que me deixou bastante preocupado. No post, ele menciona: "Toby Ord tem um ótimo artigo onde ele conecta de forma inteligente os pontos entre diferentes gráficos de benchmark da série O, sugerindo que 'precisamos de algo como um aumento de 1.000.000x na capacidade total de computação de RL para dar um impulso semelhante ao nível do GPT'." Isso dá a entender que as coisas vão estagnar. Toby chegou ao ponto de dizer duas coisas que me deixaram preocupado: 1. "Observamos ganhos impressionantes, mas eles só foram viáveis partindo de uma base muito baixa. Chegamos ao ponto em que é muito caro ir muito além." 2. "Agora que o treinamento por aprendizado por reforço está se aproximando de seu limite efetivo, podemos ter perdido a capacidade de transformar efetivamente mais poder computacional em mais inteligência." Perguntei por aí o quão legítima era essa afirmação e qual era o argumento contrário, bastante otimista, para a expansão do aprendizado por reforço. Um bom amigo disse: "Sim, se você continuar escalando ingenuamente a computação por aprendizado por reforço, ela terá um desempenho ruim. Mas não devemos fazer isso! É por isso que existem tantas empresas de ambientes de aprendizado por reforço. Uma abordagem melhor é escalar para ambientes mais novos e mais complexos." Depois de refletir um pouco, encontrei uma maneira de resumir isso ainda mais: "Imaginar isso como uma escada, com suas funções sigmóides para novas tarefas, mundos e objetivos, é a maneira mais útil de pensar em como isso pode continuar por um tempo."
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.