Estava lendo um clássico: Scaling Scaling Laws with Board Games (2021) de @andy_l_jones. É justamente famosa por antecipar a escalabilidade da inferência. Mas essa nem é a descoberta mais interessante do artigo! Andy está explorando a relação entre três coisas diferentes: poder computacional de treinamento, poder computacional de teste e complexidade do problema. E as suas descobertas sobre a complexidade do problema (também conhecida como tamanho do tabuleiro do jogo) são as mais interessantes. Por exemplo, você pode perguntar: como o cálculo para passar de uma jogada aleatória para uma jogada perfeita escala à medida que o tamanho do tabuleiro aumenta? E ele descobriu que a escalabilidade é a mesma! Um aumento de uma ordem de magnitude no poder computacional resulta em 500 pontos Elo adicionais, independentemente do tamanho do tabuleiro de jogo. Que estranho! Eu poderia ter contado uma história de que, à medida que o problema se torna mais difícil, o progresso incremental fica muito mais difícil. Mas, na verdade, não é esse o caso. Não encontrei evidências públicas que comprovem se essa descoberta se generaliza para outros domínios, ou se é apenas um produto do espaço de busca do Hex (o jogo em que Andy está treinando). Mas se isso se generalizar, terá implicações drásticas para a Inteligência Artificial Geral (IAG). O mundo é extremamente complexo. Muito mais do que Go ou xadrez. E você pode ter pensado que, por causa disso, uma IA de nível humano com 10 vezes mais poder computacional ainda estaria em um nível próximo ao humano. Mas, na verdade, talvez seja necessário o mesmo aumento relativo no poder computacional para que uma IA passe de um completo leigo para uma IA de inteligência artificial (ASI) do que foi necessário para que o AlphaGo saltasse de 3000 para 3500 pontos no ranking Elo. (Lembre-se de que um aumento linear no Elo corresponde a um aumento exponencial na probabilidade de vitória). Para ser claro, acho que ainda estamos longe do nível de "idiota da aldeia". Mas, uma vez que cheguemos lá, pode ser que precisemos apenas de mais uma ordem de magnitude em poder computacional para alcançarmos o nível de "ASI" (Inteligência Artificial Geral). --- Outras conclusões interessantes: 1. Uma inteligência superior é apenas um conjunto maior de estratégias? Ou existe algo único, coeso e essencial no seu âmago? Pelo menos em Hex, parece ser a primeira opção: "A forma como o desempenho escala com a capacidade computacional é tal que um agente com o dobro da capacidade computacional do seu oponente pode vencer aproximadamente 2/3 das vezes. Esse comportamento é surpreendentemente semelhante ao de um modelo simplificado em que cada jogador escolhe tantos números aleatórios quanto a sua capacidade computacional, e o jogador com o maior número vence. Nesse modelo simplificado, dobrar a capacidade computacional dobra a quantidade de números aleatórios que você sorteia, e a probabilidade de você possuir o maior número é de 2/3. Isso sugere que a complexa mecânica do jogo Hex pode, na verdade, se resumir a cada agente possuir um 'conjunto' de estratégias proporcional à sua capacidade computacional, e quem escolher a melhor estratégia vence." 2. Gostaria de refletir mais sobre isso: "Nossa intuição era de que o processamento computacional em tempo de teste é muito mais 'barato' do que o processamento computacional em tempo de treinamento, e por isso ficamos surpresos que um pudesse substituir o outro com tanta facilidade. No entanto, refletindo sobre o assunto, acreditamos que a principal distinção é que uma otimização em tempo de teste precisa otimizar apenas uma amostra, enquanto o processamento computacional em tempo de treinamento precisa otimizar toda a distribuição de amostras." --- Enfim, vale muito a pena ler tudo. Link abaixo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
