X (Twitter)

Estaba leyendo un clásico: Scaling Scaling Laws with Board Games (2021) de @andy_l_jones. Es justamente famosa por anticipar el escalado de inferencias. ¡Pero ese ni siquiera es el hallazgo más interesante del artículo! Andy está explorando la relación entre tres cosas diferentes: la computación durante el entrenamiento, la computación durante las pruebas y la complejidad del problema. Y sus hallazgos sobre la complejidad del problema (también conocida como tamaño del tablero de juego) son los más interesantes. Por ejemplo, podrías preguntarte: ¿cómo se escala el cálculo para pasar de un juego aleatorio a un juego perfecto a medida que aumenta el tamaño del tablero de juego? ¡Y descubre que la escala es la misma! Un aumento de un orden de magnitud en la capacidad de cómputo te da 500 puntos Elo más, sin importar cuán grande o pequeño sea el tablero de juego. ¡Qué raro! Podría haber contado una historia sobre cómo, a medida que el problema se complica, el progreso gradual se vuelve mucho más difícil. Pero en realidad no es así. No he visto evidencia pública sobre si este hallazgo se generaliza a otros dominios, o si es simplemente un producto del espacio de búsqueda de Hex (el juego en el que Andy está entrenando). Pero si se generaliza, entonces tendrá implicaciones dramáticas para la IAG. El mundo es tremendamente complejo. Mucho más que el Go o el ajedrez. Y podrías pensar que, por ello, una IA de nivel humano con diez veces más capacidad de cómputo seguiría estando a un nivel similar. Pero, de hecho, quizá se necesite el mismo aumento relativo de capacidad de cómputo para pasar de ser un simple mortal a una IA de nivel humano que el que necesitó AlphaGo para pasar de 3000 a 3500 puntos Elo. (Ten en cuenta que un aumento lineal en Elo se corresponde con un aumento exponencial en la probabilidad de ganar). Para que quede claro, creo que aún estamos lejos de ser un completo ignorante. Pero una vez que lo logremos, quizá solo necesitemos un orden de magnitud más de capacidad de cómputo para alcanzar el nivel de ASI. --- Otros datos interesantes: 1. ¿Una mayor inteligencia se reduce simplemente a un mayor repertorio de estrategias? ¿O existe algún elemento único, coherente y fundamental en su esencia? Al menos en Hex, parece ser lo primero: La forma en que el rendimiento escala con la capacidad de cómputo es tal que un agente con el doble de capacidad de cómputo que su oponente puede ganar aproximadamente dos tercios de las veces. Este comportamiento es sorprendentemente similar al de un modelo simplificado donde cada jugador elige tantos números aleatorios como capacidad de cómputo tenga, y gana quien obtenga el número más alto. En este modelo simplificado, duplicar la capacidad de cómputo duplica la cantidad de números aleatorios que se generan, y la probabilidad de obtener el número más alto es de dos tercios. Esto sugiere que la compleja mecánica de juego de Hex podría reducirse a que cada agente tenga un conjunto de estrategias proporcional a su capacidad de cómputo, y quien elija la mejor estrategia gana. 2. Quiero reflexionar un poco más sobre esto: Nuestra intuición nos decía que el cálculo durante la fase de prueba es mucho más "económico" que durante la fase de entrenamiento, por lo que nos sorprendió que uno pudiera sustituir fácilmente al otro. Sin embargo, tras una reflexión, creemos que la distinción clave reside en que una optimización durante la fase de prueba solo necesita optimizar sobre una muestra, mientras que el cálculo durante la fase de entrenamiento debe optimizar sobre la distribución completa de muestras. --- En fin, merece la pena leerlo completo. Enlace abajo.

arxiv.org/abs/2104.03113

Hilo de Dwarkesh Patel (@dwarkesh_sp)

Información del autor

Contenido del hilo