Google DeepMind publicó su última investigación en Nature, [enseñando a la IA a ver el mundo como los humanos]. Transformar la IA de una máquina que "solo puede reconocer imágenes" en un agente inteligente que comience a "comprender imágenes". Aunque la IA visual se utiliza ampliamente, sus métodos de "comprensión visual" difieren sistemáticamente de los humanos. La IA no puede comprender conceptos como "los coches y los aviones son ambos vehículos metálicos grandes" del mismo modo que lo hacen los humanos. Los investigadores compararon los métodos de comprensión visual humanos y de IA utilizando una tarea de "encontrar las diferencias", y descubrieron que la IA se distrae más fácilmente con características superficiales como el color y la textura, mientras que los humanos se centran más en los niveles semánticos. Así pues, utilizaron un proceso de tres pasos para enseñar a la IA a pensar como un humano, ajustando la representación visual de la IA para que se asemejara más a las estructuras cognitivas humanas. El primer paso, basado en SigLIP-SO400M, consiste en congelar la red troncal y entrenar un pequeño adaptador en el conjunto de datos THINGS para obtener el "modelo maestro". El segundo paso consiste en utilizar un modelo de maestro para generar un conjunto de datos sintéticos a gran escala, AligNet, para simular el juicio visual humano. El tercer paso consiste en entrenar un "modelo estudiante" utilizando AligNet para que su representación interna sea más coherente con la jerarquía semántica de los humanos. El modelo alineado funciona de manera más consistente y precisa al simular el juicio visual humano, exhibiendo vacilación e incertidumbre similares a las humanas, y cuando se enfrenta a nuevas tareas. #VLM
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![Google DeepMind publicó su última investigación en Nature, [enseñando a la IA a ver el mundo como los humanos].
Transf](https://pbs.twimg.com/media/G5mVLLhboAAMxKA.jpg)