Google DeepMind a publié ses dernières recherches dans la revue Nature, [apprenant à l'IA à voir le monde comme les humains]. Transformer l'IA d'une machine qui « ne peut que reconnaître des images » en un agent intelligent qui commence à « comprendre les images ». Bien que l'IA visuelle soit largement utilisée, ses méthodes de « compréhension visuelle » diffèrent systématiquement de celles des humains. L'IA ne peut pas appréhender des concepts comme « les voitures et les avions sont tous deux de gros véhicules métalliques » de la même manière que les humains. Des chercheurs ont comparé les méthodes de compréhension visuelle humaines et celles de l'IA à l'aide d'une tâche de « repérage des différences », et ont constaté que l'IA est plus facilement distraite par des caractéristiques superficielles telles que la couleur et la texture, tandis que les humains se concentrent davantage sur les niveaux sémantiques. Ils ont donc utilisé un processus en trois étapes pour apprendre à l'IA à penser comme un humain, en ajustant la représentation visuelle de l'IA pour qu'elle se rapproche davantage des structures cognitives humaines. La première étape, basée sur SigLIP-SO400M, consiste à figer le réseau dorsal et à entraîner un petit adaptateur sur l'ensemble de données THINGS pour obtenir le « modèle enseignant ». La deuxième étape consiste à utiliser un modèle enseignant pour générer un ensemble de données synthétiques à grande échelle, AligNet, afin de simuler le jugement visuel humain. La troisième étape consiste à entraîner un « modèle étudiant » à l'aide d'AligNet afin de rendre sa représentation interne plus cohérente avec la hiérarchie sémantique des humains. Le modèle aligné est plus performant et plus précis dans la simulation du jugement visuel humain, présentant une hésitation et une incertitude similaires à celles des humains, et ce, face à de nouvelles tâches. #VLM
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
