O Google DeepMind publicou sua pesquisa mais recente na revista Nature, [ensinando IA a ver o mundo como os humanos]. Transformar a IA de uma máquina que "só consegue reconhecer imagens" em um agente inteligente que comece a "compreender imagens". Embora a IA visual seja amplamente utilizada, seus métodos de "compreensão visual" diferem sistematicamente dos dos humanos. A IA não consegue compreender conceitos como "carros e aviões são ambos veículos grandes de metal" da mesma forma que os humanos. Pesquisadores compararam os métodos de compreensão visual de humanos e de IA usando uma tarefa de "encontrar as diferenças", descobrindo que a IA se distrai mais facilmente com características superficiais, como cor e textura, enquanto os humanos se concentram mais nos níveis semânticos. Assim, eles usaram um processo de três etapas para ensinar a IA a pensar como um humano, ajustando a representação visual da IA para se aproximar das estruturas cognitivas humanas. O primeiro passo, baseado no SigLIP-SO400M, é congelar a rede principal e treinar um pequeno adaptador no conjunto de dados THINGS para obter o "modelo professor". O segundo passo é usar um modelo de professor para gerar um conjunto de dados sintéticos em larga escala, o AligNet, para simular o julgamento visual humano. O terceiro passo é treinar um "modelo aluno" usando o AligNet para tornar sua representação interna mais consistente com a hierarquia semântica dos humanos. O modelo alinhado apresenta um desempenho mais consistente e preciso na simulação do julgamento visual humano, exibindo hesitação e incerteza semelhantes às humanas, e ao ser confrontado com novas tarefas. #VLM
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![O Google DeepMind publicou sua pesquisa mais recente na revista Nature, [ensinando IA a ver o mundo como os humanos].](https://pbs.twimg.com/media/G5mVLLhboAAMxKA.jpg)