Além disso, uma foto noturna tirada no norte de Shenzhen (Figura 1). Sem qualquer instrução, ele consegue determinar o local específico da filmagem com base nas características arquitetônicas da imagem (Figura 2). E é baseado em raciocínio e evidências sólidas, o que é realmente impressionante.
De modo geral, a capacidade de "pensamento imagético" introduzida por estehuggingface.co/baidu/ERNIE-4.…nte forte; parece ser capaz de realmente ver e compreender informações visuais. Ainda não há uma demonstração online disponível, mas o modelo é de código aberto. Download do modelo: https://t.co/WOYawrwuZL

