Également, une photo de nuit prise dans le nord de Shenzhen (Figure 1). Sans aucune indication, il peut déterminer le lieu précis de prise de vue en fonction des caractéristiques architecturales de l'image (Figure 2). Et cela repose sur un raisonnement et des preuves solides, ce qui est vraiment impressionnant.
Globalement, la capacité de « pensée par l'image » introduite par ce modèlhuggingface.co/baidu/ERNIE-4.…s performante ; elle semble capable de percevoir et de comprendre réellement les informations visuelles. Aucune démo en ligne n'est encore disponible, mais le modèle est open source. Téléchargement du modèle : https://t.co/WOYawrwuZL

