StreetReaderAI : Permettre aux personnes aveugles de profiter librement des services Google Street View Google Research dévoile un prototype de système pour une vue de rue accessible. Il utilise un système d'IA multimodal qui combine compréhension visuelle, informations géographiques et dialogue en temps réel pour permettre une exploration virtuelle des rues guidée par la voix et conversationnelle. Il permet aux utilisateurs aveugles ou malvoyants de comprendre et d'explorer l'environnement de Street View de manière interactive. Les principales caractéristiques de StreetReaderAI sont les suivantes : Description vocale en temps réel – Le système peut décrire automatiquement les rues, les intersections et les bâtiments qui vous entourent grâce à la voix. Fonction de dialogue intelligent - Vous pouvez discuter directement avec l'IA pour poser des questions sur la scène actuelle ou sur les informations géographiques environnantes, telles que « Quel est le bâtiment qui se trouve devant nous ? » ; Navigation accessible – Vous pouvez utiliser la voix ou un clavier pour faire pivoter la vue, avancer ou changer d'emplacement, comme si vous vous promeniez librement dans un monde virtuel.
Il se compose de deux sous-systèmes d'IA principaux : Descripteur d'IA (descripteur de scène) Chat IA (Assistant interactif de questions-réponses) xiaohu.ai/c/xiaohu-ai/st… IA est de générer automatiquement une description vocale de la vue de rue actuelle. AI Chat, basé sur l'API Multimodal Live de Google, permet aux utilisateurs d'interagir avec le système Street View en utilisant le langage naturel. Détails : https://t.co/urqm34eEOA