StreetReaderAI: Permitiendo a las personas ciegas disfrutar libremente de los servicios de Google Street View Google Research presenta un sistema prototipo para una vista de calle accesible. Utiliza un sistema de IA multimodal que combina la comprensión visual, la información geográfica y el diálogo en tiempo real para permitir la exploración virtual de calles mediante conversaciones y guiadas por voz. Permite a los usuarios ciegos o con discapacidad visual comprender y explorar el entorno de Street View de forma interactiva. Las principales características de StreetReaderAI incluyen: Descripción de voz en tiempo real: el sistema puede describir automáticamente las calles, intersecciones y edificios que te rodean mediante la voz. Función de diálogo inteligente: puedes chatear directamente con la IA para preguntar sobre la escena actual o información geográfica cercana, como "¿Qué edificio es ese que tenemos delante?". Navegación accesible: puedes usar la voz o el teclado para rotar la vista, avanzar o cambiar de ubicación, como si caminaras libremente en un mundo virtual.
Consta de dos subsistemas centrales de IA: Descriptor de IA (descriptor de escena) Chat con IA (Asistente interactivo de preguntas y respuestas) Lxiaohu.ai/c/xiaohu-ai/st…r de IA es generar automáticamente una descripción de voz de la vista actual de la calle. El chat con IA, impulsado por la API Multimodal Live de Google, permite a los usuarios interactuar con el sistema Street View utilizando lenguaje natural. Detalles: https://t.co/urqm34eEOA