X (Twitter)

Google은 Gemini 기반의 StreetReaderAI라는 거리 뷰 탐색용 AI 도구를 개발하고 있습니다. 이 도구는 거리 뷰를 음성으로 접근 가능한 탐색 시스템으로 바꿔줍니다. 질문에 대한 답변 정확도는 86%에 달했습니다. 현재 우리는 접근 가능한 내비게이션 시스템을 갖추고 있습니다. 미래에는 AI 기반 투어 가이드가 "지하철 역에서 도서관까지 걸어가는 데 도움을 주세요, 길을 따라 장애물이 있는지 확인해 주세요, 도서관 입구가 어떤 모습인지 알려주세요"와 같이 현장 조사를 수행하는 데 도움을 줄 수 있을 것입니다. 여러 기능을 갖추고 있는데, 그중 하나가 실시간 AI 장면 설명 기능입니다. 제미니는 사용자의 위치, 방향 및 기타 지리 정보를 가상 거리 뷰에 결합하여 도로, 교차로 및 랜드마크에 대한 실시간 보고서를 제공합니다. 두 번째 기능은 사용자의 모든 움직임을 기억하는 멀티턴 대화 도구인 AI 채팅입니다. "방금 방문한 버스 정류장에 좌석이 있었나요?"와 같은 질문을 하거나, 현재 또는 이전 풍경과 주변 지형에 대한 질문을 할 수 있습니다. Gemini Live 기반의 이 기능은 실시간 상호작용, 함수 호출, 그리고 단일 세션 내 모든 상호작용의 임시 저장을 지원합니다. 100만 개의 토큰 컨텍스트와 약 4,000개의 스트리트 뷰 이미지를 지원합니다. 좌우 화살표로 방향을 전환하고, 상하 화살표로 앞뒤로 이동할 수 있습니다. 음성 명령도 지원하여 각 단계의 방향과 거리 정보를 제공합니다. 시각 장애인 11명을 대상으로 실시한 실험에서 AI 채팅은 AI 실시간 장면 설명보다 6배 더 자주 사용되었으며, 816개의 질문과 답변 중 86.3%에서 정확한 결과를 보였습니다. #AI 내비게이션 #시각장애인을 위한 AI 내비게이션 #AI 투어 가이드

블로그:

AIGCLINK(@aigclink)의 스레드

작성자 정보

스레드 내용