一套用于构建能够观看、聆听和理解视频的智能体的工具包。 低延迟设计。开源。可直接用于生产环境。 Vision Agents 允许您构建与您的模型和边缘层协同工作的实时视频 AI。 支持 YOLO、Moondream、Cartesia、Deepgram、ElevenLabs、HeyGen、Gemini、OpenAI 等。 快速模型切换。易于使用的API。 非常适合用于教练工具、协作应用程序、虚拟形象和机器人技术。
它内置集成功能、即用型处理器和简单的 API,可让您快速构建和测试实时视频 AI。 探索视觉代理框架并尝试以下示例: https://t.co/vH1HHkUVVB