HN 上关于 Qwen3‑VL 的讨论很有意思: - 长视频理解:在 2h 视频里插“needle frame”,让模型去定位 + QA,大家对这种 benchmark 本身也有不少质疑(更像检测异常帧而不是真实事件)。 - 实战方案:用 CLIP / Morphik 做视频向量检索,能实现“running horse → 跳到 4:42 那一帧”的那种搜索体验; - UI 自动化场景下,要从截图中拿到可靠的点击坐标,往往要结合:VLM 语义理解 + OCR 框坐标 + 关键点检测,单靠大模型“猜像素”很不稳。 模型选择:大家用 Qwen3‑VL 做视频理解给的评价普遍不错,尤其是在 Gemini/Claude/OpenAI 之外的比较; 但像 PDF 结构化抽取这类任务,反而会翻车——多模态 LLM 的“偏科”非常明显。 如果今天要做“海量视频资产自动打标签 + 语义检索”,技术基本已经够用;难点在于:成本、稳定性,以及你到底敢不敢把这玩意儿接到摄像头上。 和“老大哥式监控”的距离其实已经不远,只是我们愿不愿意承认。 AI 视频理解可能还很早期,但它对现实世界的影响,其实已经不早了。 https://t.co/DDSETxIFKn
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.