LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2026 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

HunyuanOCR:腾讯开源的端到端 OCR 视觉语言模型

HunyuanOCR 参数规模仅 1B,却在多项 OCR 基准测试中达到了领先水平。它基于原生多模态架构,专为 OCR 任务优化,适用于文本检测、文档解析、信息提取、视觉问答和文本图像翻译等场景。模型在 ICDAR 2025 DIMT 挑战赛(小模型轨道)中获得第一,并在 OCRBench、OmniDocBench 和 DoTA 等基准上超越了许多更大规模的模型,如 Qwen3-VL-4B 和 MinerU2.5。

核心特性和架构
HunyuanOCR 采用纯端到端视觉语言模型设计,避免了传统 OCR 系统中的多模块级联,从而减少了错误传播和维护成本。其架构包括三个主要组件:

· 原生分辨率视觉编码器(Hunyuan-ViT):基于 SigLIP-v2-400M 预训练模型,参数约 0.4B,支持任意输入分辨率。通过自适应分块机制保留图像原生纵横比,擅长处理长文档、极端比例图像和低质量扫描件。
· 自适应 MLP 连接器:作为视觉与语言领域的桥梁,进行空间维度的内容压缩,减少视觉 token 序列长度,同时保留关键语义信息,如文本密集区域。
· 轻量级语言模型(Hunyuan-0.5B):基于 Hunyuan LLM,参数约 0.5B,集成 XD-RoPE 技术,将 RoPE 分解为文本、高度、宽度和时间四个子空间,支持复杂布局解析和跨页文档推理。

模型支持多任务统一建模,通过自然语言指令(如“检测并识别图片中的文字”)完成从感知到语义的任务,无需额外预处理模块。它覆盖多语言(130+ 种,包括低资源语言)和多场景(如街景、手写、视频帧),并在训练中强调高品质应用对齐数据和强化学习(RL)优化,提升了复杂场景下的鲁棒性。

训练与数据构建(两分钟)
· 预训练阶段:分四步进行,总计约 454B token。包括视觉语言对齐、多模态预训练、长上下文扩展(至 32K token)和应用导向监督微调。数据混合了开源数据集、合成元素级数据和端到端应用数据,总计约 2 亿高质量样本,覆盖街景、文档、手写等九大场景。
· 后训练阶段:使用在线强化学习算法 GRPO,结合任务特定奖励机制(如 rule-based 和 LLM-as-a-judge)。这显著提升了模型在文档解析和翻译等挑战任务上的准确性和稳定性。

数据管道强调合成与增强:扩展 SynthDog 框架生成多语言长文档,支持 RTL 布局和复杂字体;引入扭曲合成管道模拟真实缺陷(如模糊、扭曲、照明变化);自动化 QA 生成管道复用跨任务样本,确保多样性和质量。

性能评估
· 文本检测(Spotting):在内部 900 张图像基准(九类场景)上得分 70.92%,优于 PaddleOCR (53.38%) 和 Qwen3-VL-235B (53.62%)。
· 文档解析(Parsing):在 OmniDocBench 上整体得分 94.10%,文本编辑距离 0.042;Wild-OmniDocBench(真实捕捉场景)得分 85.21%;DocML(多语言)得分 91.03%。
· 信息提取与 VQA:在 768 张卡证/票据基准上准确率 92.29%;视频字幕提取 92.87%;OCRBench 得分 860。
· 文本图像翻译:支持 14+ 源语言到中/英,在 DoTA 上 COMET 得分 83.48%,在 DocML 上 73.38%(其他到英)/73.62%(其他到中)。

这些结果突出了模型在轻量级下的高效性,尤其在真实世界场景中超越了模块化 VLM 和传统管道。

@vllm_project 支持高效推理,最大生成 16384 token。报告提供了任务特定提示模板,如检测坐标、提取 JSON 或翻译,支持中英双语。

开源模型:

HunyuanOCR:腾讯开源的端到端 OCR 视觉语言模型 HunyuanOCR 参数规模仅 1B,却在多项 OCR 基准测试中达到了领先水平。它基于原生多模态架构,专为 OCR 任务优化,适用于文本检测、文档解析、信息提取、视觉问答和文本图像翻译等场景。模型在 ICDAR 2025 DIMT 挑战赛(小模型轨道)中获得第一,并在 OCRBench、OmniDocBench 和 DoTA 等基准上超越了许多更大规模的模型,如 Qwen3-VL-4B 和 MinerU2.5。 核心特性和架构 HunyuanOCR 采用纯端到端视觉语言模型设计,避免了传统 OCR 系统中的多模块级联,从而减少了错误传播和维护成本。其架构包括三个主要组件: · 原生分辨率视觉编码器(Hunyuan-ViT):基于 SigLIP-v2-400M 预训练模型,参数约 0.4B,支持任意输入分辨率。通过自适应分块机制保留图像原生纵横比,擅长处理长文档、极端比例图像和低质量扫描件。 · 自适应 MLP 连接器:作为视觉与语言领域的桥梁,进行空间维度的内容压缩,减少视觉 token 序列长度,同时保留关键语义信息,如文本密集区域。 · 轻量级语言模型(Hunyuan-0.5B):基于 Hunyuan LLM,参数约 0.5B,集成 XD-RoPE 技术,将 RoPE 分解为文本、高度、宽度和时间四个子空间,支持复杂布局解析和跨页文档推理。 模型支持多任务统一建模,通过自然语言指令(如“检测并识别图片中的文字”)完成从感知到语义的任务,无需额外预处理模块。它覆盖多语言(130+ 种,包括低资源语言)和多场景(如街景、手写、视频帧),并在训练中强调高品质应用对齐数据和强化学习(RL)优化,提升了复杂场景下的鲁棒性。 训练与数据构建(两分钟) · 预训练阶段:分四步进行,总计约 454B token。包括视觉语言对齐、多模态预训练、长上下文扩展(至 32K token)和应用导向监督微调。数据混合了开源数据集、合成元素级数据和端到端应用数据,总计约 2 亿高质量样本,覆盖街景、文档、手写等九大场景。 · 后训练阶段:使用在线强化学习算法 GRPO,结合任务特定奖励机制(如 rule-based 和 LLM-as-a-judge)。这显著提升了模型在文档解析和翻译等挑战任务上的准确性和稳定性。 数据管道强调合成与增强:扩展 SynthDog 框架生成多语言长文档,支持 RTL 布局和复杂字体;引入扭曲合成管道模拟真实缺陷(如模糊、扭曲、照明变化);自动化 QA 生成管道复用跨任务样本,确保多样性和质量。 性能评估 · 文本检测(Spotting):在内部 900 张图像基准(九类场景)上得分 70.92%,优于 PaddleOCR (53.38%) 和 Qwen3-VL-235B (53.62%)。 · 文档解析(Parsing):在 OmniDocBench 上整体得分 94.10%,文本编辑距离 0.042;Wild-OmniDocBench(真实捕捉场景)得分 85.21%;DocML(多语言)得分 91.03%。 · 信息提取与 VQA:在 768 张卡证/票据基准上准确率 92.29%;视频字幕提取 92.87%;OCRBench 得分 860。 · 文本图像翻译:支持 14+ 源语言到中/英,在 DoTA 上 COMET 得分 83.48%,在 DocML 上 73.38%(其他到英)/73.62%(其他到中)。 这些结果突出了模型在轻量级下的高效性,尤其在真实世界场景中超越了模块化 VLM 和传统管道。 @vllm_project 支持高效推理,最大生成 16384 token。报告提供了任务特定提示模板,如检测坐标、提取 JSON 或翻译,支持中英双语。 开源模型:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Tue Nov 25 10:27:00
这种战争场面也很棒,比图片又往前推进了一步,

感兴趣的可以玩玩,我这有个码“KORLAF”,打开 https://t.co/0eeiRb0B3K ,“我的”,右上角有个钻石,点开后输入这个码就能玩了,每人 200 纳米。
这个工具在这里:https://t.co/8ouFHAwd1n
下面有个卡片叫灵魂画手。

这种战争场面也很棒,比图片又往前推进了一步, 感兴趣的可以玩玩,我这有个码“KORLAF”,打开 https://t.co/0eeiRb0B3K ,“我的”,右上角有个钻石,点开后输入这个码就能玩了,每人 200 纳米。 这个工具在这里:https://t.co/8ouFHAwd1n 下面有个卡片叫灵魂画手。

行道途中。非求速成,惟求通达。 2023 年扎进AI ,打通Know-How,不少赚钱项目,踩过坑,也见过光。 围城里待得够久了,出来聊聊世界,聊聊技术、聊聊赚钱。

avatar for 凡人小北
凡人小北
Tue Nov 25 10:26:13
纳米 AI 新出的这个智能体太好玩了。
随手画的鬼画符,直接被 AI 做成一段毛毡风小动画。
有点像把童年的涂鸦塞进了毛毡定格动画里,治愈又离谱。
蛮有意思的 😂

纳米 AI 新出的这个智能体太好玩了。 随手画的鬼画符,直接被 AI 做成一段毛毡风小动画。 有点像把童年的涂鸦塞进了毛毡定格动画里,治愈又离谱。 蛮有意思的 😂

这种战争场面也很棒,比图片又往前推进了一步, 感兴趣的可以玩玩,我这有个码“KORLAF”,打开 https://t.co/0eeiRb0B3K ,“我的”,右上角有个钻石,点开后输入这个码就能玩了,每人 200 纳米。 这个工具在这里:https://t.co/8ouFHAwd1n 下面有个卡片叫灵魂画手。

avatar for 凡人小北
凡人小北
Tue Nov 25 10:26:12
Wahoo! You’re the first person—thank you!

This really gave me the motivation to keep working on it.

Wahoo! You’re the first person—thank you! This really gave me the motivation to keep working on it.

"The Micro Startups Guy" ❯ https://t.co/hwZ0eO0l5D ❯ https://t.co/RkKck3vdIO ❯ https://t.co/PyEJHvxCRn ❯ https://t.co/5hDIulx6OL Sold @nocodeapi for 6 figures

avatar for Mohd Danish
Mohd Danish
Tue Nov 25 10:25:25
words cannot express how based i find the @AmpCode experiment with ad driven inference. rumored to be $5-$10m ARR already lmao.

they got here before openai, open router, ollama or any of the other supposedly innovative coding companies. its the second oldest internet business model. 

it’s not that i think this specific thing will scale to the moon. it’s more that the nimbleness of @beyang and @sqs as a >10 year old team going founder mode is extremely positive for wherever they end up landing as a business.

words cannot express how based i find the @AmpCode experiment with ad driven inference. rumored to be $5-$10m ARR already lmao. they got here before openai, open router, ollama or any of the other supposedly innovative coding companies. its the second oldest internet business model. it’s not that i think this specific thing will scale to the moon. it’s more that the nimbleness of @beyang and @sqs as a >10 year old team going founder mode is extremely positive for wherever they end up landing as a business.

timestamps by phlo https://t.co/RIdElfFohW

avatar for swyx
swyx
Tue Nov 25 10:22:23
Abdul going fulltime on PostSyncer 👏

@eugZolotarenko did the same for Outrank 8 months ago and it had a huge impact on the product, eventually hitting $200k MRR

hope it triggers the same trend on PS

Abdul going fulltime on PostSyncer 👏 @eugZolotarenko did the same for Outrank 8 months ago and it had a huge impact on the product, eventually hitting $200k MRR hope it triggers the same trend on PS

Built Tweet Hunter, Taplio (sold $8m) Growing https://t.co/OyNJ8ZUyOh - https://t.co/jS9GQJ5Ps8 - https://t.co/EFUcKeBbpU - https://t.co/JkVOl1O0S1 - https://t.co/KG9PgxJabg Sharing weekly tips about growth: https://t.co/ereQodN3Ov

avatar for Tibo
Tibo
Tue Nov 25 10:19:15
  • Previous
  • 1
  • More pages
  • 2414
  • 2415
  • 2416
  • More pages
  • 5635
  • Next