LogoThread Easy
  • 発見
  • スレッド作成
LogoThread Easy

Twitter スレッドの万能パートナー

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

让我们重新定义SaaS:
Storytelling as a service

故事性的内容营销,将在疲倦思考中捕获注意力

让我们重新定义SaaS: Storytelling as a service 故事性的内容营销,将在疲倦思考中捕获注意力

Believing is seeing

avatar for Yangyi
Yangyi
Sat Nov 08 03:20:59
[开源推荐] DeepOCR: 基于 VILA 框架复现 DeepSeek-OCR 模型,核心创新在于通过视觉压缩技术实现文本的高效处理

核心问题与解决方案
· 痛点:大语言模型处理长文本时,计算复杂度随序列长度平方级增长,导致效率低下。
· 创新思路:将文本渲染成图像,用视觉编码器压缩处理,实现 7-20 倍的压缩率。这相当于把"读文字"变成"看图片",用更少的信息量传达相同内容。

技术架构
项目采用三层设计,总参数约 380M:

1. DeepEncoder(视觉编码核心)
· SAM 编码器(80M 参数):使用窗口注意力机制处理 1024×1024 高分辨率图像,输出 4096 个特征标记
· 16× 卷积压缩器:通过两层卷积将标记数从 4096 压缩到 256,大幅降低计算量
· CLIP 编码器(300M 参数):对压缩后的特征进行全局语义理解

设计巧妙之处:先用 SAM 的窗口注意力控制内存开销,压缩后再用 CLIP 的全局注意力提取语义,避免了直接处理高分辨率图像导致的内存爆炸。

2. 多模态投影器
· 将 2048 维视觉特征映射到语言模型空间
· 通过换行符和分隔符标记帮助模型理解文档的空间结构

3. 语言解码器
采用 Qwen2-7B 模型(原版使用 DeepSeek-3B-MoE),负责最终的文本生成。

训练方法
采用两阶段训练策略:

阶段 1:视觉-语言对齐(1 轮)
· 数据:59.5 万通用图像-文本对
· 训练目标:仅训练投影器,学习基础的视觉到语言映射

阶段 2:OCR 专项预训练(1 轮)
· 数据:26 万 PDF 文档和图像
· 训练目标:微调投影器和语言模型,冻结视觉编码器

性能表现

1. 优势领域:
· 英文文本识别:编辑距离 0.093,表现优秀
· 简单文档处理:准确率达 99.5%
· 表格结构解析:得分 70.3,空间理解能力强
· 标记效率:仅用约 250 个视觉标记,比传统方法节省 15 倍

2. 改进空间:
· 复杂布局文档(如多栏学术论文):51.2 分
· 数学公式识别:性能较弱,训练数据中数学内容不足
· 中文文档:与英文相比存在差距

实用价值
项目为研究者提供了:
· 完整的开源实现:包括训练脚本、评估工具和预训练检查点
· 架构验证:证明视觉压缩技术在 OCR 任务中的可行性
· 即用工具:支持文本提取、Markdown 转换、图表解析等多种应用场景

局限与未来方向
当前限制主要源于训练资源和数据:
· 仅训练 1 轮,未充分收敛
· 训练数据(26 万样本)相比顶尖模型(100 万+)偏少
· 缺少数学内容和历史扫描文档
· 改进方向包括数据增强、引入强化学习、优化提示词工程等,理论上可将性能提升 17 个百分点。

项目地址

[开源推荐] DeepOCR: 基于 VILA 框架复现 DeepSeek-OCR 模型,核心创新在于通过视觉压缩技术实现文本的高效处理 核心问题与解决方案 · 痛点:大语言模型处理长文本时,计算复杂度随序列长度平方级增长,导致效率低下。 · 创新思路:将文本渲染成图像,用视觉编码器压缩处理,实现 7-20 倍的压缩率。这相当于把"读文字"变成"看图片",用更少的信息量传达相同内容。 技术架构 项目采用三层设计,总参数约 380M: 1. DeepEncoder(视觉编码核心) · SAM 编码器(80M 参数):使用窗口注意力机制处理 1024×1024 高分辨率图像,输出 4096 个特征标记 · 16× 卷积压缩器:通过两层卷积将标记数从 4096 压缩到 256,大幅降低计算量 · CLIP 编码器(300M 参数):对压缩后的特征进行全局语义理解 设计巧妙之处:先用 SAM 的窗口注意力控制内存开销,压缩后再用 CLIP 的全局注意力提取语义,避免了直接处理高分辨率图像导致的内存爆炸。 2. 多模态投影器 · 将 2048 维视觉特征映射到语言模型空间 · 通过换行符和分隔符标记帮助模型理解文档的空间结构 3. 语言解码器 采用 Qwen2-7B 模型(原版使用 DeepSeek-3B-MoE),负责最终的文本生成。 训练方法 采用两阶段训练策略: 阶段 1:视觉-语言对齐(1 轮) · 数据:59.5 万通用图像-文本对 · 训练目标:仅训练投影器,学习基础的视觉到语言映射 阶段 2:OCR 专项预训练(1 轮) · 数据:26 万 PDF 文档和图像 · 训练目标:微调投影器和语言模型,冻结视觉编码器 性能表现 1. 优势领域: · 英文文本识别:编辑距离 0.093,表现优秀 · 简单文档处理:准确率达 99.5% · 表格结构解析:得分 70.3,空间理解能力强 · 标记效率:仅用约 250 个视觉标记,比传统方法节省 15 倍 2. 改进空间: · 复杂布局文档(如多栏学术论文):51.2 分 · 数学公式识别:性能较弱,训练数据中数学内容不足 · 中文文档:与英文相比存在差距 实用价值 项目为研究者提供了: · 完整的开源实现:包括训练脚本、评估工具和预训练检查点 · 架构验证:证明视觉压缩技术在 OCR 任务中的可行性 · 即用工具:支持文本提取、Markdown 转换、图表解析等多种应用场景 局限与未来方向 当前限制主要源于训练资源和数据: · 仅训练 1 轮,未充分收敛 · 训练数据(26 万样本)相比顶尖模型(100 万+)偏少 · 缺少数学内容和历史扫描文档 · 改进方向包括数据增强、引入强化学习、优化提示词工程等,理论上可将性能提升 17 个百分点。 项目地址

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Sat Nov 08 03:20:14
我发现目前,基本大部分我有嵌入AI工作流的工作,主要都是在给AI高质量的收集、生产、搬运上下文。

应该最后的机会还是留给了操作系统级别的公司,很多公司抢不到这个入口,就只能抢浏览器这个顶级入口了。

如果能在操作系统级别上,支持AI能力按月订阅几十刀甚至几百刀的收费,微软/苹果/Google这几家脸都会笑烂吧....

我发现目前,基本大部分我有嵌入AI工作流的工作,主要都是在给AI高质量的收集、生产、搬运上下文。 应该最后的机会还是留给了操作系统级别的公司,很多公司抢不到这个入口,就只能抢浏览器这个顶级入口了。 如果能在操作系统级别上,支持AI能力按月订阅几十刀甚至几百刀的收费,微软/苹果/Google这几家脸都会笑烂吧....

我的AI编程课(https://t.co/HVZn3ItASW) |B站up主 | 分享创造 + 无限迭代ing

avatar for 熠辉 Indie
熠辉 Indie
Sat Nov 08 03:18:25
PufferLib is leading small-model RL, all OSS! The government isn't feeding the puffer any gold bars, but you can feed him a gold star on github

PufferLib is leading small-model RL, all OSS! The government isn't feeding the puffer any gold bars, but you can feed him a gold star on github

I build sane open-source RL tools. MIT PhD, creator of Neural MMO and founder of PufferAI. DM for business: non-LLM sim engineering, RL R&D, infra & support.

avatar for Joseph Suarez 🐡
Joseph Suarez 🐡
Sat Nov 08 03:18:13
笑死,don哥前几秒嘴角的笑都压不住了

笑死,don哥前几秒嘴角的笑都压不住了

🖥️ Indie Maker 🛠️ 星球「海哥和他的小伙伴们」 📌 油管「海拉鲁编程客」 🌸 沦为程序员的段子手/猫咪

avatar for 海拉鲁编程客
海拉鲁编程客
Sat Nov 08 03:17:07
There are no complex numbers, only different ways to multiply real vectors.

There are no complex numbers, only different ways to multiply real vectors.

Professor of computer science at UW and author of '2040' and 'The Master Algorithm'. Into machine learning, AI, and anything that makes me curious.

avatar for Pedro Domingos
Pedro Domingos
Sat Nov 08 03:16:51
  • Previous
  • 1
  • More pages
  • 479
  • 480
  • 481
  • More pages
  • 2117
  • Next