LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @sdusteric: @inkdrop_app Thank you for sharing. We often see contents about speeding ahead but not the repercussions or side effects tha…

RT @sdusteric: @inkdrop_app Thank you for sharing. We often see contents about speeding ahead but not the repercussions or side effects tha…

Maker of a tech note-taking app https://t.co/xcprYEEMJQ. My indie dev journey 👉https://t.co/JbdJ58XbTN 🇯🇵@craftzdog Dad👨‍👩‍👧 UTC+9

avatar for Takuya 🐾 devaslife
Takuya 🐾 devaslife
Sat Nov 08 03:23:32
before i list out all the new features, here is the shared zone you get to do stuff in 

and me playing with our pet pig 

the clouds at top show each partners mood based on colour and can be clicked to see more! or use widgets on home and lockscreen to show partners mood

before i list out all the new features, here is the shared zone you get to do stuff in and me playing with our pet pig the clouds at top show each partners mood based on colour and can be clicked to see more! or use widgets on home and lockscreen to show partners mood

here’s the core features before this update: - lovebox/ love letters w/ doodles - affection bumps (send a kiss) - check in system (to keep connected) - love questions (150+ questions, 5 packs) - couple profile/ shared love zone (1 sub = pays for both premium) - important dates section - custom widgets, set any love letter with media as a widget + days together widget added with this new update: - shared lovezone in the clouds - pet pig you grow and take care of together - monstera plant you take care of together - whole new base interface that is customizable - added stereo to play in background while you pet your pig (lofi and other unlock able music) - mood tracking (clouds on top) to share and see your partners mood, can also use home and lock screen widgets to see this! - all actions earn hearts which can be spent to send gifts or unlock things in the app - the app is bascially free for now , 90% of the core app atleast. premium users will have a ton more coming soon - oh yeah gifts, you can send those now - more affection types - streak system to track days used app - push notifications !!

avatar for jack friks
jack friks
Sat Nov 08 03:23:05
NEW APP IS LIVE!! 

i remade the app i made 2 weeks ago and added a ton of cool stuff to help me and my fiancee stay connected 

we can use it now to take care of our pet pig together + send love notes AND mood updates to eachothers home and lock screens 🥰

NEW APP IS LIVE!! i remade the app i made 2 weeks ago and added a ton of cool stuff to help me and my fiancee stay connected we can use it now to take care of our pet pig together + send love notes AND mood updates to eachothers home and lock screens 🥰

before i list out all the new features, here is the shared zone you get to do stuff in and me playing with our pet pig the clouds at top show each partners mood based on colour and can be clicked to see more! or use widgets on home and lockscreen to show partners mood

avatar for jack friks
jack friks
Sat Nov 08 03:21:28
让我们重新定义SaaS:
Storytelling as a service

故事性的内容营销,将在疲倦思考中捕获注意力

让我们重新定义SaaS: Storytelling as a service 故事性的内容营销,将在疲倦思考中捕获注意力

Believing is seeing

avatar for Yangyi
Yangyi
Sat Nov 08 03:20:59
[开源推荐] DeepOCR: 基于 VILA 框架复现 DeepSeek-OCR 模型,核心创新在于通过视觉压缩技术实现文本的高效处理

核心问题与解决方案
· 痛点:大语言模型处理长文本时,计算复杂度随序列长度平方级增长,导致效率低下。
· 创新思路:将文本渲染成图像,用视觉编码器压缩处理,实现 7-20 倍的压缩率。这相当于把"读文字"变成"看图片",用更少的信息量传达相同内容。

技术架构
项目采用三层设计,总参数约 380M:

1. DeepEncoder(视觉编码核心)
· SAM 编码器(80M 参数):使用窗口注意力机制处理 1024×1024 高分辨率图像,输出 4096 个特征标记
· 16× 卷积压缩器:通过两层卷积将标记数从 4096 压缩到 256,大幅降低计算量
· CLIP 编码器(300M 参数):对压缩后的特征进行全局语义理解

设计巧妙之处:先用 SAM 的窗口注意力控制内存开销,压缩后再用 CLIP 的全局注意力提取语义,避免了直接处理高分辨率图像导致的内存爆炸。

2. 多模态投影器
· 将 2048 维视觉特征映射到语言模型空间
· 通过换行符和分隔符标记帮助模型理解文档的空间结构

3. 语言解码器
采用 Qwen2-7B 模型(原版使用 DeepSeek-3B-MoE),负责最终的文本生成。

训练方法
采用两阶段训练策略:

阶段 1:视觉-语言对齐(1 轮)
· 数据:59.5 万通用图像-文本对
· 训练目标:仅训练投影器,学习基础的视觉到语言映射

阶段 2:OCR 专项预训练(1 轮)
· 数据:26 万 PDF 文档和图像
· 训练目标:微调投影器和语言模型,冻结视觉编码器

性能表现

1. 优势领域:
· 英文文本识别:编辑距离 0.093,表现优秀
· 简单文档处理:准确率达 99.5%
· 表格结构解析:得分 70.3,空间理解能力强
· 标记效率:仅用约 250 个视觉标记,比传统方法节省 15 倍

2. 改进空间:
· 复杂布局文档(如多栏学术论文):51.2 分
· 数学公式识别:性能较弱,训练数据中数学内容不足
· 中文文档:与英文相比存在差距

实用价值
项目为研究者提供了:
· 完整的开源实现:包括训练脚本、评估工具和预训练检查点
· 架构验证:证明视觉压缩技术在 OCR 任务中的可行性
· 即用工具:支持文本提取、Markdown 转换、图表解析等多种应用场景

局限与未来方向
当前限制主要源于训练资源和数据:
· 仅训练 1 轮,未充分收敛
· 训练数据(26 万样本)相比顶尖模型(100 万+)偏少
· 缺少数学内容和历史扫描文档
· 改进方向包括数据增强、引入强化学习、优化提示词工程等,理论上可将性能提升 17 个百分点。

项目地址

[开源推荐] DeepOCR: 基于 VILA 框架复现 DeepSeek-OCR 模型,核心创新在于通过视觉压缩技术实现文本的高效处理 核心问题与解决方案 · 痛点:大语言模型处理长文本时,计算复杂度随序列长度平方级增长,导致效率低下。 · 创新思路:将文本渲染成图像,用视觉编码器压缩处理,实现 7-20 倍的压缩率。这相当于把"读文字"变成"看图片",用更少的信息量传达相同内容。 技术架构 项目采用三层设计,总参数约 380M: 1. DeepEncoder(视觉编码核心) · SAM 编码器(80M 参数):使用窗口注意力机制处理 1024×1024 高分辨率图像,输出 4096 个特征标记 · 16× 卷积压缩器:通过两层卷积将标记数从 4096 压缩到 256,大幅降低计算量 · CLIP 编码器(300M 参数):对压缩后的特征进行全局语义理解 设计巧妙之处:先用 SAM 的窗口注意力控制内存开销,压缩后再用 CLIP 的全局注意力提取语义,避免了直接处理高分辨率图像导致的内存爆炸。 2. 多模态投影器 · 将 2048 维视觉特征映射到语言模型空间 · 通过换行符和分隔符标记帮助模型理解文档的空间结构 3. 语言解码器 采用 Qwen2-7B 模型(原版使用 DeepSeek-3B-MoE),负责最终的文本生成。 训练方法 采用两阶段训练策略: 阶段 1:视觉-语言对齐(1 轮) · 数据:59.5 万通用图像-文本对 · 训练目标:仅训练投影器,学习基础的视觉到语言映射 阶段 2:OCR 专项预训练(1 轮) · 数据:26 万 PDF 文档和图像 · 训练目标:微调投影器和语言模型,冻结视觉编码器 性能表现 1. 优势领域: · 英文文本识别:编辑距离 0.093,表现优秀 · 简单文档处理:准确率达 99.5% · 表格结构解析:得分 70.3,空间理解能力强 · 标记效率:仅用约 250 个视觉标记,比传统方法节省 15 倍 2. 改进空间: · 复杂布局文档(如多栏学术论文):51.2 分 · 数学公式识别:性能较弱,训练数据中数学内容不足 · 中文文档:与英文相比存在差距 实用价值 项目为研究者提供了: · 完整的开源实现:包括训练脚本、评估工具和预训练检查点 · 架构验证:证明视觉压缩技术在 OCR 任务中的可行性 · 即用工具:支持文本提取、Markdown 转换、图表解析等多种应用场景 局限与未来方向 当前限制主要源于训练资源和数据: · 仅训练 1 轮,未充分收敛 · 训练数据(26 万样本)相比顶尖模型(100 万+)偏少 · 缺少数学内容和历史扫描文档 · 改进方向包括数据增强、引入强化学习、优化提示词工程等,理论上可将性能提升 17 个百分点。 项目地址

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Sat Nov 08 03:20:14
我发现目前,基本大部分我有嵌入AI工作流的工作,主要都是在给AI高质量的收集、生产、搬运上下文。

应该最后的机会还是留给了操作系统级别的公司,很多公司抢不到这个入口,就只能抢浏览器这个顶级入口了。

如果能在操作系统级别上,支持AI能力按月订阅几十刀甚至几百刀的收费,微软/苹果/Google这几家脸都会笑烂吧....

我发现目前,基本大部分我有嵌入AI工作流的工作,主要都是在给AI高质量的收集、生产、搬运上下文。 应该最后的机会还是留给了操作系统级别的公司,很多公司抢不到这个入口,就只能抢浏览器这个顶级入口了。 如果能在操作系统级别上,支持AI能力按月订阅几十刀甚至几百刀的收费,微软/苹果/Google这几家脸都会笑烂吧....

我的AI编程课(https://t.co/HVZn3ItASW) |B站up主 | 分享创造 + 无限迭代ing

avatar for 熠辉 Indie
熠辉 Indie
Sat Nov 08 03:18:25
  • Previous
  • 1
  • More pages
  • 488
  • 489
  • 490
  • More pages
  • 2127
  • Next