LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

I guess I'm really bad at sarcasm huh
this leaderboard looks bonkers. R1 is not that high objectively

I guess I'm really bad at sarcasm huh this leaderboard looks bonkers. R1 is not that high objectively

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:11:05
[开源推荐] BentoPDF: 隐私优先的开源 PDF 工具包,专为浏览器端设计,让用户在本地直接处理、编辑和转换 PDF 文件,而无需上传到任何服务器,从而确保数据完全私有和安全。

核心功能
@BentoPDF 提供全面的 PDF 操作工具,分为几大类:
· 组织与管理:支持合并、拆分、重排序、提取、删除、旋转页面;还包括 N-Up 布局(多页合一)、页面交替和海报化等高级排列功能。
· 编辑与修改:可添加页码、水印、页眉/页脚;裁剪页面、反转颜色、更改背景/文本颜色;填写表单、展平内容、移除注释、检测空白页、管理书签。
· 转换为 PDF:从图像(JPG、PNG、WebP、SVG、BMP、HEIC、TIFF)、Markdown (.md)、纯文本或 JSON 文件生成 PDF。
· 从 PDF 转换:导出 PDF 页面为图像(JPG、PNG、WebP、BMP、TIFF);转换为灰度;对扫描文档应用 OCR 以提取可搜索文本;导出为 JSON。
· 安全与优化:压缩文件、修复损坏 PDF、加密/解密、修改权限、数字签名、内容遮盖、编辑/移除元数据、线性化以优化 Web 查看,以及清理潜在恶意内容。

工作原理
项目完全运行在浏览器中,利用客户端 JS 和 WASM 技术处理 PDF 操作。核心依赖于 PDFLib.js(用于 PDF 操作)、PDF.js(渲染 PDF)、PDFKit(创建和编辑 PDF)以及 qpdf-wasm(检查、修复和转换 PDF)等库。这些工具确保高效处理,即使是大文件也能在本地快速完成,无需网络传输或外部依赖。

架构上,前端采用 Vite、TypeScript 和 Tailwind CSS 构建,提供响应式界面。所有操作遵循最小权限原则,确保安全(如使用非 root 用户运行容器)。

优势与局限
优势在于隐私保护(无数据泄露风险)、无使用限制(文件大小不限)和高性能(WASM 加速)。未来路线图包括 HTML 到 PDF 转换、增强 Markdown 支持、PDF/A 标准转换以及与 Office 套件的双向集成。

局限性包括:部分遗留代码待重构;高级功能如直接文本编辑或 Office 转换尚未实现;OCR 和修复效果依赖底层库,可能对严重损坏文件效果有限;数字签名和加密需用户提供密码,遵循标准 PDF 协议。

开源地址:

[开源推荐] BentoPDF: 隐私优先的开源 PDF 工具包,专为浏览器端设计,让用户在本地直接处理、编辑和转换 PDF 文件,而无需上传到任何服务器,从而确保数据完全私有和安全。 核心功能 @BentoPDF 提供全面的 PDF 操作工具,分为几大类: · 组织与管理:支持合并、拆分、重排序、提取、删除、旋转页面;还包括 N-Up 布局(多页合一)、页面交替和海报化等高级排列功能。 · 编辑与修改:可添加页码、水印、页眉/页脚;裁剪页面、反转颜色、更改背景/文本颜色;填写表单、展平内容、移除注释、检测空白页、管理书签。 · 转换为 PDF:从图像(JPG、PNG、WebP、SVG、BMP、HEIC、TIFF)、Markdown (.md)、纯文本或 JSON 文件生成 PDF。 · 从 PDF 转换:导出 PDF 页面为图像(JPG、PNG、WebP、BMP、TIFF);转换为灰度;对扫描文档应用 OCR 以提取可搜索文本;导出为 JSON。 · 安全与优化:压缩文件、修复损坏 PDF、加密/解密、修改权限、数字签名、内容遮盖、编辑/移除元数据、线性化以优化 Web 查看,以及清理潜在恶意内容。 工作原理 项目完全运行在浏览器中,利用客户端 JS 和 WASM 技术处理 PDF 操作。核心依赖于 PDFLib.js(用于 PDF 操作)、PDF.js(渲染 PDF)、PDFKit(创建和编辑 PDF)以及 qpdf-wasm(检查、修复和转换 PDF)等库。这些工具确保高效处理,即使是大文件也能在本地快速完成,无需网络传输或外部依赖。 架构上,前端采用 Vite、TypeScript 和 Tailwind CSS 构建,提供响应式界面。所有操作遵循最小权限原则,确保安全(如使用非 root 用户运行容器)。 优势与局限 优势在于隐私保护(无数据泄露风险)、无使用限制(文件大小不限)和高性能(WASM 加速)。未来路线图包括 HTML 到 PDF 转换、增强 Markdown 支持、PDF/A 标准转换以及与 Office 套件的双向集成。 局限性包括:部分遗留代码待重构;高级功能如直接文本编辑或 Office 转换尚未实现;OCR 和修复效果依赖底层库,可能对严重损坏文件效果有限;数字签名和加密需用户提供密码,遵循标准 PDF 协议。 开源地址:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 01:09:35
I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:08:17
I intuitively don't believe this, but should I not believe this? That's an absurd number of researchers. If we include engineers, including normal frontend/backend for AI services… sounds easy? If we include data annotation, they could as well make it 6 million. 1% of workforce.

I intuitively don't believe this, but should I not believe this? That's an absurd number of researchers. If we include engineers, including normal frontend/backend for AI services… sounds easy? If we include data annotation, they could as well make it 6 million. 1% of workforce.

I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:06:17
关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过! 

1. Thinking with Image(利用图像进行思考)
   这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
   
   [1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning  
   来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
     
   [2] GRIT: Teaching MLLMs to Think with Images  
   作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
     
   [3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning  
   作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
     
   [4] V-Thinker: Interactive Thinking with Images  
   来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。

2. Thinking with Video(利用视频进行思考)
   这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
   
   [5] Video models are zero-shot learners and reasoners  
   来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
     
   [6] MiniVeo3-Reasoner  
   来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
     
   [7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm  
   作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。

论文原文见 Kevin 原贴 🔽

关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过! 1. Thinking with Image(利用图像进行思考) 这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力: [1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning 来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。 [2] GRIT: Teaching MLLMs to Think with Images 作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。 [3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning 作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。 [4] V-Thinker: Interactive Thinking with Images 来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。 2. Thinking with Video(利用视频进行思考) 这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力: [5] Video models are zero-shot learners and reasoners 来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。 [6] MiniVeo3-Reasoner 来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。 [7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm 作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。 论文原文见 Kevin 原贴 🔽

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 01:01:56
Finally got pelmeni, tvorog, kefir, smetana and PROPER rye bread. Reminded myself that Argentinians have no idea about good food
Slavic cuisine is "simple" but quality of ingredients can be astronomical. Gaucho cuisine is inherently simple because it's low-effort

Finally got pelmeni, tvorog, kefir, smetana and PROPER rye bread. Reminded myself that Argentinians have no idea about good food Slavic cuisine is "simple" but quality of ingredients can be astronomical. Gaucho cuisine is inherently simple because it's low-effort

Treated a girl to pelmeni btw she said I'm handsome and cute and warm (obviously true except the last bit but still nice to hear)

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:01:31
  • Previous
  • 1
  • More pages
  • 312
  • 313
  • 314
  • More pages
  • 2127
  • Next