Keep on to blur preview images; turn off to show them clearly

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

![[开源推荐] BentoPDF: 隐私优先的开源 PDF 工具包,专为浏览器端设计,让用户在本地直接处理、编辑和转换 PDF 文件,而无需上传到任何服务器,从而确保数据完全私有和安全。
核心功能
@BentoPDF 提供全面的 PDF 操作工具,分为几大类:
· 组织与管理:支持合并、拆分、重排序、提取、删除、旋转页面;还包括 N-Up 布局(多页合一)、页面交替和海报化等高级排列功能。
· 编辑与修改:可添加页码、水印、页眉/页脚;裁剪页面、反转颜色、更改背景/文本颜色;填写表单、展平内容、移除注释、检测空白页、管理书签。
· 转换为 PDF:从图像(JPG、PNG、WebP、SVG、BMP、HEIC、TIFF)、Markdown (.md)、纯文本或 JSON 文件生成 PDF。
· 从 PDF 转换:导出 PDF 页面为图像(JPG、PNG、WebP、BMP、TIFF);转换为灰度;对扫描文档应用 OCR 以提取可搜索文本;导出为 JSON。
· 安全与优化:压缩文件、修复损坏 PDF、加密/解密、修改权限、数字签名、内容遮盖、编辑/移除元数据、线性化以优化 Web 查看,以及清理潜在恶意内容。
工作原理
项目完全运行在浏览器中,利用客户端 JS 和 WASM 技术处理 PDF 操作。核心依赖于 PDFLib.js(用于 PDF 操作)、PDF.js(渲染 PDF)、PDFKit(创建和编辑 PDF)以及 qpdf-wasm(检查、修复和转换 PDF)等库。这些工具确保高效处理,即使是大文件也能在本地快速完成,无需网络传输或外部依赖。
架构上,前端采用 Vite、TypeScript 和 Tailwind CSS 构建,提供响应式界面。所有操作遵循最小权限原则,确保安全(如使用非 root 用户运行容器)。
优势与局限
优势在于隐私保护(无数据泄露风险)、无使用限制(文件大小不限)和高性能(WASM 加速)。未来路线图包括 HTML 到 PDF 转换、增强 Markdown 支持、PDF/A 标准转换以及与 Office 套件的双向集成。
局限性包括:部分遗留代码待重构;高级功能如直接文本编辑或 Office 转换尚未实现;OCR 和修复效果依赖底层库,可能对严重损坏文件效果有限;数字签名和加密需用户提供密码,遵循标准 PDF 协议。
开源地址: [开源推荐] BentoPDF: 隐私优先的开源 PDF 工具包,专为浏览器端设计,让用户在本地直接处理、编辑和转换 PDF 文件,而无需上传到任何服务器,从而确保数据完全私有和安全。
核心功能
@BentoPDF 提供全面的 PDF 操作工具,分为几大类:
· 组织与管理:支持合并、拆分、重排序、提取、删除、旋转页面;还包括 N-Up 布局(多页合一)、页面交替和海报化等高级排列功能。
· 编辑与修改:可添加页码、水印、页眉/页脚;裁剪页面、反转颜色、更改背景/文本颜色;填写表单、展平内容、移除注释、检测空白页、管理书签。
· 转换为 PDF:从图像(JPG、PNG、WebP、SVG、BMP、HEIC、TIFF)、Markdown (.md)、纯文本或 JSON 文件生成 PDF。
· 从 PDF 转换:导出 PDF 页面为图像(JPG、PNG、WebP、BMP、TIFF);转换为灰度;对扫描文档应用 OCR 以提取可搜索文本;导出为 JSON。
· 安全与优化:压缩文件、修复损坏 PDF、加密/解密、修改权限、数字签名、内容遮盖、编辑/移除元数据、线性化以优化 Web 查看,以及清理潜在恶意内容。
工作原理
项目完全运行在浏览器中,利用客户端 JS 和 WASM 技术处理 PDF 操作。核心依赖于 PDFLib.js(用于 PDF 操作)、PDF.js(渲染 PDF)、PDFKit(创建和编辑 PDF)以及 qpdf-wasm(检查、修复和转换 PDF)等库。这些工具确保高效处理,即使是大文件也能在本地快速完成,无需网络传输或外部依赖。
架构上,前端采用 Vite、TypeScript 和 Tailwind CSS 构建,提供响应式界面。所有操作遵循最小权限原则,确保安全(如使用非 root 用户运行容器)。
优势与局限
优势在于隐私保护(无数据泄露风险)、无使用限制(文件大小不限)和高性能(WASM 加速)。未来路线图包括 HTML 到 PDF 转换、增强 Markdown 支持、PDF/A 标准转换以及与 Office 套件的双向集成。
局限性包括:部分遗留代码待重构;高级功能如直接文本编辑或 Office 转换尚未实现;OCR 和修复效果依赖底层库,可能对严重损坏文件效果有限;数字签名和加密需用户提供密码,遵循标准 PDF 协议。
开源地址:](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5WwkJjbwAIxwH8.jpg&w=3840&q=75)
邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1


I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

![关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过!
1. Thinking with Image(利用图像进行思考)
这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
[1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
[2] GRIT: Teaching MLLMs to Think with Images
作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
[3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
[4] V-Thinker: Interactive Thinking with Images
来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。
2. Thinking with Video(利用视频进行思考)
这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
[5] Video models are zero-shot learners and reasoners
来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
[6] MiniVeo3-Reasoner
来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
[7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。
论文原文见 Kevin 原贴 🔽 关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过!
1. Thinking with Image(利用图像进行思考)
这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
[1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
[2] GRIT: Teaching MLLMs to Think with Images
作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
[3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
[4] V-Thinker: Interactive Thinking with Images
来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。
2. Thinking with Video(利用视频进行思考)
这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
[5] Video models are zero-shot learners and reasoners
来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
[6] MiniVeo3-Reasoner
来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
[7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。
论文原文见 Kevin 原贴 🔽](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5Wu0WZbgAA0T73.jpg&w=3840&q=75)
邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


Treated a girl to pelmeni btw she said I'm handsome and cute and warm (obviously true except the last bit but still nice to hear)
