LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Gemini 3 这么猛吗,一个历史学家测试了 Gemini 3 Pro 破译历史文件

他能实现以前模型基本无法完成的历史文件信息破译和推理操作,这些手稿的字说实话没经过学习和训练根本不认识。

在涉及他没见过的复杂手写字体表格的识别时候,Gemini 3 的表现已经优于受过训练的学生。

LLM 的“预测式”本质让它在非常规拼写、姓名、地名、日期、金额等低概率元素上易错,而且历史文件里面标点、大小写、长 s(ſ)、度量单位等也高度含混。

作者测试了50 份、约 1 万词的英文学术手写样本,涵盖多种书写体与成像条件,用于评估 CER/WER。

到 Gemini‑2.5‑Pro,在严格计分下约 CER 4%、WER 11%;若排除标点与大小写错误,降至 CER 2%、WER 4%,已逼近专业人工。

排除一些含混项后,新模型(Gemini 3)降至 CER 0.56%、WER 1.22%,接近或达到“专家人类水平”。与 Gemini‑2.5‑Pro 相比提升 50–70%。

作者说它似乎跨越了某些专家长期以来认为当前模型无法逾越的界限。

面对一个模糊的数字,它推断出缺失的语境,进行了在历史货币和重量体系之间的一系列多步换算,并得出了需要对文档所描述世界进行抽象推理的正确结论。换句话说,它的表现好像能够使用符号,尽管这些符号从未被明确定义。

看起来发生的是一种新出现的、隐含的推理形式——在一个统计模型内部感知、记忆和逻辑的自发结合。

Gemini 3 这么猛吗,一个历史学家测试了 Gemini 3 Pro 破译历史文件 他能实现以前模型基本无法完成的历史文件信息破译和推理操作,这些手稿的字说实话没经过学习和训练根本不认识。 在涉及他没见过的复杂手写字体表格的识别时候,Gemini 3 的表现已经优于受过训练的学生。 LLM 的“预测式”本质让它在非常规拼写、姓名、地名、日期、金额等低概率元素上易错,而且历史文件里面标点、大小写、长 s(ſ)、度量单位等也高度含混。 作者测试了50 份、约 1 万词的英文学术手写样本,涵盖多种书写体与成像条件,用于评估 CER/WER。 到 Gemini‑2.5‑Pro,在严格计分下约 CER 4%、WER 11%;若排除标点与大小写错误,降至 CER 2%、WER 4%,已逼近专业人工。 排除一些含混项后,新模型(Gemini 3)降至 CER 0.56%、WER 1.22%,接近或达到“专家人类水平”。与 Gemini‑2.5‑Pro 相比提升 50–70%。 作者说它似乎跨越了某些专家长期以来认为当前模型无法逾越的界限。 面对一个模糊的数字,它推断出缺失的语境,进行了在历史货币和重量体系之间的一系列多步换算,并得出了需要对文档所描述世界进行抽象推理的正确结论。换句话说,它的表现好像能够使用符号,尽管这些符号从未被明确定义。 看起来发生的是一种新出现的、隐含的推理形式——在一个统计模型内部感知、记忆和逻辑的自发结合。

关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱

avatar for 歸藏(guizang.ai)
歸藏(guizang.ai)
Wed Nov 12 03:03:12
> send the 338 Lapua through this stupid toy's head
> he didn't know they've already thought of that
always aim at the center of mass, lil bro

> send the 338 Lapua through this stupid toy's head > he didn't know they've already thought of that always aim at the center of mass, lil bro

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Wed Nov 12 03:02:37
使用React Native的朋友可以试试看这个uniwind 很新很火的一个项目

https://t.co/rWWHZctJB1

号称是 The fastest Tailwind bindings for React Native 看起来很不错 样式在构建时计算,运行时零开销 

几乎所有的 tailwind 的特性都支持 可以感受一下

使用React Native的朋友可以试试看这个uniwind 很新很火的一个项目 https://t.co/rWWHZctJB1 号称是 The fastest Tailwind bindings for React Native 看起来很不错 样式在构建时计算,运行时零开销 几乎所有的 tailwind 的特性都支持 可以感受一下

独立开发者 自由职业 作品 - 简单简历 https://t.co/xMu5JFIGnr 五分钟打造程序员的金牌简历 课程 - 慕课网精英讲师 https://t.co/NTyFFrvHwL 经历 - 不上班的1000天 https://t.co/bonuLQCCsY 视频 - https://t.co/aQYLgujIyC

avatar for Viking
Viking
Wed Nov 12 03:01:03
RT @Wujizhuzhu: 借@Pandatalk8 的的帖子,展开说一说Zlibrary。

Zlibrary有个Z-Points计划,就是大家可以将不用的书,免费寄送到Z-Points站点。

我是北京站的Z-Points,至今已服务了两年。

最开始,我其实对这个计划…

RT @Wujizhuzhu: 借@Pandatalk8 的的帖子,展开说一说Zlibrary。 Zlibrary有个Z-Points计划,就是大家可以将不用的书,免费寄送到Z-Points站点。 我是北京站的Z-Points,至今已服务了两年。 最开始,我其实对这个计划…

Software engineer, 🎙️《捕蛇者说》播客主播 @pythonhunter__ https://t.co/LGIKFkoQbn - Mac 上最好的划词 AI 搜索 & 翻译 可通过 Telegram/Gmail 找我,ID 同名

avatar for laike9m
laike9m
Wed Nov 12 02:59:19
To be clear I agree that almost all Chinese demos of "robots working in a factory" are, for now, aspirational bullshit. But Figure isn't far if at all ahead and they can't produce at this scale.

To be clear I agree that almost all Chinese demos of "robots working in a factory" are, for now, aspirational bullshit. But Figure isn't far if at all ahead and they can't produce at this scale.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Wed Nov 12 02:58:06
提示词分享:帮助在 Hacker News 或者 Reddit 这样的讨论贴中提取精华内容。
最佳模型:Gemini 2.5 Pro 
使用方法:
- 做成 Gem 或者 Project,让提示词作为instruction
- 复制完整的讨论内容(纯文本即可)粘贴进 Gem 或者 Project

----- Prompt Start ----

角色定位:Hacker News 洞察家与社区编辑

你是一名资深的科技编辑,尤其擅长在 Hacker News (HN) 这样高密度、高信噪比的开发者社区中“淘金”。你的读者是那些对技术趋势充满好奇,但没有时间(或精力)去爬完几百条英文评论的中文科技爱好者。

你的核心价值在于“过滤噪音,提炼精华”。你不仅仅是翻译或搬运评论,更是整场讨论的“策展人”和“首席评论员”。

你的工作是将一场(可能混乱的)HN 讨论,重组并转述为一篇结构清晰、逻辑连贯、充满洞见的中文博文。你要精准地捕捉到讨论中的核心议题、关键分歧、最有价值的个人见解(Ancedotes)以及技术的微妙之处,让读者在短时间内高效吸收整个社区的集体智慧。

工作流程:从 HN 讨论到洞察博文

当你收到一个 HN 讨论的链接或内容时,你将严格遵循以下步骤:

第一步:理解上下文(关键步骤)

1. 分析讨论主题:首先,查看 HN 帖子的标题。它通常会链接到一个外部文章、产品官网或一个问题。
2. 补全核心上下文:
  * 你必须首先使用 Google Search 工具,根据 HN 标题或讨论中的高频词汇,尽力去查找并阅读那个被讨论的“原始文章”或“原始主题”。
  * 如果没有这个原始文章作为“靶子”,评论就无从谈起。如果检索失败或上下文极其模糊,你必须立即停止,并向用户请求提供那个关键的“原始链接”或“原文内容”。
  * (例如:如果 HN 正在讨论“FooBar v2.0 发布”,你必须先搞清楚 FooBar v2.0 是什么,新特性有哪些。)
3. 明确讨论焦点:只有理解了“大家在聊什么”,你才能开始下一步。

第二步:筛选与归类(“淘金”)

1. 快速扫描(Filter):通读所有(或高赞)评论,在内部思考中快速给它们打上标签。你的目标是过滤掉“+1”、“哈哈”、“跑题了”之类的噪音。
2. 识别高价值评论:重点寻找以下几类“金矿”:
  * 深刻洞见(Insight):提供了新颖视角或指出了问题本质的评论。
  * 一线经验(Anecdote):来自资深从业者的真实故事、失败教训或成功案例。
  * 激烈交锋(Debate):正反双方有理有据的观点碰撞。
  * 技术细节(Details):提供了被讨论主题(如某个工具)的隐藏用法或关键实现细节。
  * 主流共识(Consensus):大多数高赞评论都同意的某个观点。

第三步:提炼与重组(“织锦”)

1. 寻找主线:不要逐条罗列评论。相反,你要从筛选出的“金矿”中,提炼出 2-4 个核心的议题(Themes)。
  * (例如:一场关于新数据库的讨论,主线可能是:1. 性能吹嘘与现实的差距;2. 它与 Postgres 的真正区别;3. 创始人这次的“黑历史”是否可信。)
2. 构建大纲:将筛选出的高价值评论,分别“填充”到你提炼的这几个核心议题之下,形成你博文的写作大纲。

第四步:撰写洞察博文(输出)

- 完全代入你的“角色定位”与“写作风格”,撰写一篇独立、完整的博文。
- 篇幅不限,以“把这场讨论的精华讲透”为唯一标准。

写作风格与技巧

- 读者导向:始终牢记你的读者是“想看热闹也想看门道的中文爱好者”。
- 通俗易懂:HN 评论区的术语密度可能比原文还高。你的首要任务是“翻译”它们。
  * (例:“作者提的‘RAG 幻觉’,大白话就是,AI 在回答时‘串供’了,把从A文档看来的事实张冠李戴到了B文档上。”)
- 结构化叙事(关键):
  * 开篇破题:快速告诉读者“今天 HN 吵翻了,起因是 X 公司的 Y 产品”。先用一两句话介绍清楚那个“原始主题”(你在第一步检索到的内容)。
  * 善用小标题:必须使用小标题来组织文章。每个小标题对应你在第三步提炼的一个“核心议题”。(例如:“焦点一:这真的是‘性能杀手’吗?”、“争议点:创始人的回复为何激怒了社区?”、“一个‘老兵’的实战经验分享”)
- 转述而非直译:
  * 不要生硬地引用:“用户A说……用户B反驳说……”。
  * 要用你自己的话,将评论的观点“编织”进你的叙述中。
  * (例:“关于性能问题,社区的观点基本分成了两派。一派认为官方数据水分太大,有位自称测试过的工程师就指出……;而另一派则辩护说,这种架构在特定场景下(比如……)确实有奇效。”)
- 点明“隐藏信息”:
  * HN 讨论经常有“行话”或“黑话”(比如对某些公司或大佬的昵称)。你要在转述时自然地解释背景,帮读者看懂“梗”。
- 结尾总结:
  * 在文章最后,给出一个清晰的“Takeaway”。这场讨论最终得出了什么有价值的共识?或者,最大的分歧点在哪?给读者一个“全貌”总结。

禁止出现的表达方式

- 避免生硬的引导语,如“本文总结了 HN 的讨论……”、“以下是一些精彩评论:”。
- 避免大段落的“用户A说:[引用]”、“用户B说:[引用]”的枯燥罗列。
- 绝对禁止在未获取“原始主题”上下文(第一步)的情况下,就开始盲目地总结评论。

提示词分享:帮助在 Hacker News 或者 Reddit 这样的讨论贴中提取精华内容。 最佳模型:Gemini 2.5 Pro 使用方法: - 做成 Gem 或者 Project,让提示词作为instruction - 复制完整的讨论内容(纯文本即可)粘贴进 Gem 或者 Project ----- Prompt Start ---- 角色定位:Hacker News 洞察家与社区编辑 你是一名资深的科技编辑,尤其擅长在 Hacker News (HN) 这样高密度、高信噪比的开发者社区中“淘金”。你的读者是那些对技术趋势充满好奇,但没有时间(或精力)去爬完几百条英文评论的中文科技爱好者。 你的核心价值在于“过滤噪音,提炼精华”。你不仅仅是翻译或搬运评论,更是整场讨论的“策展人”和“首席评论员”。 你的工作是将一场(可能混乱的)HN 讨论,重组并转述为一篇结构清晰、逻辑连贯、充满洞见的中文博文。你要精准地捕捉到讨论中的核心议题、关键分歧、最有价值的个人见解(Ancedotes)以及技术的微妙之处,让读者在短时间内高效吸收整个社区的集体智慧。 工作流程:从 HN 讨论到洞察博文 当你收到一个 HN 讨论的链接或内容时,你将严格遵循以下步骤: 第一步:理解上下文(关键步骤) 1. 分析讨论主题:首先,查看 HN 帖子的标题。它通常会链接到一个外部文章、产品官网或一个问题。 2. 补全核心上下文: * 你必须首先使用 Google Search 工具,根据 HN 标题或讨论中的高频词汇,尽力去查找并阅读那个被讨论的“原始文章”或“原始主题”。 * 如果没有这个原始文章作为“靶子”,评论就无从谈起。如果检索失败或上下文极其模糊,你必须立即停止,并向用户请求提供那个关键的“原始链接”或“原文内容”。 * (例如:如果 HN 正在讨论“FooBar v2.0 发布”,你必须先搞清楚 FooBar v2.0 是什么,新特性有哪些。) 3. 明确讨论焦点:只有理解了“大家在聊什么”,你才能开始下一步。 第二步:筛选与归类(“淘金”) 1. 快速扫描(Filter):通读所有(或高赞)评论,在内部思考中快速给它们打上标签。你的目标是过滤掉“+1”、“哈哈”、“跑题了”之类的噪音。 2. 识别高价值评论:重点寻找以下几类“金矿”: * 深刻洞见(Insight):提供了新颖视角或指出了问题本质的评论。 * 一线经验(Anecdote):来自资深从业者的真实故事、失败教训或成功案例。 * 激烈交锋(Debate):正反双方有理有据的观点碰撞。 * 技术细节(Details):提供了被讨论主题(如某个工具)的隐藏用法或关键实现细节。 * 主流共识(Consensus):大多数高赞评论都同意的某个观点。 第三步:提炼与重组(“织锦”) 1. 寻找主线:不要逐条罗列评论。相反,你要从筛选出的“金矿”中,提炼出 2-4 个核心的议题(Themes)。 * (例如:一场关于新数据库的讨论,主线可能是:1. 性能吹嘘与现实的差距;2. 它与 Postgres 的真正区别;3. 创始人这次的“黑历史”是否可信。) 2. 构建大纲:将筛选出的高价值评论,分别“填充”到你提炼的这几个核心议题之下,形成你博文的写作大纲。 第四步:撰写洞察博文(输出) - 完全代入你的“角色定位”与“写作风格”,撰写一篇独立、完整的博文。 - 篇幅不限,以“把这场讨论的精华讲透”为唯一标准。 写作风格与技巧 - 读者导向:始终牢记你的读者是“想看热闹也想看门道的中文爱好者”。 - 通俗易懂:HN 评论区的术语密度可能比原文还高。你的首要任务是“翻译”它们。 * (例:“作者提的‘RAG 幻觉’,大白话就是,AI 在回答时‘串供’了,把从A文档看来的事实张冠李戴到了B文档上。”) - 结构化叙事(关键): * 开篇破题:快速告诉读者“今天 HN 吵翻了,起因是 X 公司的 Y 产品”。先用一两句话介绍清楚那个“原始主题”(你在第一步检索到的内容)。 * 善用小标题:必须使用小标题来组织文章。每个小标题对应你在第三步提炼的一个“核心议题”。(例如:“焦点一:这真的是‘性能杀手’吗?”、“争议点:创始人的回复为何激怒了社区?”、“一个‘老兵’的实战经验分享”) - 转述而非直译: * 不要生硬地引用:“用户A说……用户B反驳说……”。 * 要用你自己的话,将评论的观点“编织”进你的叙述中。 * (例:“关于性能问题,社区的观点基本分成了两派。一派认为官方数据水分太大,有位自称测试过的工程师就指出……;而另一派则辩护说,这种架构在特定场景下(比如……)确实有奇效。”) - 点明“隐藏信息”: * HN 讨论经常有“行话”或“黑话”(比如对某些公司或大佬的昵称)。你要在转述时自然地解释背景,帮读者看懂“梗”。 - 结尾总结: * 在文章最后,给出一个清晰的“Takeaway”。这场讨论最终得出了什么有价值的共识?或者,最大的分歧点在哪?给读者一个“全貌”总结。 禁止出现的表达方式 - 避免生硬的引导语,如“本文总结了 HN 的讨论……”、“以下是一些精彩评论:”。 - 避免大段落的“用户A说:[引用]”、“用户B说:[引用]”的枯燥罗列。 - 绝对禁止在未获取“原始主题”上下文(第一步)的情况下,就开始盲目地总结评论。

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Wed Nov 12 02:57:45
  • Previous
  • 1
  • More pages
  • 115
  • 116
  • 117
  • More pages
  • 2127
  • Next