LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

i wonder what will release this december that will set the tone for the next year, like o1 and deepseek did last year with reasoning

i wonder what will release this december that will set the tone for the next year, like o1 and deepseek did last year with reasoning

the distribution is anything but normal

avatar for snwy
snwy
Thu Dec 18 07:48:15
让AI送外卖? 来看字节跳动刚刚发布的 doubao-seed-1.8 Agent 能力评测!

大家经常看到我的评测都是让大模型写代码, 今天咱们整个新活, 如果让大模型送外卖, 看看大模型能赚多少钱?

为了这个测试我写了个框架, 叫做硅基骑手, 内置了15个 tool call, 包括移动, 接单, 获取小票, 取餐, 送餐, 充电等等, 让大模型通过调用这些 tool call 来模拟整个外卖骑手的送餐过程.

本次首先评测了刚刚发布的 doubao-seed-1.8, 直接说结论:

整个执行过程非常丝滑, 这个新模型的最大输入上下文长度是224K, 我的测试连续运行了6.5小时, 总计消耗了9360万token! 完全耗尽了它的上下文, 执行了 1100 次 tool call!

即使是在停止工作前的最后一刻, 都可以继续进行工具调用, 而大多数小模型随着上下文增长是会性能越来越差最后完全无法进行 tool call 的.

这意味着 doubao-seed-1.8 在200K+的上下文长度上召回水平都相当不错, 特别适合用来执行, 复杂的 Agent 和 MCP 工具调用的场景.

我有预感豆包模型这一波升级后, 周边应用例如豆包, 甚至豆包AI手机, 执行任务的能力都会得到提升.

#豆包 #豆包seed #seed18 #豆包AI

让AI送外卖? 来看字节跳动刚刚发布的 doubao-seed-1.8 Agent 能力评测! 大家经常看到我的评测都是让大模型写代码, 今天咱们整个新活, 如果让大模型送外卖, 看看大模型能赚多少钱? 为了这个测试我写了个框架, 叫做硅基骑手, 内置了15个 tool call, 包括移动, 接单, 获取小票, 取餐, 送餐, 充电等等, 让大模型通过调用这些 tool call 来模拟整个外卖骑手的送餐过程. 本次首先评测了刚刚发布的 doubao-seed-1.8, 直接说结论: 整个执行过程非常丝滑, 这个新模型的最大输入上下文长度是224K, 我的测试连续运行了6.5小时, 总计消耗了9360万token! 完全耗尽了它的上下文, 执行了 1100 次 tool call! 即使是在停止工作前的最后一刻, 都可以继续进行工具调用, 而大多数小模型随着上下文增长是会性能越来越差最后完全无法进行 tool call 的. 这意味着 doubao-seed-1.8 在200K+的上下文长度上召回水平都相当不错, 特别适合用来执行, 复杂的 Agent 和 MCP 工具调用的场景. 我有预感豆包模型这一波升级后, 周边应用例如豆包, 甚至豆包AI手机, 执行任务的能力都会得到提升. #豆包 #豆包seed #seed18 #豆包AI

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Thu Dec 18 07:35:36
使用 Claude Code 时,我们只能看到它的表面功能,却很难了解背后的工作机制,尤其是它内部精心设计的系统提示词。

恰巧,在 GitHub 上发现了 claude-code-system-prompts 这个项目,把 Claude Code 的所有系统提示词全部公开了出来。

整理了 40 多个提示词文件,包括主系统提示词、子智能体提示词、工具描述、斜杠命令等,还附带了每个提示词的 Token 数量统计。

GitHub:https://t.co/LsxwU3SoHv

除了提示词本身,还提供了跨 52 个版本的变更日志,可以看到 Claude Code 从 v2.0.14 到 v2.0.71 的演进过程。

如果你想深入了解 Claude Code 的工作机制,或者想基于官方提示词做定制化改造,这个项目值得收藏研究。

使用 Claude Code 时,我们只能看到它的表面功能,却很难了解背后的工作机制,尤其是它内部精心设计的系统提示词。 恰巧,在 GitHub 上发现了 claude-code-system-prompts 这个项目,把 Claude Code 的所有系统提示词全部公开了出来。 整理了 40 多个提示词文件,包括主系统提示词、子智能体提示词、工具描述、斜杠命令等,还附带了每个提示词的 Token 数量统计。 GitHub:https://t.co/LsxwU3SoHv 除了提示词本身,还提供了跨 52 个版本的变更日志,可以看到 Claude Code 从 v2.0.14 到 v2.0.71 的演进过程。 如果你想深入了解 Claude Code 的工作机制,或者想基于官方提示词做定制化改造,这个项目值得收藏研究。

💡 挖掘开源的价值 🧑🏻‍💻 坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术 🧐 A list cool, interesting projects of GitHub. ✏️ 公众号:GitHubDaily

avatar for GitHubDaily
GitHubDaily
Thu Dec 18 07:30:09
We're not building AI to replace human intelligence.

We're building the mycelium through which human intelligence 
can finally operate at the speed and scale it always should have.

Every person an inventor. Every idea testable. Every pattern shareable.

We're not building AI to replace human intelligence. We're building the mycelium through which human intelligence can finally operate at the speed and scale it always should have. Every person an inventor. Every idea testable. Every pattern shareable.

The sun shines for all beings.

avatar for Angel
Angel
Thu Dec 18 07:28:17
Imagine the absurd possibility that Tesla could be approved for FSD in Europe while simultaneously California stops them from selling.

Imagine the absurd possibility that Tesla could be approved for FSD in Europe while simultaneously California stops them from selling.

All Things Engineering. Electrical, Mechanical, Software, Firmware, AI, Security and everything in between. Specialize in custom HW/FW/SW for motor control

avatar for Engineering Randomness
Engineering Randomness
Thu Dec 18 07:23:36
> get these right and we may have a country, get them wrong and we will not
The tragedy is that you will have a country, but nobody is coming to fix it for you. Regardless of the IC supply chain, there won't be a Red Dawn Dragon Version.
Not even the Doggy version.

> get these right and we may have a country, get them wrong and we will not The tragedy is that you will have a country, but nobody is coming to fix it for you. Regardless of the IC supply chain, there won't be a Red Dawn Dragon Version. Not even the Doggy version.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Thu Dec 18 07:20:02
  • Previous
  • 1
  • More pages
  • 446
  • 447
  • 448
  • More pages
  • 5634
  • Next