LogoThread Easy
  • Explorar
  • Criar thread
LogoThread Easy

Seu parceiro completo para threads do Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Now this is more of a wartime mindset. Shared social networks are the primary vector of fraternizing with the enemy today. Taiwan should also move to English or Japanese language, for good measure.

Now this is more of a wartime mindset. Shared social networks are the primary vector of fraternizing with the enemy today. Taiwan should also move to English or Japanese language, for good measure.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Fri Dec 05 00:24:09
RT @shao__meng: 基于 Gemini 3 Pro 模型、使用 Google AI Studio 和 Cursor 在几小时内构建博客网站

刚刚入职 Google 的 @fofrAI 分享了他基于 Gemini 3 Pro 模型,使用 Google AI Stud…

RT @shao__meng: 基于 Gemini 3 Pro 模型、使用 Google AI Studio 和 Cursor 在几小时内构建博客网站 刚刚入职 Google 的 @fofrAI 分享了他基于 Gemini 3 Pro 模型,使用 Google AI Stud…

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Fri Dec 05 00:18:46
另外本次还进行了极限测试, 使用 72B 模型不限制上下文进行送外卖, 最终模型进行了202次 tool call, 总计消耗 12.7M token, 完成了 11单外卖, 赚了 211.12. 而202次 tool call 中只有一次API违规(即调用方法错误), 这证明72B模型在超长上下文中召回性能和 tool call 能力保持得非常不错.

总结, 72B在复杂Agent任务中表现最佳,8B在资源效率上出色,30B需要改进执行力。大家如果有需要大量工具调用, 尤其是 Research Agent 得场景, 可以试试 MiroThinker 系列模型.

另外本次还进行了极限测试, 使用 72B 模型不限制上下文进行送外卖, 最终模型进行了202次 tool call, 总计消耗 12.7M token, 完成了 11单外卖, 赚了 211.12. 而202次 tool call 中只有一次API违规(即调用方法错误), 这证明72B模型在超长上下文中召回性能和 tool call 能力保持得非常不错. 总结, 72B在复杂Agent任务中表现最佳,8B在资源效率上出色,30B需要改进执行力。大家如果有需要大量工具调用, 尤其是 Research Agent 得场景, 可以试试 MiroThinker 系列模型.

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Fri Dec 05 00:18:24
600 次 tool call? 来看 MiroThinker-v1.0 模型实测!

MiroMind AI 发布了他们的新模型 MiroThinker-v1.0, 这是一个面向 Research Agent 优化的系列模型, 大小由 72B, 30B, 8B. 模型最大的亮点是提升了工具增强推理和信息获取能力, 在最大上下文范围内可以进行 600 次 tool call!

于是, 轮到我的整活项目登场了 —— 如果, 让这个模型去送外卖, 它能顺利完成吗?

本次测试使用官方模型进行测试, 模型地址: https://t.co/5Eyuq3f8be 硬件使用 H100 80G SXM *4, 推理引擎使用 SGLang.

为了这次测试我新写了测试框架 SiliconRiderBench, 框架内部会随机生成外卖订单, AI 需要扮成外卖骑手使用 tool call 接单, 取外卖, 送外卖, 甚至去换电动车电池. 我们这次就是用这个框架来测试模型在有效利用这些 tool call 的情况下的最大盈利情况!

#MiroThinker #MiroMindAI #ToolCall #KCORES大模型竞技场

600 次 tool call? 来看 MiroThinker-v1.0 模型实测! MiroMind AI 发布了他们的新模型 MiroThinker-v1.0, 这是一个面向 Research Agent 优化的系列模型, 大小由 72B, 30B, 8B. 模型最大的亮点是提升了工具增强推理和信息获取能力, 在最大上下文范围内可以进行 600 次 tool call! 于是, 轮到我的整活项目登场了 —— 如果, 让这个模型去送外卖, 它能顺利完成吗? 本次测试使用官方模型进行测试, 模型地址: https://t.co/5Eyuq3f8be 硬件使用 H100 80G SXM *4, 推理引擎使用 SGLang. 为了这次测试我新写了测试框架 SiliconRiderBench, 框架内部会随机生成外卖订单, AI 需要扮成外卖骑手使用 tool call 接单, 取外卖, 送外卖, 甚至去换电动车电池. 我们这次就是用这个框架来测试模型在有效利用这些 tool call 的情况下的最大盈利情况! #MiroThinker #MiroMindAI #ToolCall #KCORES大模型竞技场

首先来看基准测试, 我们让模型进行100次对话, 上下文窗口是保持其中20最新的20此对话, 结论如下, 72B模型性能最好, 在100次对话中, 总计进行了155次 tool call, 总计送了4单外卖, 盈利65.31. 其次是 8B 模型, 总计进行了102次tool call, 总计送了4单外卖, 盈利49.17. 再次则是 30B 模型, 总计进行了145次tool call, 总计送了1单外卖, 盈利22.57.

avatar for karminski-牙医
karminski-牙医
Fri Dec 05 00:18:20
Did the big powers lose interest in winning military conflicts with each other after Vietnam (focus switching to deterrence and policing), so they stopped funding basic research, while small powers had no research budgets? Or are there other reasons?

Did the big powers lose interest in winning military conflicts with each other after Vietnam (focus switching to deterrence and policing), so they stopped funding basic research, while small powers had no research budgets? Or are there other reasons?

avatar for Joscha Bach
Joscha Bach
Fri Dec 05 00:17:40
I am fascinated by how slowly electronics changed military weapons. WW2 guns are still competitive. Why are assault rifles not auto aiming using computer vision and gyroscopes? Why did it take so long for hobbyist drones to enter arsenals? Where are midsized flying turrets?

I am fascinated by how slowly electronics changed military weapons. WW2 guns are still competitive. Why are assault rifles not auto aiming using computer vision and gyroscopes? Why did it take so long for hobbyist drones to enter arsenals? Where are midsized flying turrets?

Did the big powers lose interest in winning military conflicts with each other after Vietnam (focus switching to deterrence and policing), so they stopped funding basic research, while small powers had no research budgets? Or are there other reasons?

avatar for Joscha Bach
Joscha Bach
Fri Dec 05 00:17:39
  • Previous
  • 1
  • More pages
  • 1559
  • 1560
  • 1561
  • More pages
  • 5634
  • Next