LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

百度刚刚放出了:ERNIE-4.5-VL-28B-A3B-Thinking,主打“看图思考”,会用图像缩放、搜索等工具自由放大和缩小图像

这就提升了模型处理细粒度细节和长尾视觉知识能力,可以更全面理解复杂的视觉场景

在VLMs Are Blind上超GPT-5-High、GEMINI-2.5-Pro

可以用来做多步推理、图表分析、因果推断、STEM拍照解题、视频时序定位等

#百度ERNIE #VLM

百度刚刚放出了:ERNIE-4.5-VL-28B-A3B-Thinking,主打“看图思考”,会用图像缩放、搜索等工具自由放大和缩小图像 这就提升了模型处理细粒度细节和长尾视觉知识能力,可以更全面理解复杂的视觉场景 在VLMs Are Blind上超GPT-5-High、GEMINI-2.5-Pro 可以用来做多步推理、图表分析、因果推断、STEM拍照解题、视频时序定位等 #百度ERNIE #VLM

HF:https://t.co/0rjIqAnIUL

avatar for AIGCLINK
AIGCLINK
Tue Nov 11 11:19:45
RT @JeremiahDJohns: Marc Andreessen has become the avatar of societal decay, the representation of what technology looks like with no visio…

RT @JeremiahDJohns: Marc Andreessen has become the avatar of societal decay, the representation of what technology looks like with no visio…

Princeton CS prof and Director @PrincetonCITP. Coauthor of "AI Snake Oil" and "AI as Normal Technology". https://t.co/ZwebetjZ4n Views mine.

avatar for Arvind Narayanan
Arvind Narayanan
Tue Nov 11 11:17:43
Gemini 3.0 has the best vision, widening the gap between Gemini and other LLMs, and doing OCR of unseen old tabular handwriting better than trained students.
But more importantly, its vision is reasoning-doped. It proactively resolves ambiguities of inconsistent notation.

Gemini 3.0 has the best vision, widening the gap between Gemini and other LLMs, and doing OCR of unseen old tabular handwriting better than trained students. But more importantly, its vision is reasoning-doped. It proactively resolves ambiguities of inconsistent notation.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Tue Nov 11 11:14:52
「Google x Kaggle 5天 AI 智能体强化课程」和 Google 11月最新白皮书「Introduction to Agents」在这里:

「Google x Kaggle 5天 AI 智能体强化课程」和 Google 11月最新白皮书「Introduction to Agents」在这里:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Tue Nov 11 11:12:01
「Google x Kaggle 5天 AI 智能体强化课程」第二天,Google 11月最新重磅白皮书「Agent Tools & Interoperability with MCP」

这份白皮书,探讨了基础模型如何通过外部工具扩展能力,重点介绍了工具的设计最佳实践,以及 MCP 在促进智能体与工具互操作方面的作用。还客观分析了 MCP 的优势、挑战和安全风险,旨在为开发者提供指导,尤其是在企业环境中部署智能体系统时。

1. 引言:模型、工具与智能体
智能体利用基础模型的推理能力,帮助用户实现具体目标。工具是智能体的核心扩展,能显著提升企业应用的潜力。白皮书强调,统一智能体、工具和外部世界的连接是 AI 发展的关键,但这也带来技术与安全挑战。MCP 于2024年引入,旨在标准化工具与模型的集成,缓解这些问题。

2. 工具与工具调用
工具分为三类:函数工具、内置工具和智能体工具。
白皮书中还对工具调用最佳实践给出指导原则:文档重要性、描述行动而非实现、发布任务而非 API 调用、尽可能粒度化、设计简洁输出、有效验证和描述性错误消息。

3. 理解 MCP
核心架构组件:主机、客户端与服务器
MCP 定义实体提升 LLM 与外部交互:工具、资源、提示、采样、征询、Root

4. MCP 的安全性
MCP 引入新威胁景观:作为新 API 暴露面,缺乏传统安全(如认证/限流);作为标准协议,广义应用放大风险,如未授权行动和数据泄露。需多层防护。

5. 结论
基础模型需工具扩展以感知和行动,但工具设计需谨慎:清晰文档、粒度任务、简洁输出和验证是基础。MCP 标准化集成,解决碎片化,促进动态发现和生态重用,但企业需警惕其去中心化带来的风险,如上下文膨胀、安全缺口和性能瓶颈。未来,MCP 可能需治理层封装(如 API 网关),开发者须构建多层防御,确保安全、可审计和可靠。

白皮书地址:

「Google x Kaggle 5天 AI 智能体强化课程」第二天,Google 11月最新重磅白皮书「Agent Tools & Interoperability with MCP」 这份白皮书,探讨了基础模型如何通过外部工具扩展能力,重点介绍了工具的设计最佳实践,以及 MCP 在促进智能体与工具互操作方面的作用。还客观分析了 MCP 的优势、挑战和安全风险,旨在为开发者提供指导,尤其是在企业环境中部署智能体系统时。 1. 引言:模型、工具与智能体 智能体利用基础模型的推理能力,帮助用户实现具体目标。工具是智能体的核心扩展,能显著提升企业应用的潜力。白皮书强调,统一智能体、工具和外部世界的连接是 AI 发展的关键,但这也带来技术与安全挑战。MCP 于2024年引入,旨在标准化工具与模型的集成,缓解这些问题。 2. 工具与工具调用 工具分为三类:函数工具、内置工具和智能体工具。 白皮书中还对工具调用最佳实践给出指导原则:文档重要性、描述行动而非实现、发布任务而非 API 调用、尽可能粒度化、设计简洁输出、有效验证和描述性错误消息。 3. 理解 MCP 核心架构组件:主机、客户端与服务器 MCP 定义实体提升 LLM 与外部交互:工具、资源、提示、采样、征询、Root 4. MCP 的安全性 MCP 引入新威胁景观:作为新 API 暴露面,缺乏传统安全(如认证/限流);作为标准协议,广义应用放大风险,如未授权行动和数据泄露。需多层防护。 5. 结论 基础模型需工具扩展以感知和行动,但工具设计需谨慎:清晰文档、粒度任务、简洁输出和验证是基础。MCP 标准化集成,解决碎片化,促进动态发现和生态重用,但企业需警惕其去中心化带来的风险,如上下文膨胀、安全缺口和性能瓶颈。未来,MCP 可能需治理层封装(如 API 网关),开发者须构建多层防御,确保安全、可审计和可靠。 白皮书地址:

「Google x Kaggle 5天 AI 智能体强化课程」和 Google 11月最新白皮书「Introduction to Agents」在这里:

avatar for meng shao
meng shao
Tue Nov 11 11:12:00
Cursor 写代码已经 out 了,现在 Cursor 可以帮你玩 Minecraft !

来看这个叫 Steve 的项目,它把 Cursor 的 AI 助手模式搬到了 Minecraft 里。不是让 AI 帮你写游戏代码,而是直接让 AI 化身成游戏角色,在你的世界里干活。

按 K 键打开面板,输入你想做的事,AI agent 就会理解并执行。说"挖点铁矿",它会自己判断铁矿深度、找到矿脉、开始挖掘。说"建个房子",它会规划材料、设计结构、一块一块搭建。

更有意思的是多 agent 协作。让三个 Steve 一起建城堡,它们会自动分工、划分区域、并行施工,不会互相冲突。这不是写死的脚本,而是通过自然语言指令实时规划的:

官方介绍的技术实现, 每个 Steve 运行一个 agent 循环:

1. 把指令发给 LLM(支持 OpenAI/Groq/Gemini)
2. LLM 将请求分解为结构化代码
3. 使用 Minecraft 游戏机制执行
4. 失败了就让 LLM 重新规划

多 agent 协调是服务端管理的,会自动分配任务、防止冲突、动态平衡工作负载。在我看来这个项目最大的用途其实是学习一下是怎么让 agent 操作游戏的. 可以举一反三能学到不少东西.

项目地址:

Cursor 写代码已经 out 了,现在 Cursor 可以帮你玩 Minecraft ! 来看这个叫 Steve 的项目,它把 Cursor 的 AI 助手模式搬到了 Minecraft 里。不是让 AI 帮你写游戏代码,而是直接让 AI 化身成游戏角色,在你的世界里干活。 按 K 键打开面板,输入你想做的事,AI agent 就会理解并执行。说"挖点铁矿",它会自己判断铁矿深度、找到矿脉、开始挖掘。说"建个房子",它会规划材料、设计结构、一块一块搭建。 更有意思的是多 agent 协作。让三个 Steve 一起建城堡,它们会自动分工、划分区域、并行施工,不会互相冲突。这不是写死的脚本,而是通过自然语言指令实时规划的: 官方介绍的技术实现, 每个 Steve 运行一个 agent 循环: 1. 把指令发给 LLM(支持 OpenAI/Groq/Gemini) 2. LLM 将请求分解为结构化代码 3. 使用 Minecraft 游戏机制执行 4. 失败了就让 LLM 重新规划 多 agent 协调是服务端管理的,会自动分配任务、防止冲突、动态平衡工作负载。在我看来这个项目最大的用途其实是学习一下是怎么让 agent 操作游戏的. 可以举一反三能学到不少东西. 项目地址:

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Tue Nov 11 11:06:31
  • Previous
  • 1
  • More pages
  • 179
  • 180
  • 181
  • More pages
  • 2117
  • Next