LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2026 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

RT @eurofounder: I caught my teenage son using ChatGPT for his homework

I immediately confiscated his laptop and reported him to the schoo…

RT @eurofounder: I caught my teenage son using ChatGPT for his homework I immediately confiscated his laptop and reported him to the schoo…

Cofounder and Head of Post Training @NousResearch, prev @StabilityAI Github: https://t.co/LZwHTUFwPq HuggingFace: https://t.co/sN2FFU8PVE

avatar for Teknium (e/λ)
Teknium (e/λ)
Tue Nov 25 12:16:47
Gemini 3.0 Pro 和 Claude Opus 4.5 生成 UI 的能力继续升级,前端还有活路吗 😂

开玩笑 😄,AI 模型生成 UI 这么牛,对人很友好,可是它们生成的 UI 对 AI Agent 友好吗?

来自牛津大学、新加坡国立大学和微软的最新研究「AUI」,就是在探索如何利用 Computer-Use Agents (CUA) 和编码语言模型来自动化生成和优化 GUI,使界面更适合智能体而非人类的使用。

项目背景与动机
传统 GUI 主要为人类优化,强调美观、易用性和视觉吸引力(如动画和彩色布局),这导致 CUA 在操作时必须模仿人类行为,增加了复杂性和低效性。随着编程语言模型在自动生成功能性网站方面的进步,AUI 项目提出一个关键问题:能否让 CUA 作为“评判者”协助 Coder 自动设计 GUI?这种协作旨在创建“智能体原生”的界面,优先考虑任务执行效率而非人类审美。通过智能体的反馈,项目希望实现更可靠、更高效的数字环境自动化,推动智能体从被动适应向主动塑造环境的转变。

核心贡献
1. AUI-Gym 基准测试平台:这是一个专为自动 GUI 开发和测试设计的基准,涵盖 52 个应用程序,分布在 6 个领域(App、Landing、Game、Interactive、Tool 和 Utility)。项目使用 GPT-5 生成 1560 个模拟真实场景的任务(每个应用 30 个),并通过人工验证确保质量。这些任务强调功能完整性和交互性,例如在“Micro Habit Tracker”应用中创建习惯并查看图表。每个任务配备一个基于规则的验证器,通过 JavaScript 检查任务是否在给定界面中可执行,从而实现无人工干预的可靠评估。基准的指标包括:
· 功能完整性(Function Completeness, FC):评估界面是否支持任务(即是否存在功能检查器),作为基础可用性衡量。
· CUA 成功率(Success Rate, SR):评估 CUA 在导航任务时的平均完成率,反映实际执行效率。

2. Coder-CUA 协作框架:框架将 Coder(编程语言模型) 定位为“设计师”,负责初始化和迭代修订 GUI;CUA 则作为“评判者”,通过任务求解性和导航反馈提供指导。具体流程:
· Coder 从用户查询(包括名称、目标、功能和主题)生成初始 HTML 网站。
· CUA 测试网站:首先验证任务可求解性(收集不可行任务作为功能反馈),然后执行导航(通过点击、输入等原子动作)。
· 反馈循环:不可求解任务汇总为语言总结供 Coder 改进功能;导航轨迹通过 CUA Dashboard 压缩为视觉反馈,帮助 Coder 优化布局。

3. CUA Dashboard:用于将 CUA 的多步导航历史(包括截图、动作和结果)浓缩成单张 1920×1080 图像。通过自适应裁剪关键交互区域,平均减少 76.2% 的视觉 tokens,同时保留必要线索(如任务目标、步骤和失败点)。这使反馈更易解释,便于 Coder 识别问题(如低对比度或复杂布局)并进行针对性修订,例如去除样式、提升对比或简化结构。

实验结果
实验显示,先进 Coder(如 GPT-5)能生成外观合理的 GUI,但初始功能完整性较低(许多任务不可求解),通过失败反馈可快速提升。CUA 导航是主要瓶颈,即使功能完整,初始成功率也较低;但通过协作迭代(如去样式化、高对比和简化布局),成功率显著提高,证明智能体反馈能增强 GUI 的鲁棒性和效率。项目强调,智能体偏好简洁、功能导向的界面,而非人类式的视觉复杂性。

研究项目地址

Gemini 3.0 Pro 和 Claude Opus 4.5 生成 UI 的能力继续升级,前端还有活路吗 😂 开玩笑 😄,AI 模型生成 UI 这么牛,对人很友好,可是它们生成的 UI 对 AI Agent 友好吗? 来自牛津大学、新加坡国立大学和微软的最新研究「AUI」,就是在探索如何利用 Computer-Use Agents (CUA) 和编码语言模型来自动化生成和优化 GUI,使界面更适合智能体而非人类的使用。 项目背景与动机 传统 GUI 主要为人类优化,强调美观、易用性和视觉吸引力(如动画和彩色布局),这导致 CUA 在操作时必须模仿人类行为,增加了复杂性和低效性。随着编程语言模型在自动生成功能性网站方面的进步,AUI 项目提出一个关键问题:能否让 CUA 作为“评判者”协助 Coder 自动设计 GUI?这种协作旨在创建“智能体原生”的界面,优先考虑任务执行效率而非人类审美。通过智能体的反馈,项目希望实现更可靠、更高效的数字环境自动化,推动智能体从被动适应向主动塑造环境的转变。 核心贡献 1. AUI-Gym 基准测试平台:这是一个专为自动 GUI 开发和测试设计的基准,涵盖 52 个应用程序,分布在 6 个领域(App、Landing、Game、Interactive、Tool 和 Utility)。项目使用 GPT-5 生成 1560 个模拟真实场景的任务(每个应用 30 个),并通过人工验证确保质量。这些任务强调功能完整性和交互性,例如在“Micro Habit Tracker”应用中创建习惯并查看图表。每个任务配备一个基于规则的验证器,通过 JavaScript 检查任务是否在给定界面中可执行,从而实现无人工干预的可靠评估。基准的指标包括: · 功能完整性(Function Completeness, FC):评估界面是否支持任务(即是否存在功能检查器),作为基础可用性衡量。 · CUA 成功率(Success Rate, SR):评估 CUA 在导航任务时的平均完成率,反映实际执行效率。 2. Coder-CUA 协作框架:框架将 Coder(编程语言模型) 定位为“设计师”,负责初始化和迭代修订 GUI;CUA 则作为“评判者”,通过任务求解性和导航反馈提供指导。具体流程: · Coder 从用户查询(包括名称、目标、功能和主题)生成初始 HTML 网站。 · CUA 测试网站:首先验证任务可求解性(收集不可行任务作为功能反馈),然后执行导航(通过点击、输入等原子动作)。 · 反馈循环:不可求解任务汇总为语言总结供 Coder 改进功能;导航轨迹通过 CUA Dashboard 压缩为视觉反馈,帮助 Coder 优化布局。 3. CUA Dashboard:用于将 CUA 的多步导航历史(包括截图、动作和结果)浓缩成单张 1920×1080 图像。通过自适应裁剪关键交互区域,平均减少 76.2% 的视觉 tokens,同时保留必要线索(如任务目标、步骤和失败点)。这使反馈更易解释,便于 Coder 识别问题(如低对比度或复杂布局)并进行针对性修订,例如去除样式、提升对比或简化结构。 实验结果 实验显示,先进 Coder(如 GPT-5)能生成外观合理的 GUI,但初始功能完整性较低(许多任务不可求解),通过失败反馈可快速提升。CUA 导航是主要瓶颈,即使功能完整,初始成功率也较低;但通过协作迭代(如去样式化、高对比和简化布局),成功率显著提高,证明智能体反馈能增强 GUI 的鲁棒性和效率。项目强调,智能体偏好简洁、功能导向的界面,而非人类式的视觉复杂性。 研究项目地址

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Tue Nov 25 12:15:30
1st time I'll do a Black Friday deal 
gonna be a big one

👉 the "Tibo's Bundle" 

turn notification "on" on my profile if you don't want to miss it

1st time I'll do a Black Friday deal gonna be a big one 👉 the "Tibo's Bundle" turn notification "on" on my profile if you don't want to miss it

Built Tweet Hunter, Taplio (sold $8m) Growing https://t.co/OyNJ8ZUyOh - https://t.co/jS9GQJ5Ps8 - https://t.co/EFUcKeBbpU - https://t.co/JkVOl1O0S1 - https://t.co/KG9PgxJabg Sharing weekly tips about growth: https://t.co/ereQodN3Ov

avatar for Tibo
Tibo
Tue Nov 25 12:14:14
RT @jackfriks: i have a folder on my computer named "keep going"

here are some of the images inside of it: (part 5)

RT @jackfriks: i have a folder on my computer named "keep going" here are some of the images inside of it: (part 5)

curious guy creating things @ https://t.co/HXWladhJaA - up and coming wife guy

avatar for jack friks
jack friks
Tue Nov 25 12:13:09
RT @andersonbcdefg: this is a very very cool idea. too bad it only works with anthropic models on claude api. someone should make a version…

RT @andersonbcdefg: this is a very very cool idea. too bad it only works with anthropic models on claude api. someone should make a version…

making models learn • eXperiments lab • memes and training lores

avatar for tokenbender
tokenbender
Tue Nov 25 12:08:38
RT @antoine_chaffin: Conversely, PyLate exposes no sign of weakness in training, only state-of-the-art models

Get bulked today, it is not…

RT @antoine_chaffin: Conversely, PyLate exposes no sign of weakness in training, only state-of-the-art models Get bulked today, it is not…

Asst professor @MIT EECS & CSAIL (@nlp_mit). Author of https://t.co/VgyLxl0oa1 and https://t.co/ZZaSzaRaZ7 (@DSPyOSS). Prev: CS PhD @StanfordNLP. Research @Databricks.

avatar for Omar Khattab
Omar Khattab
Tue Nov 25 12:02:36
  • Previous
  • 1
  • More pages
  • 2409
  • 2410
  • 2411
  • More pages
  • 5635
  • Next