LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

dammit. it’s over. my fiancee bought the elephant skin with our heart points but i wanted to buy the polar bear 😔😔😔😔

dammit. it’s over. my fiancee bought the elephant skin with our heart points but i wanted to buy the polar bear 😔😔😔😔

the grind continues

avatar for jack friks
jack friks
Fri Dec 19 02:21:28
4.5千Star!这个开源PPT神器,一张图就能生成全套模板

这个开源PPT项目太牛逼了!名叫:banana-slides

现在有4千多Star,支持Docker部署安装

昨天朋友推荐的,用过的都说好。

可以提供大纲补全生成,可控性很好。
模版只需要上传一张图片参考就行。

底层基于Nano Banana Pro + 大语言模型,支持第三方API。

地址见评论

4.5千Star!这个开源PPT神器,一张图就能生成全套模板 这个开源PPT项目太牛逼了!名叫:banana-slides 现在有4千多Star,支持Docker部署安装 昨天朋友推荐的,用过的都说好。 可以提供大纲补全生成,可控性很好。 模版只需要上传一张图片参考就行。 底层基于Nano Banana Pro + 大语言模型,支持第三方API。 地址见评论

简单实用的开源项目必须star https://t.co/KwkHFYrpdI

avatar for 向阳乔木
向阳乔木
Fri Dec 19 02:18:43
i used to be so scared of not being able to work for a few weeks, or even a few days 

but i’m going to the philippines for 1 month for the new year 

my fiancee and her family told me everyone is going to be staring at my pasty white ass 

and it’s gunna be fun! we are going to explore and she is going to show me all around their families home city + go to province for a night or two and then something planned for my birthday but i don’t know what exactly yet 

i realized in the last year that there’s no upside in working for yourself if you can’t also enjoy the life you are meant to give yourself by the means of working for yourself 

of course i’ll still be doing some work, but if i don’t get as much done as usual that’s okay and accepting that now lets me enjoy the month in a new place with people i love showing me where they grew up and still have family in 

no i’m not trying bulot, i will still to my fiancées lola’s cooking mostly and some other staples they told me i will like ;) they know what i like! 

anyways little rant journal i look forward to looking back on in some time 

work is fun but so is having fun!

i used to be so scared of not being able to work for a few weeks, or even a few days but i’m going to the philippines for 1 month for the new year my fiancee and her family told me everyone is going to be staring at my pasty white ass and it’s gunna be fun! we are going to explore and she is going to show me all around their families home city + go to province for a night or two and then something planned for my birthday but i don’t know what exactly yet i realized in the last year that there’s no upside in working for yourself if you can’t also enjoy the life you are meant to give yourself by the means of working for yourself of course i’ll still be doing some work, but if i don’t get as much done as usual that’s okay and accepting that now lets me enjoy the month in a new place with people i love showing me where they grew up and still have family in no i’m not trying bulot, i will still to my fiancées lola’s cooking mostly and some other staples they told me i will like ;) they know what i like! anyways little rant journal i look forward to looking back on in some time work is fun but so is having fun!

curious guy creating things @ https://t.co/HXWladhJaA - up and coming wife guy

avatar for jack friks
jack friks
Fri Dec 19 02:18:40
OpenAI 如何打开 AI 模型思考的“黑盒”:关于思维链 (CoT) 可监控性的深度评估

OpenAI 这篇文章探讨了 AI 安全领域一个至关重要的前沿课题:思维链 (CoT) 的可监控性,详细介绍了他们如何评估和监控 AI 模型的内部推理过程,以确保未来更强大 AI 系统的安全性。

核心概念:什么是“思维链可监控性”?
随着 AI 模型(如 GPT-5 Thinking)变得越来越复杂,它们在给出最终答案之前,会先生成一段内在的推理过程,我们称之为“思维链”。

“可监控性” 指的是外部监控者(无论是人类还是另一个 AI 模型)通过观察这个思维链,能够多大程度上准确判断该 AI 的行为意图。例如,判断 AI 是否在欺骗、是否在通过不正当手段获取奖励,或者仅仅是确认它是否遵循了正确的解题步骤。

简单来说,就是我们不仅要看 AI 做了什么(结果),还要看它是怎么想的(过程),以及这个“想法”是否透明、易懂。

为什么这很重要?
传统的监控方式通常只关注模型的输出或行动。OpenAI 的研究发现,随着模型能力增强,仅看结果已经不够了。
· 更有效的监管:研究表明,监控思维链比仅监控输出能更有效地发现模型的错误行为。
· 应对高风险场景:在医疗、科研等高风险领域,我们需要确信 AI 的决策逻辑是安全可靠的,而不是仅仅碰巧做对了。
· 未来的安全基石:OpenAI 认为,保持思维链的可监控性,是未来实现“可扩展监督”的关键手段。

关键发现与研究成果
OpenAI 提出了一套包含 13 种评估方法的框架,并得出了一些具有指导意义的结论:

1. “思考”得越多,越容易被监控
这是一个积极的发现。当模型被允许进行更长时间的推理时,它的可监控性通常会提高。这意味着模型不仅能力变强了,其内部逻辑也对监控者更加透明。

2. 存在“可监控性税”
这是一个重要的权衡概念。研究发现,在达到相同能力水平时,使用一个较小的模型并让它进行更长时间的深度思考,比使用一个巨大的模型但只让它进行浅层思考,更容易被监控。

这就带来了一个选择:为了安全,我们可能需要付出更多的计算成本(推理时间),用“小模型+深思考”的模式来替代“大模型+快反应”。这种额外的计算成本被称为“可监控性税”。

3. 强化学习目前的正面影响
人们曾担心,强化学习可能会让模型学会“隐藏”真实想法,或者像人类一样有“私密思维”。但目前的数据显示,在现有的前沿规模下,强化学习并没有显著降低思维链的可监控性,甚至在推理的早期阶段还有所提升。不过,未来如果规模进一步急剧扩大,风险依然存在。

4. “追问”可以提升透明度
如果模型的初次思维链不够清晰,研究人员发现可以通过“追问”的方式,迫使模型在后续的思维链中暴露更多的信息。这是一种简单但有效的提升监控能力的方法。

阅读原文

OpenAI 如何打开 AI 模型思考的“黑盒”:关于思维链 (CoT) 可监控性的深度评估 OpenAI 这篇文章探讨了 AI 安全领域一个至关重要的前沿课题:思维链 (CoT) 的可监控性,详细介绍了他们如何评估和监控 AI 模型的内部推理过程,以确保未来更强大 AI 系统的安全性。 核心概念:什么是“思维链可监控性”? 随着 AI 模型(如 GPT-5 Thinking)变得越来越复杂,它们在给出最终答案之前,会先生成一段内在的推理过程,我们称之为“思维链”。 “可监控性” 指的是外部监控者(无论是人类还是另一个 AI 模型)通过观察这个思维链,能够多大程度上准确判断该 AI 的行为意图。例如,判断 AI 是否在欺骗、是否在通过不正当手段获取奖励,或者仅仅是确认它是否遵循了正确的解题步骤。 简单来说,就是我们不仅要看 AI 做了什么(结果),还要看它是怎么想的(过程),以及这个“想法”是否透明、易懂。 为什么这很重要? 传统的监控方式通常只关注模型的输出或行动。OpenAI 的研究发现,随着模型能力增强,仅看结果已经不够了。 · 更有效的监管:研究表明,监控思维链比仅监控输出能更有效地发现模型的错误行为。 · 应对高风险场景:在医疗、科研等高风险领域,我们需要确信 AI 的决策逻辑是安全可靠的,而不是仅仅碰巧做对了。 · 未来的安全基石:OpenAI 认为,保持思维链的可监控性,是未来实现“可扩展监督”的关键手段。 关键发现与研究成果 OpenAI 提出了一套包含 13 种评估方法的框架,并得出了一些具有指导意义的结论: 1. “思考”得越多,越容易被监控 这是一个积极的发现。当模型被允许进行更长时间的推理时,它的可监控性通常会提高。这意味着模型不仅能力变强了,其内部逻辑也对监控者更加透明。 2. 存在“可监控性税” 这是一个重要的权衡概念。研究发现,在达到相同能力水平时,使用一个较小的模型并让它进行更长时间的深度思考,比使用一个巨大的模型但只让它进行浅层思考,更容易被监控。 这就带来了一个选择:为了安全,我们可能需要付出更多的计算成本(推理时间),用“小模型+深思考”的模式来替代“大模型+快反应”。这种额外的计算成本被称为“可监控性税”。 3. 强化学习目前的正面影响 人们曾担心,强化学习可能会让模型学会“隐藏”真实想法,或者像人类一样有“私密思维”。但目前的数据显示,在现有的前沿规模下,强化学习并没有显著降低思维链的可监控性,甚至在推理的早期阶段还有所提升。不过,未来如果规模进一步急剧扩大,风险依然存在。 4. “追问”可以提升透明度 如果模型的初次思维链不够清晰,研究人员发现可以通过“追问”的方式,迫使模型在后续的思维链中暴露更多的信息。这是一种简单但有效的提升监控能力的方法。 阅读原文

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Fri Dec 19 02:17:55
two of my favourite people on a podcast

stop everything and watch - two of the clearest thinkers I know

two of my favourite people on a podcast stop everything and watch - two of the clearest thinkers I know

building workers observability @cloudflaredev, prev founder @baselimehq (acquired by cloudflare), prev aerodynamicist

avatar for boris
boris
Fri Dec 19 02:17:35
Also copy-paste is often broken + when starting a new chat, it remembers prompts that I've already sent

Also copy-paste is often broken + when starting a new chat, it remembers prompts that I've already sent

Building https://t.co/nmwK08MUwm (podcast database). Distracted by https://t.co/jqWrfEGKqa (get reviews), https://t.co/5c6R9aonB7 (newsletter database), https://t.co/bNrobgtDDT (maker meetups)

avatar for James Potter (rephonic.com)
James Potter (rephonic.com)
Fri Dec 19 02:14:15
  • Previous
  • 1
  • More pages
  • 370
  • 371
  • 372
  • More pages
  • 5634
  • Next