LogoThread Easy
  • 発見
  • スレッド作成
LogoThread Easy

Twitter スレッドの万能パートナー

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

took my first robotaxi tonight, seems like tesla is going to win. they manufacture the cars, pure vision model stack, and the network to deploy them.

took my first robotaxi tonight, seems like tesla is going to win. they manufacture the cars, pure vision model stack, and the network to deploy them.

bet hard on vertically integrated companies. they literally make their own chips dawg

avatar for will depue
will depue
Mon Nov 03 06:39:38
Enjoying things since the primordial soup.

Enjoying things since the primordial soup.

Research Scientist @meta (FAIR), Prof. @Unige_en, co-founder @nc_shape. I like reality.

avatar for François Fleuret
François Fleuret
Mon Nov 03 06:38:32
I don't know shit in art otherwise I'd gladly occupy the niche of jokes-for-art-history-nerds.

I don't know shit in art otherwise I'd gladly occupy the niche of jokes-for-art-history-nerds.

Research Scientist @meta (FAIR), Prof. @Unige_en, co-founder @nc_shape. I like reality.

avatar for François Fleuret
François Fleuret
Mon Nov 03 06:35:52
来源:https://t.co/UrDwaPe7HI

来源:https://t.co/UrDwaPe7HI

Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

avatar for 宝玉
宝玉
Mon Nov 03 06:35:20
纽约客:人工智能的盈利困局与历史教训

作者:约翰·卡西迪

1987年,诺贝尔经济学奖得主、麻省理工学院(M.I.T.)的罗伯特·索洛(Robert Solow)在《泰晤士书评》的一篇文章中评论道:“计算机时代随处可见,唯独在生产率的统计数据中不见踪影。” 尽管当时计算能力飞速提升,个人电脑也日益普及,但政府数据却显示,衡量工资和生活水平的关键指标——工人的人均总产出——却停滞了十多年。这就是后来著名的“生产率悖论”(productivity paradox)。这个悖论持续到了上世纪90年代甚至更久,引发了大量莫衷一是的学术研究。一些经济学家将其归咎于新技术管理不善;另一些人则认为,与蒸汽机和电力等早期发明相比,计算机在经济上的重要性相形见绌;还有人则怪罪于数据统计有误,认为修正后悖论便会消失。

索洛的文章发表近40年后,自OpenAI发布ChatGPT聊天机器人近三年来,我们可能正面临一个新的经济悖论,而这次的主角是生成式人工智能(generative artificial intelligence)。根据斯坦福大学、克莱姆森大学和世界银行的经济学家最近进行的一项调查,在今年6月和7月,有近一半的劳动者(准确地说是45.6%)都在使用AI工具。然而,麻省理工学院(M.I.T.)媒体实验室一个团队的新研究却报告了一个惊人的结果:“尽管企业在生成式AI上投入了300到400亿美元,本报告发现95%的组织回报为零。”

该研究的作者们审查了三百多个公开的AI项目和公告,并采访了五十多名公司高管。他们对“成功的AI投资”的定义是:已经超越了试点阶段(pilot phase)并被实际部署,且在六个月后产生了可衡量的财务回报或显著的生产率提升。他们写道:“只有5%成功整合的AI试点项目正在创造数百万美元的价值,而绝大多数项目仍停滞不前,对P&L(即‘损益表’,profit-and-loss)没有任何可衡量的影响。”

调查采访引发了一系列回应,其中一些充满了怀疑。“领英(LinkedIn)上炒得天花乱坠,好像一切都变了,但我们的实际运营中,根本性的东西一点没变,”一家中型制造公司的首席运营官告诉研究人员。“我们处理合同是快了点,但仅此而已。” 另一位受访者评论道:“我们今年看了几十个演示。可能一两个是真有用。剩下的要么是‘套壳’(wrappers,指仅仅包装了现有技术,没有实质创新),要么就是‘科学项目’(指离实际商业应用还很远的技术探索)。”

公平地说,该报告也指出,确实有一些公司进行了成功的AI投资。例如,报告强调了针对后台运营(back-office operations)的定制化工具所创造的效率,并指出:“这些早期结果表明,有学习能力的系统,如果针对特定流程,确实可以带来真正的价值,甚至无需进行重大的组织结构调整。” 调查还提到一些公司报告称“通过自动化外联和智能跟进系统,提高了客户保留率和销售转化率”,这表明AI系统可能对营销有用。

但是,“许多公司正艰难地获取实质性回报”这一观点,与跨国咨询公司Akkodis的另一项最新调查不谋而合。该公司联系了两千多名企业高管后发现,对本公司AI实施策略“非常有信心”的CEO比例,已从2024年的82%骤降至今年的49%。企业首席技术官的信心也有所下降,尽管降幅没那么大。Akkodis的调查称,这些变化“可能反映了先前在数字化或AI项目上令人失望的结果、实施中的延迟或失败,以及对可扩展性(scalability)的担忧。”

上周,媒体对麻省理工学院媒体实验室研究的报道,恰逢英伟达(Nvidia)、Meta和 Palantir 等高估值的AI相关股票下跌。当然,相关性不等于因果关系,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)最近的言论可能在这次抛售中扮演了更重要的角色(鉴于近期的价格涨幅,抛售在所难免)。据CNBC报道,奥尔特曼在一次与记者的晚宴上表示,目前的估值“高得离谱”(insane),并在15秒内三次使用了“泡沫”(bubble)一词。

尽管如此,麻省理工学院的这份研究还是吸引了大量关注。在最初一轮新闻报道之后,有消息称,与许多科技公司有联系的媒体实验室正在悄悄限制对该报告的访问。我留给该组织公关办公室和两位报告作者的信息都石沉大海。

尽管这份报告比一些新闻报道所描述的要微妙,但它无疑对2022年11月OpenAI发布ChatGPT以来支撑科技繁荣的宏大经济叙事提出了质疑。这个叙事的简版是:生成式AI的广泛传播对工人(尤其是知识工作者)不利,但对公司及其股东却极为有利,因为它将带来生产率的巨大飞跃,并因此带来丰厚利润。

为什么这一幕似乎还没有发生?一个可能的原因让人想起了上世纪八九十年代的一种观点,即管理失误限制了计算机带来的生产力效益。媒体实验室的研究发现,一些最成功的AI投资是由初创公司做出的,它们在工作流程的狭窄领域使用了高度定制化的工具。而在“生成式AI鸿沟”(GenAI Divide)的另一边,那些不太成功的初创公司“要么在构建通用工具,要么试图在内部开发能力”。报告更笼统地指出,成功与失败的分野“似乎不是由模型质量或监管驱动的,而是由(实施)方法决定的。”

可以想象,生成式AI的新颖性和复杂性可能让一些公司望而却步。咨询公司高德纳(Gartner)最近的一项研究发现,只有不到一半的CEO相信他们的首席信息官“精通AI”。但对于媒体实验室报告中凸显的失望记录,还有另一种可能的解释:对于许多成熟企业而言,生成式AI(至少在目前的形式下)根本没有被吹嘘的那么神。“它在头脑风暴和撰写初稿方面非常出色,但它记不住客户的偏好,也不会从以前的编辑中学习,”媒体实验室调查的一位受访者说。“它会重复同样的错误,每次会话都需要输入大量上下文(context)。对于高风险的工作,我需要一个能够积累知识并不断改进的系统。”

当然,有很多人觉得AI很有用,也有学术证据支持这一点:2023年,麻省理工学院的两位经济学家发现,在一项随机试验中,接触ChatGPT的参与者能更快地完成“专业写作任务”,写作质量也有所提高。同年,其他研究团队也发现,使用Github的Copilot(一款AI编程助手)的程序员,以及使用了专有AI工具的客户支持代理,都获得了生产率提升。媒体实验室的研究人员发现,许多员工正在工作中使用他们的个人工具,如GPT或Claude;报告将这种现象称为“影子AI经济”(shadow AI economy),并评论说“它带来的投资回报率(ROI)”往往优于雇主发起项目。但问题依然存在,而且这肯定是公司高管们会更频繁提出的问题:为什么没有更多的公司看到这些效益体现在最终的(公司)利润中?

部分问题可能在于,生成式AI虽然引人注目,但在经济的许多领域中应用有限。休闲和酒店业、零售业、建筑业、房地产业和护理行业(照顾儿童、老人或体弱者)——这些行业总共雇佣了大约五千万美国人,但它们看起来并不像是AI转型的直接候选者。

另一个需要注意的重点是,AI在整个经济中的普及很可能是一个漫长的过程。在硅谷,人们喜欢“快速行动,打破常规”(move fast and break things)。但经济史告诉我们,即使是最具变革性的技术,即经济学家所称的“通用技术”(general-purpose technologies),也必须等到配套的基础设施、技能和产品发展起来后,才能最大限度地发挥其效用。而这可能是一个漫长的过程。苏格兰发明家詹姆斯·瓦特(James Watt)在1769年发明了他的圆筒蒸汽机。三十年后,英国大多数棉纺厂仍在使用水车提供动力,部分原因是运输用于蒸汽机的煤炭很困难。直到19世纪初蒸汽火车发展起来,情况才有所改变。电力的普及也很缓慢,并没有立即带来全经济范围的生产率增长。正如索洛所指出的,计算机的发展也遵循了同样的模式。(从1996年到2003年,美国整体经济的生产率增长终于提速,许多经济学家将其归因于信息技术的延迟效应。但随后,增长率又回落了。)

经济学家认为,在某些情况下,新技术甚至可能降低生产率增长,因为它们具有颠覆性,难以融入现有的工作方式。直到后期,生产率的提高才会显现出来——这种模式被称为“J曲线”(J curve,指一项新技术在应用初期,由于投入成本高、需要时间适应和流程再造,生产率先会下降,形成J的底部;随后,随着技术成熟和配套完善,生产率会迅速攀升,形成J的上升部分)。今年早些时候,来自不同机构的四位经济学家发表了一篇论文,认为美国制造业现在可能正处于AI“J曲线”的下降部分。在与人口普查局合作收集了企业层面的AI采用数据后,经济学家们表示,他们发现的证据表明“短期绩效损失先于长期收益”。该研究的作者之一、多伦多大学教授克里斯蒂娜·麦克埃尔赫兰(Kristina McElheran)在麻省理工学院斯隆管理学院发表的一篇相关文章中写道:“AI不是即插即用(plug and play)的。它需要系统性的变革,而这个过程会带来摩擦,尤其是对老牌企业而言。”

如果从表面上看,这个论点对企业来说终究是乐观的——尽管对那些技能可以被AI复制的工人来说未必如此。(正如一些入门级程序员已经发现的那样,后者完全有理由感到警惕。)在技术的J曲线上,一旦“摩擦”被克服,生产率就会腾飞。但由于沿着曲线的旅程可能很漫长,因此很难预测谁将成为赢家和输家。在互联网商业化浪潮中,许多最终的赢家直到2000年互联网泡沫破灭之后才出现。(谷歌成立于1998年,但直到2004年才上市。Facebook直到2004年才创建,Airbnb直到2008年。)历史不一定会重演。但那些仍在AI热潮中乘风破浪的投资者,现在兑现一部分筹码或许是明智之举。♦

纽约客:人工智能的盈利困局与历史教训 作者:约翰·卡西迪 1987年,诺贝尔经济学奖得主、麻省理工学院(M.I.T.)的罗伯特·索洛(Robert Solow)在《泰晤士书评》的一篇文章中评论道:“计算机时代随处可见,唯独在生产率的统计数据中不见踪影。” 尽管当时计算能力飞速提升,个人电脑也日益普及,但政府数据却显示,衡量工资和生活水平的关键指标——工人的人均总产出——却停滞了十多年。这就是后来著名的“生产率悖论”(productivity paradox)。这个悖论持续到了上世纪90年代甚至更久,引发了大量莫衷一是的学术研究。一些经济学家将其归咎于新技术管理不善;另一些人则认为,与蒸汽机和电力等早期发明相比,计算机在经济上的重要性相形见绌;还有人则怪罪于数据统计有误,认为修正后悖论便会消失。 索洛的文章发表近40年后,自OpenAI发布ChatGPT聊天机器人近三年来,我们可能正面临一个新的经济悖论,而这次的主角是生成式人工智能(generative artificial intelligence)。根据斯坦福大学、克莱姆森大学和世界银行的经济学家最近进行的一项调查,在今年6月和7月,有近一半的劳动者(准确地说是45.6%)都在使用AI工具。然而,麻省理工学院(M.I.T.)媒体实验室一个团队的新研究却报告了一个惊人的结果:“尽管企业在生成式AI上投入了300到400亿美元,本报告发现95%的组织回报为零。” 该研究的作者们审查了三百多个公开的AI项目和公告,并采访了五十多名公司高管。他们对“成功的AI投资”的定义是:已经超越了试点阶段(pilot phase)并被实际部署,且在六个月后产生了可衡量的财务回报或显著的生产率提升。他们写道:“只有5%成功整合的AI试点项目正在创造数百万美元的价值,而绝大多数项目仍停滞不前,对P&L(即‘损益表’,profit-and-loss)没有任何可衡量的影响。” 调查采访引发了一系列回应,其中一些充满了怀疑。“领英(LinkedIn)上炒得天花乱坠,好像一切都变了,但我们的实际运营中,根本性的东西一点没变,”一家中型制造公司的首席运营官告诉研究人员。“我们处理合同是快了点,但仅此而已。” 另一位受访者评论道:“我们今年看了几十个演示。可能一两个是真有用。剩下的要么是‘套壳’(wrappers,指仅仅包装了现有技术,没有实质创新),要么就是‘科学项目’(指离实际商业应用还很远的技术探索)。” 公平地说,该报告也指出,确实有一些公司进行了成功的AI投资。例如,报告强调了针对后台运营(back-office operations)的定制化工具所创造的效率,并指出:“这些早期结果表明,有学习能力的系统,如果针对特定流程,确实可以带来真正的价值,甚至无需进行重大的组织结构调整。” 调查还提到一些公司报告称“通过自动化外联和智能跟进系统,提高了客户保留率和销售转化率”,这表明AI系统可能对营销有用。 但是,“许多公司正艰难地获取实质性回报”这一观点,与跨国咨询公司Akkodis的另一项最新调查不谋而合。该公司联系了两千多名企业高管后发现,对本公司AI实施策略“非常有信心”的CEO比例,已从2024年的82%骤降至今年的49%。企业首席技术官的信心也有所下降,尽管降幅没那么大。Akkodis的调查称,这些变化“可能反映了先前在数字化或AI项目上令人失望的结果、实施中的延迟或失败,以及对可扩展性(scalability)的担忧。” 上周,媒体对麻省理工学院媒体实验室研究的报道,恰逢英伟达(Nvidia)、Meta和 Palantir 等高估值的AI相关股票下跌。当然,相关性不等于因果关系,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)最近的言论可能在这次抛售中扮演了更重要的角色(鉴于近期的价格涨幅,抛售在所难免)。据CNBC报道,奥尔特曼在一次与记者的晚宴上表示,目前的估值“高得离谱”(insane),并在15秒内三次使用了“泡沫”(bubble)一词。 尽管如此,麻省理工学院的这份研究还是吸引了大量关注。在最初一轮新闻报道之后,有消息称,与许多科技公司有联系的媒体实验室正在悄悄限制对该报告的访问。我留给该组织公关办公室和两位报告作者的信息都石沉大海。 尽管这份报告比一些新闻报道所描述的要微妙,但它无疑对2022年11月OpenAI发布ChatGPT以来支撑科技繁荣的宏大经济叙事提出了质疑。这个叙事的简版是:生成式AI的广泛传播对工人(尤其是知识工作者)不利,但对公司及其股东却极为有利,因为它将带来生产率的巨大飞跃,并因此带来丰厚利润。 为什么这一幕似乎还没有发生?一个可能的原因让人想起了上世纪八九十年代的一种观点,即管理失误限制了计算机带来的生产力效益。媒体实验室的研究发现,一些最成功的AI投资是由初创公司做出的,它们在工作流程的狭窄领域使用了高度定制化的工具。而在“生成式AI鸿沟”(GenAI Divide)的另一边,那些不太成功的初创公司“要么在构建通用工具,要么试图在内部开发能力”。报告更笼统地指出,成功与失败的分野“似乎不是由模型质量或监管驱动的,而是由(实施)方法决定的。” 可以想象,生成式AI的新颖性和复杂性可能让一些公司望而却步。咨询公司高德纳(Gartner)最近的一项研究发现,只有不到一半的CEO相信他们的首席信息官“精通AI”。但对于媒体实验室报告中凸显的失望记录,还有另一种可能的解释:对于许多成熟企业而言,生成式AI(至少在目前的形式下)根本没有被吹嘘的那么神。“它在头脑风暴和撰写初稿方面非常出色,但它记不住客户的偏好,也不会从以前的编辑中学习,”媒体实验室调查的一位受访者说。“它会重复同样的错误,每次会话都需要输入大量上下文(context)。对于高风险的工作,我需要一个能够积累知识并不断改进的系统。” 当然,有很多人觉得AI很有用,也有学术证据支持这一点:2023年,麻省理工学院的两位经济学家发现,在一项随机试验中,接触ChatGPT的参与者能更快地完成“专业写作任务”,写作质量也有所提高。同年,其他研究团队也发现,使用Github的Copilot(一款AI编程助手)的程序员,以及使用了专有AI工具的客户支持代理,都获得了生产率提升。媒体实验室的研究人员发现,许多员工正在工作中使用他们的个人工具,如GPT或Claude;报告将这种现象称为“影子AI经济”(shadow AI economy),并评论说“它带来的投资回报率(ROI)”往往优于雇主发起项目。但问题依然存在,而且这肯定是公司高管们会更频繁提出的问题:为什么没有更多的公司看到这些效益体现在最终的(公司)利润中? 部分问题可能在于,生成式AI虽然引人注目,但在经济的许多领域中应用有限。休闲和酒店业、零售业、建筑业、房地产业和护理行业(照顾儿童、老人或体弱者)——这些行业总共雇佣了大约五千万美国人,但它们看起来并不像是AI转型的直接候选者。 另一个需要注意的重点是,AI在整个经济中的普及很可能是一个漫长的过程。在硅谷,人们喜欢“快速行动,打破常规”(move fast and break things)。但经济史告诉我们,即使是最具变革性的技术,即经济学家所称的“通用技术”(general-purpose technologies),也必须等到配套的基础设施、技能和产品发展起来后,才能最大限度地发挥其效用。而这可能是一个漫长的过程。苏格兰发明家詹姆斯·瓦特(James Watt)在1769年发明了他的圆筒蒸汽机。三十年后,英国大多数棉纺厂仍在使用水车提供动力,部分原因是运输用于蒸汽机的煤炭很困难。直到19世纪初蒸汽火车发展起来,情况才有所改变。电力的普及也很缓慢,并没有立即带来全经济范围的生产率增长。正如索洛所指出的,计算机的发展也遵循了同样的模式。(从1996年到2003年,美国整体经济的生产率增长终于提速,许多经济学家将其归因于信息技术的延迟效应。但随后,增长率又回落了。) 经济学家认为,在某些情况下,新技术甚至可能降低生产率增长,因为它们具有颠覆性,难以融入现有的工作方式。直到后期,生产率的提高才会显现出来——这种模式被称为“J曲线”(J curve,指一项新技术在应用初期,由于投入成本高、需要时间适应和流程再造,生产率先会下降,形成J的底部;随后,随着技术成熟和配套完善,生产率会迅速攀升,形成J的上升部分)。今年早些时候,来自不同机构的四位经济学家发表了一篇论文,认为美国制造业现在可能正处于AI“J曲线”的下降部分。在与人口普查局合作收集了企业层面的AI采用数据后,经济学家们表示,他们发现的证据表明“短期绩效损失先于长期收益”。该研究的作者之一、多伦多大学教授克里斯蒂娜·麦克埃尔赫兰(Kristina McElheran)在麻省理工学院斯隆管理学院发表的一篇相关文章中写道:“AI不是即插即用(plug and play)的。它需要系统性的变革,而这个过程会带来摩擦,尤其是对老牌企业而言。” 如果从表面上看,这个论点对企业来说终究是乐观的——尽管对那些技能可以被AI复制的工人来说未必如此。(正如一些入门级程序员已经发现的那样,后者完全有理由感到警惕。)在技术的J曲线上,一旦“摩擦”被克服,生产率就会腾飞。但由于沿着曲线的旅程可能很漫长,因此很难预测谁将成为赢家和输家。在互联网商业化浪潮中,许多最终的赢家直到2000年互联网泡沫破灭之后才出现。(谷歌成立于1998年,但直到2004年才上市。Facebook直到2004年才创建,Airbnb直到2008年。)历史不一定会重演。但那些仍在AI热潮中乘风破浪的投资者,现在兑现一部分筹码或许是明智之举。♦

来源:https://t.co/UrDwaPe7HI

avatar for 宝玉
宝玉
Mon Nov 03 06:35:19
Qwen3-Max-Thinking 实测! 呃......

给大家带来 Qwen3-Max-Thinking-Preview 的测试结果:

大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差.

过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模.

鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误.

python 杯子倒水是可以的, 在这些头部模型中是及格分数.

另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 

那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美.

总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务.

#Qwen3 #KCORES大模型竞技场

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Mon Nov 03 06:33:48
  • Previous
  • 1
  • More pages
  • 1234
  • 1235
  • 1236
  • More pages
  • 2111
  • Next