Explorar

This might be the best humanoid jog I've seen yet. Doubt this is pure RL, I'd love to know the curriculum here.

gpus and tractors Neural networks from Scratch book: https://t.co/hyMkWyUP7R https://t.co/8WGZRkUGsn

Harrison Kinsley

Thu Dec 04 15:23:01

KlingAI 发布数字人模型 Avatar 2.0 可以根据文本内容生成最长5分钟的口型同步视频表情更加真实：笑、怒、疑惑、强调…各种情绪都能自然表达，不再像早期 AI 人物那样僵硬动作更灵活：不仅仅是嘴巴口型同步，整体表演更像一个真正的演员支持长达 5 分钟的数字人视频表演

讲解视频、宣传片、歌曲 MV、故事叙述等，都能支持配备了各种模版也可以上传自己形象和声音生成

小互

Thu Dec 04 15:22:30

Wondering how to attend an ML conference the right way? ahead of NeurIPS 2025 (30k attendees!) here are ten pro tips: 1. Your main goals: (i) meet people (ii) regain excitement about work (iii) learn things – in that order. 2. Make a list of papers you like and seek them out at poster sessions. Try to talk to the authors– you can learn much more from them than from a PDF. 3. Pick one workshop and one tutorial that sounds most interesting. Skip the rest. 4. Cold email people you want to meet but haven't. Check Twitter and the accepted papers list. PhD students are especially responsive. 5. Practice a concise pitch of unpublished research you're working on for "what are you interested in rn?". Focus on big unanswered questions and exciting new directions, not papers. 6. Skip the orals. Posters are a higher-bandwidth, more engaging, more invigorating. Orals are a good time to go for a walk or talk in the hallway. 7. for the love of god, do NOT work on other research in your hotel room. Save mental bandwidth for the conference. (This may seem obvious; you'd be surprised.) 8. Talk to people outside your area. There are many smart people working on niches <10 people understand. Learn about one or two that won't help your own work. 9. Attend one social each night. Don't overthink it or get caught up in status games. They're all fun. 10. Take breaks. You can't go to everything, and conferences consume more energy than a normal workweek. hope this helps, and sad i'm not attending neurips, have fun :)

research @cornell // language models, information theory, science of AI

dr. jack morris

Thu Dec 04 15:16:37

This is biased because there are 14 startups in Security, and two of them make $9M and $4M. Medians are less sexy but maybe more realistic:

💻 https://t.co/Y30jsaHwz9 $30K/m ⚡️ https://t.co/vatLDmi9UG $21K/m 📈 https://t.co/3EDxln5mdi $17K/m ⭐️ https://t.co/MZc8tG9xWi $17K/m 🍜 https://t.co/r07EpGSYJ2 $1K/m 🧬 https://t.co/SfrVXVtmdA $0/m 🧾 https://t.co/7olaOzV8Xd $0/m +20 https://t.co/4zCWHGJp1S

Marc Lou

Thu Dec 04 15:16:08

Google机器人专家揭秘：为什么你家还没有机器人保姆？开车回北京路上，听了张小珺的播客：《对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google》初窥了机器人和大语言模型结合的进展情况，用AI写成一篇文章分享，我觉得很有趣。 --- 你有没有想过，为什么机器人能在仿真环境里翻跟头、跑步，现实中却连走路都摇摇晃晃? 这个问题困扰了Google DeepMind的谭捷很多年。作为团队的技术负责人，他见证了过去十年机器人领域两次关键的范式转变。第一次是强化学习，第二次是大语言模型。谭捷的转型其实挺有意思的。小时候爱打游戏，博士读的是计算机图形学。 2015年那场著名的DARPA机器人挑战赛，不知道你是否听说过。那些人形机器人要完成过坡、开车、拧阀门这些"简单"任务，结果摔得七零八落。但在仿真环境里呢? 机器人早就能翻跟头了。这种巨大的反差让谭捷看到了机会：如果能把仿真里的技术迁移到真实世界，机器人会有质的飞跃。 2018年，谭捷在Google发表了第一篇论文，用深度强化学习解决四足机器人的步态问题。这篇论文开创了什么? 证明了一件事：你不需要PhD才能让机器人走路了。以前大家用MPC(模型预测控制)，那套数学复杂到你必须是博士才能搞懂。但强化学习出现后，很多高中生都能从网上下个PPO包，配合Isaac Gym，就能让机器人动起来。当一个技术变得足够简单，它就会迅速普及。你看现在，不管是波士顿动力的Atlas，还是宇树、逆熵的机器人，大家都在用强化学习。这个领域在五年内从"只有少数人能做"变成了"全民都能做"。但强化学习只解决了"小脑"的问题——怎么走路、怎么保持平衡。机器人还缺一个"大脑"。 2022年前后，大语言模型的出现改变了一切。以前你让机器人"帮我做杯咖啡"，它完全不知道什么意思。但现在你问ChatGPT同样的问题，它能给你列出详细的步骤。谭捷把这个比作大脑和小脑的关系: - 大脑(大语言模型)：负责理解、规划、决策 - 小脑(强化学习)：负责执行、控制、平衡两者缺一不可。今年他们团队发布的Gemini Robotics 1.5有两个关键创新。 1. 给机器人加上"思考"能力以前的VLA模型是这样的：输入图像和任务描述，直接输出马达角度。现在呢? 机器人会先"想一想"。比如你让它按颜色分类衣服，它会先识别颜色，再决定放到哪一堆，然后执行动作。整个思考过程都会用文本输出。这带来两个好处: ① 机器人能处理更复杂的多步骤任务 ② 人类能看懂机器人在想什么，更安全 Motion Transfer：跨本体的数据迁移这个更厉害。以前的问题是：每个机器人的数据只能自己用。你在机器人A上采集的数据，换到机器人B上就没用了。但他们发现，通过一个叫Motion Transfer的方法，可以让不同机器人之间共享学习成果。举个例子: Aloha是个桌面机器人，只会在平面上操作，从没见过垂直场景。 Franka是个工业机器人，经常在垂直工具架上拿东西。当把两者的数据混在一起训练后，Aloha突然也能从书架上拿书了，尽管它从没见过这种场景。它从根本上解决了数据不够的问题，因为任何机器人做的任务都能被其他机器人利用。至于具体怎么做的? 谭捷笑着说:"It's very secret。" 聊了这么多技术，但谭捷反复强调的只有一个词: 数据、数据、数据。大语言模型的数据是免费的，网上到处都是。但机器人数据呢? 每一条都要花钱。王贺算过一笔账： 1万台人形机器人，每台10万，就是10个亿。每台两班倒需要4个人遥操作，一个月小几万。加上维护、标注、质检，每个月成本在数亿到十亿。这完全不可扩展。所以谭捷信仰的是另一条路: 可扩展的数据。包括: - 仿真数据 - YouTube上的人类视频 - 视频生成模型(比如Sora、VEO)生成的数据生成极大量的仿真数据，用算力换精度，这可能是唯一可行的路。世界模型:下一个范式? VLA(Vision-Language-Action)是现在效果最好的模型。但语言有个问题: 它是一种有信息损失的表达方式。你怎么用语言描述"用筷子夹菜"时每个手指的细微动作? 很难。所以硅谷现在很多人在押注世界模型，输入是视觉和语言，输出是下一帧的图像。世界模型就是Vision-Language-Vision。它不是替代VLA，而是和VLA共存。可能未来会有一个统一的大模型，但现在受限于算力，还做不到。触觉:被低估的模态谭捷有个有趣的认知变化。以前他觉得触觉不重要，因为Aloha那篇论文证明了，纯视觉就能让机器人从皮包里拿出信用卡。但最近用灵巧手控制剪刀时，他改变了想法。当你有灵巧手时，触觉就非常重要。因为剪刀的两个环很大，如果没有触觉反馈，你不知道手指是在环里还是在空气中，就没法准确控制开合。所以他的结论是：在夹爪时代，视觉能解决95%的问题。但到了灵巧手时代，触觉就必不可少了。硅谷有多卷? 很多人觉得996是中国传统。但谭捷说，硅谷现在做AI和机器人的，也是996。他自己一周工作70-80小时。为什么这么拼? 因为没有人想输在这场竞争里。如果你是世界第二，团队里最优秀的人就会想去世界第一的团队。所以你只能加倍工作，永远保持在第一梯队。 Meta最近用天价挖人，更是扰动了整个硅谷的AI人才市场。但谭捷说，真正优秀的人才，他们在乎的不是钱，而是想确保自己在对的船上。当巨大变革发生时，一个有使命感的人不会容忍自己在错误的地方。机器人像几岁小孩? 这是个有意思的问题。从运动能力看，机器人已经超越成年人了。谭捷说宇树的人形机器人跑得比还快。但从抓取和操作能力看，可能只有两三岁小孩的水平。它能大概理解你要它干什么，尝试几次能做对，但抓得不稳。如果是灵巧手呢? 可能连两岁都不到。机器人的发展非常不均衡。步态控制在过去5年被强化学习基本解决了，但手部操作还远远没有找到好的解决方案。两到三年：GPT时刻谭捷的判断是: 2-3年：会有足够的突破，让人们真实意识到"通用机器人来了" 5年：机器人会在制造、物流、超市等垂直领域落地，但不再是传统自动化，而是有泛化能力的 10年：机器人开始广泛进入家庭但他也反复强调：大多数人高估了机器人的现状。因为大家看到的都是拍了10遍里最好的那个视频，但那不代表机器人真正的能力。一年前，他们的机器人连圣诞袜都抓不起来。今年在CORAL的demo上，有人带了个复杂的控制盒，上面有各种按钮、开关、滑块，给了25个任务，机器人完成了10个。这在6个月前是不可想象的。但10个成功率是40%，在现实生活中还是不可用的。最后的思考听完这期播客，我有几个感受: 1. 机器人不是一个单一问题，而是一系列复杂问题的叠加。不像AI有明确的主线，机器人这里一点那里一点，都还没解决完。 2. 数据是最大的瓶颈。如果只能解决一个问题，那就是数据问题。 3. 硅谷相信长期主义。他们愿意花10年时间押注一个方向，哪怕短期看不到回报。这和国内追求快速落地的文化很不一样。 4. 华人在这波浪潮里占比很高。谭捷的团队50-60%是华人。不是因为华人抱团，而是因为华人数学好、能吃苦、又有才华。 5. 机器人的发展被高估了。虽然进展很快，但离真正落地还有很大距离。最后他说了一句话，我觉得挺有意思: "当一个技术越来越容易用的时候，那个技术很快就会普及。" 强化学习是这样，大语言模型也是这样。也许有一天，让机器人学会新技能，会像今天用ChatGPT一样简单。那时候，机器人才真正来了。

播客地址 https://t.co/6Cmg3FIJDm

向阳乔木

Thu Dec 04 15:15:01

interactive video was a magical experience for me, rlly cool walkthrough of how one of the best team’s in the world thinks about it, actual design patterns in modalities beyond LLM/VLM (Distribution Transformer is a good read they mention) also always have a soft spot for vision from my PhD, tons of deeply interesting vision research questions like: - defining actions dynamically/conditionally during interactive - consistency across long horizons - how to bring deterministic objects into interactive video worlds

building agents and harnesses, prev @awscloud, phd cs @ temple

Viv

Thu Dec 04 15:12:38

Newest first — browse tweet threads

Explorar

Newest first — browse tweet threads

This might be the best humanoid jog I've seen yet. Doubt this is pure RL, I'd love to know the curriculum here.

This is biased because there are 14 startups in Security, and two of them make $9M and $4M. Medians are less sexy but maybe more realistic: