Keep on to blur preview images; turn off to show them clearly

building workers observability @cloudflaredev, prev founder @baselimehq (acquired by cloudflare), prev aerodynamicist

分享一些好用、优雅的 AI 、工作流和创作方式,一起边学边做,前字节coder, Al and tech Educator, LearnPrompt founder

为什么可以原生输出5分钟的不穿帮的视频, 它依托了一种叫视频续写任务的预训练方式。在训练的时候,LongCat-Video看的不是零碎的短片,而是大量的连续剧。它的大脑天生就在思考接下来会发生什么,而不是这个画面应该长什么样。 模型在看连续剧的时候,不是一帧一帧地看,而是一段一段、一个事件一个事件地看。它理解的是“动作的起承转合”,这是一种叫Block-Causal Attention的机制,这样生成的长时间的动作不会轻易断裂 在生成长视频时,LongCat-Video还会把前面算过的不变的东西,比如背景里的那栋楼,先缓存起来,不用每一帧都重新算一遍,这样就可以提升到5分钟了 (6/6)

答案是2秒之后全部都是生成的内容。 LongCat-Video很擅长这种第一视角的穿越视频,甚至可以一次性生成5分钟的穿越视频,中间过程非常自然连贯,与真实世界非常相似。 (2/6)


专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽


RL and efficient distributed pretraining • eXperiments lab • memes and training lores
