LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

奥特曼:合着我不建机房你们就不发新模型咯?

给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大!

首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈

言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情:

首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核.

关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日).

其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL)

技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数.

其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极.

#moonshotAI #kimik2 #kimik3 #kimivl #AMA

奥特曼:合着我不建机房你们就不发新模型咯? 给大家带来月之暗面在 Reddit 的 AMA (Ask Me Anything) 的爆料内容!信息量巨大! 首先最大的猛料莫过于 ComfortableAsk449 (小道消息是这位是杨植麟) 回应 Kimi-K3 什么时候发布说 "我们会在奥特曼的万亿美元数据中心建成之前发布"哈哈哈哈 言归正传, 给大家总结这次精华内容, 我觉得说了很多之前大家不知道的事情: 首先, 460万美元训练成本只是传言, 但可以肯定训练成本不会特别高, 官方团队爆料训练使用H800 GPU + Infiniband,数量比美国高端 GPU 少,但充分利用每张卡. int4 精度大家都知道了, 选择 int4 对非 Blackwell GPU 更友好,可以用 marlin 内核. 关于 Kimi K3, 很可能会在 K3 中采用 KDA 相关思想, 并中融入重大架构变化开发新能力, 根据社区观察,每两个月第一个周五发布(预测 2026年1月9日). 其他新模型方面, 目前社区呼声最高的是3B到48B这个区间, 100-120B MoE 社区也强烈需求. 另外透露可能会有新的视觉语言模型! (之前也有Kimi-VL) 技术方面, KDA + NoPE MLA 比 full MLA + RoPE 表现更好, Muon 优化器首次在1T参数规模得到了验证. K2 Thinking 使用端到端代理强化学习训练. 团队曾做过 1M 上下文窗口(当时成本太高),未来版本会增加上下文长度(目前256K). 团队承认当前版本优先性能而非 token 效率, 正在积极改进,会将效率纳入奖励函数. 其他消息还包括, OK Computer 马上也要上 kimi-k2-thinking 版本, 当前写作风格是特调的, 避免谄媚和过度积极. #moonshotAI #kimik2 #kimik3 #kimivl #AMA

各种爆料包括 kimi-k3 什么时候发布等

avatar for karminski-牙医
karminski-牙医
Tue Nov 11 09:33:33
This is my fav sandwich here called Banh My Chay.

59.280 vnd = $2.28 for 2 sandwich

This is my fav sandwich here called Banh My Chay. 59.280 vnd = $2.28 for 2 sandwich

"The Micro Startups Guy" ❯ https://t.co/hwZ0eO0l5D ❯ https://t.co/RkKck3vdIO ❯ https://t.co/PyEJHvxCRn ❯ https://t.co/5hDIulx6OL Sold @nocodeapi for 6 figures

avatar for Mohd Danish
Mohd Danish
Tue Nov 11 09:32:22
It's related to Content Filtering; I am looking to disable it partially for lawyers using Lexboost. 

Some criminal law context does contain more explicit things but these get blocked and our customers are starting to enquire why.

I can't get through any form or support ticket system and this is pretty much my final option 😅

@merill @mattlungrenMD @AzureSupport

It's related to Content Filtering; I am looking to disable it partially for lawyers using Lexboost. Some criminal law context does contain more explicit things but these get blocked and our customers are starting to enquire why. I can't get through any form or support ticket system and this is pretty much my final option 😅 @merill @mattlungrenMD @AzureSupport

Founder @Tailscan for Tailwind CSS Co-Founder @Lexboostai + many random side projects: https://t.co/TPk3m9LhZa, https://t.co/uW4shohLZq, https://t.co/BFujf7veHX

avatar for Erwin
Erwin
Tue Nov 11 09:29:05
GOAT @zxytim 
Our mission "Seeking the optimal conversion from energy to intelligence"

GOAT @zxytim Our mission "Seeking the optimal conversion from energy to intelligence"

Staff @Kimi_Moonshot prev. co-maker of ModelizeAI & gemsouls "Personality goes a long way" @UCSanDiego

avatar for Crystal
Crystal
Tue Nov 11 09:25:34
强,claude skills的技能库,涵盖了从日常办公到专业开发及安全领域的技能包

包括如何使用、怎样创建技能指南
一次编写,网页、CLI、API三端通用

技术包覆盖文档处理的、开发和代码工具、数据分析、市场营销、创作、创意媒体、生产工具、项目管理、安全等场景

#claudeskills

强,claude skills的技能库,涵盖了从日常办公到专业开发及安全领域的技能包 包括如何使用、怎样创建技能指南 一次编写,网页、CLI、API三端通用 技术包覆盖文档处理的、开发和代码工具、数据分析、市场营销、创作、创意媒体、生产工具、项目管理、安全等场景 #claudeskills

github:https://t.co/2VlpovC04D

avatar for AIGCLINK
AIGCLINK
Tue Nov 11 09:20:30
Reminder: if your Laravel/PHP project grows large, your performance problems will probably not be about Laravel/PHP.

Top bottlenecks usually are:
1. DB queries/structure
2. Infrastructure (servers, queues, caching)
3. Specific features that were coded in unoptimized way

Reminder: if your Laravel/PHP project grows large, your performance problems will probably not be about Laravel/PHP. Top bottlenecks usually are: 1. DB queries/structure 2. Infrastructure (servers, queues, caching) 3. Specific features that were coded in unoptimized way

~20 yrs in web-dev, now mostly Laravel. My Laravel courses: https://t.co/HRUAJdMRZL My Youtube channel: https://t.co/qPQAkaov2F

avatar for Povilas Korop | Laravel Courses Creator & Youtuber
Povilas Korop | Laravel Courses Creator & Youtuber
Tue Nov 11 09:11:02
  • Previous
  • 1
  • More pages
  • 203
  • 204
  • 205
  • More pages
  • 2137
  • Next