现阶段我主要关注的评价只有两个: -它能否可靠地完成30分钟以上的任务而不出错? -这些床让我对AGI(通用人工智能)产生了多大的影响 (这篇文章绝无贬低 Gemini 3 的意思,它看起来是一款很棒的机型,祝贺团队成功发布!)