(至少对于编程而言)重要的是,对于那些已经熟练使用类似模型进行软件开发的人来说,该模型有多好,以及他们在尝试了几个小时各种真实的、现实世界的任务后,而不是在愚蠢的陷阱问题上,他们给出的合理意见。
要真正了解模型的稳定性和自主性,以及它所展现出的自主性和“毅力和决心”(其中一些也取决于代理框架,例如 Cursor 与 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花费一些时间进行大量的独立试验。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月19日 19:54
(至少对于编程而言)重要的是,对于那些已经熟练使用类似模型进行软件开发的人来说,该模型有多好,以及他们在尝试了几个小时各种真实的、现实世界的任务后,而不是在愚蠢的陷阱问题上,他们给出的合理意见。
要真正了解模型的稳定性和自主性,以及它所展现出的自主性和“毅力和决心”(其中一些也取决于代理框架,例如 Cursor 与 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花费一些时间进行大量的独立试验。