X (Twitter)

（至少对于编程而言）重要的是，对于那些已经熟练使用类似模型进行软件开发的人来说，该模型有多好，以及他们在尝试了几个小时各种真实的、现实世界的任务后，而不是在愚蠢的陷阱问题上，他们给出的合理意见。

要真正了解模型的稳定性和自主性，以及它所展现出的自主性和“毅力和决心”（其中一些也取决于代理框架，例如 Cursor 与 Gemini-CLI），以及它在工具使用方面的可靠性，都需要花费一些时间进行大量的独立试验。

来自 Jeffrey Emanuel（@doodlestein）的推文线程