要真正了解模型的稳定性和自主性,以及它所展现出的自主性和“毅力和决心”(其中一些也取决于代理框架,例如 Cursor 与 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花费一些时间进行大量的独立试验。