要真正了解模型的穩定性和自主性,以及它所展現出的自主性和「毅力和決心」(其中一些也取決於代理框架,例如 Cursor 與 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花費一些時間進行大量的獨立試驗。