X (Twitter)

（至少對於程式設計而言）重要的是，對於那些已經熟練使用類似模型進行軟體開發的人來說，該模型有多好，以及他們在嘗試了幾個小時各種真實的、現實世界的任務後，而不是在愚蠢的陷阱問題上，他們給出的合理意見。

要真正了解模型的穩定性和自主性，以及它所展現出的自主性和「毅力和決心」（其中一些也取決於代理框架，例如 Cursor 與 Gemini-CLI），以及它在工具使用方面的可靠性，都需要花費一些時間進行大量的獨立試驗。

來自 Jeffrey Emanuel（@doodlestein）的推文串