(至少對於程式設計而言)重要的是,對於那些已經熟練使用類似模型進行軟體開發的人來說,該模型有多好,以及他們在嘗試了幾個小時各種真實的、現實世界的任務後,而不是在愚蠢的陷阱問題上,他們給出的合理意見。
要真正了解模型的穩定性和自主性,以及它所展現出的自主性和「毅力和決心」(其中一些也取決於代理框架,例如 Cursor 與 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花費一些時間進行大量的獨立試驗。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月19日 晚上7:54
(至少對於程式設計而言)重要的是,對於那些已經熟練使用類似模型進行軟體開發的人來說,該模型有多好,以及他們在嘗試了幾個小時各種真實的、現實世界的任務後,而不是在愚蠢的陷阱問題上,他們給出的合理意見。
要真正了解模型的穩定性和自主性,以及它所展現出的自主性和「毅力和決心」(其中一些也取決於代理框架,例如 Cursor 與 Gemini-CLI),以及它在工具使用方面的可靠性,都需要花費一些時間進行大量的獨立試驗。