X (Twitter)

@cline を使った Gemini 3 Pro の第一印象最初は素晴らしいのですが、10万トークンを超えると急激に精度が低下します。私が扱っているコードベースの規模では、タスク完了に必要な情報を読み込んだ後に読み込まれるトークンの数はほぼこれだけなので、モデルがほぼすべてのタスクの詳細に注意を払うことが難しいことがわかります。 20 万トークンを超えると、混乱が生じて完了アクションで早期に終了し、未完了のタスクが残ってしまい、ロールバックまたは新しいエージェントによる引き継ぎと再試行が必要になります ($$$) 小さなタスクを一発でこなすのに適しており、小規模プロジェクトでは良い支援となるかもしれないが、コスト効率の高いAYCEプランを備えたエンタープライズ向けのものについては、Claude CodeまたはCodexに頼るだろう。今日@antigravityを試してみたのですが、クォータトラッキングとVSCodeの移行に関する問題がいくつかあるので、数日待って、すべて解決したら試してみる必要があります。CodexがGPT-5.1をより最適に活用しているのと同様に、コンテキストをより有効に活用するコーディングエージェントがあるかもしれません。全体的に見て、これは依然としてLLMであり、小規模なプロジェクトやデモでは改善が見られますが、大規模なコードでは同様の制限が課せられることが予想されます。大規模なコードベースでは、GPT-5.1やClaude Sonnet 4.5とほぼ同等、あるいは機能実装やリファクタリングタスクに基づくとやや劣るパフォーマンスとなります。

Damian Tran（@damianvtran）のスレッド

作者情報

スレッド内容