E leva um bom tempo e muitos testes independentes para realmente ver o quão consistente e autônomo o modelo é, quanta capacidade de ação e "garra e determinação" ele demonstra (parte disso também depende da estrutura do agente, como Cursor versus Gemini-CLI), e o quão confiável ele é com as ferramentas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.