Y se necesita tiempo real y muchas pruebas independientes para ver realmente cuán consistente y autónomo es el modelo, cuánta capacidad de acción y “tenacidad y determinación” muestra (parte de esto también depende del marco del agente, por lo que Cursor versus Gemini-CLI), cuán confiable es con las herramientas.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.