Al desarrollar rastreadores web, el mayor dolor de cabeza a menudo no es escribir el código, sino encontrar bibliotecas o herramientas adecuadas para diferentes lenguajes y escenarios, ya que los recursos están muy dispersos. Me topé con Awesome Web Scraping, una colección de recursos de código abierto que organiza sistemáticamente varias herramientas de procesamiento de datos y raspado web. Está organizado según lenguajes de programación y cubre bibliotecas de raspado web para lenguajes convencionales como Python, PHP, Ruby, JavaScript y Go, así como herramientas de línea de comandos y materiales de aprendizaje. GitHub: https://t.co/MP1R3oMRNH Además de la propia biblioteca de herramientas, también incluye recursos prácticos como tutoriales de web scraping y una lista de navegadores headless. Este proyecto se basa en datos de varias listas impresionantes y conocidas, y los recursos son relativamente completos, por lo que vale la pena guardarlo para futuras referencias.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
