• Etiquetas: crawlers
ArchiveBox es una herramienta de código abierto para gestionar repositorios y copias locales de sitios y recursos web. A partir de una lista de direcciones web, realiza una copia resguardada localmente de todos los archivos del sitio. Puede tomar archivos HTML, JS, PDFs, imágenes y videos.Permite crear tu propio archive.org!

PHPCrawl es una herramienta PHP que permite explorar y almacenar páginas, datos y todo tipo fuentes disponibles en la web para implementar buscadores especializados y modelos de explotación de datos

Heritrix es un crawler desarrollado en JAVA que permite Heritrix almacenar en condiciones y gerenciar en condiciones de preservación contenidos hipertextuales disponibles en la Web.