Como extraer las URLs de un sitemap con Sitemap Extractor
Ya hacía tiempo que no publicada ningún programa nuevo y he decidido hacer pública una herramienta muy simple pero efectiva, la he llamado Sitemap Extractor. Como su propio nombre indica, nos permite extraer las URLs de un sitemap XML y exportarlas a un archivo de texto.
El programa ha sido probado en multitud de webs y si el sitemap sigue los estándares de codificación XML para sitemaps, el programa será capaz de extraer las URLs. Hay dos tipos de sitemaps que no es capaz de procesar:
- Sitemaps comprimidos con gzip (los reconocemos porque tienen la extensión .gz). En un futuro, no descarto añadir soporte para este tipo de sitemaps comprimidos.
- Sitemaps que no siguen los estándares XML para sitemaps.
En el momento de escribir este artículo, Sitemap Extractor está en una primera versión beta, por lo que puede tener algunos errores. Personalmente, lo he probado en varios blogs WordPress que emplean diferentes plugins para crear el sitemap (Google XML Sitemaps, WordPress SEO by Yoast, etc), también lo he probado en blogs Tumblr y ha extraído las URLs correctamente en todos los casos.
Muchos os estaréis preguntando para que necesitáis extraer las URLs de un sitemap, pero yo no puedo daros la respuesta, ya que hay multitud de situaciones en las que podemos necesitar esta funcionalidad. Por poneros algunos ejemplos, lo he empleado como punto de partida para extraer contenidos de forma masiva, para realizar auditorías SEO e incluso para acelerar el proceso de búsqueda de dominios expirados. El programa en si no permite hacer directamente los ejemplos mostrados, pero obtener la lista de URLs de una página web es el punto de partida para poder realizarlas.
Como extraer las URLs de un sitemap con Sitemap Extractor
El funcionamiento del programa es muy sencillo, sólo hay que introducir la URL del sitemap y el programa automáticamente procesará sus contenidos.
Basándonos en la numeración de la imagen anterior seguiremos los siguientes pasos:
- Introducimos la URL del sitemap que queremos extraer. Para localizar el sitemap podemos probar la localización más común que es
http://www.web.com/sitemap.xml
o también podemos consultar el archivorobots.txt
para ver si muestra donde está almacenado el sitemap. Una vez introducida la URL del sitemap pulsamos el botón “Extraer”. - En segundo lugar marcamos los sitemaps a los que queremos extraer sus URLs. Muchos sitios tienen un índice de subsitemaps, pero Sitemap Extractor los reconoce y nosotros sólo debemos encargarnos de seleccionar los que queremos extraer. En muchas ocasiones nos puede interesar no extraer las URLs de las categorías o etiquetas, o sólo extraer las URLs de un mes en concreto, etc.
- En tercer lugar, ya sólo nos queda procesar los sitemaps seleccionados, para ello hacemos click con el botón derecho del ratón en el área donde se listan las URLs de los sitemaps y pulsamos el botón “Procesar”. Veremos cómo se nos muestra una nueva ventana donde nos solicita el nombre y localización del archivo de texto donde se guardarán las URLs.
- Por último sólo nos queda esperar a que el proceso termine y en el apartado registro podemos comprobar si todo ha ido bien o si tenemos algún mensaje de error.
Y con estos sencillos pasos (largos de explicar con palabras pero que se realizan en unos pocos segundos con unos pocos clicks de ratón), conseguimos una lista de URLs que podremos usar para otras tareas.
Espero que os sea de utilidad y si encontráis algún problema o tenéis alguna sugerencia no dudéis en usar los comentarios para informarme.
Sitemap Extractor:
- Requisitos: sistema operativo Windows, .Net Framework 4 y un cerebro funcional.
- Descarga Sitemap Extractor v0.1beta: Descargar