Consejos de Google para usar sitemaps correctamente

En Tutoriales y Guías, Webmasters por

Google nos ha facilitado una guía que recoge las mejores prácticas y consejos para crear nuestros sitemaps de forma que Google pueda indexar y actualizar nuestros contenidos de forma adecuada. No me voy a limitar a hacer una simple traducción del artículo original, sino que voy a mostrar que cosas estamos haciendo mal o cuales podemos mejorar.

Consejos de Google para usar sitemaps correctamente

A lo largo del artículo iré mostrando los diferentes errores que tienen los plugins de sitemaps para WordPress en la actualidad, basándome sobre todo en mi experiencia con el plugin Google XML Sitemaps de WordPress (programado por Arne Brachhold). Antes de empezar también debe quedar claro que tener un sitemap no garantiza que nuestra web vaya a ser indexada.

Tipos de sitemaps

Lo primero que debemos saber, es diferenciar los dos tipos de sitemaps que Google puede identificar e interpretar. La estructura de estos sitemaps puede estar en formato XML, RSS o Atom.

La gran diferencia reside en que los sitemaps XML contienen todas las URLs de nuestra página web, mientras que los feeds RSS/Atom sólo muestran los últimos cambios o las novedades de nuestra web.

Desde la propia guía, Google recomienda emplear ambos tipos, tanto los sitemaps XML como los feeds RSS/Atom, sabiendo que estos últimos ayudarán a que los contenidos más nuevos se indexen rápidamente.

Para que os hagáis una idea de cómo es cada sitemap, os muestro los que uso en Vozidea:

Personalmente tengo ambos sitemaps agregados en Google Webmaster Tools en la sección de sitemaps.

Sitemaps Google Webmasters Tools

Consejos de Google para usar sitemaps correctamente

Los campos más importantes de los sitemaps son la URL y su fecha de modificación, ambos campos deben cumplir una serie de requisitos que detallamos a continuación.

Buenas prácticas para las URLs de los sitemaps:

  • Incluir sólo URLs que existen y que son accesibles por el robot de Google.
  • No incluir URLs que se han desautorizado en el archivo robots.txt.
  • Incluir sólo URLs canónicas, ya que son las únicas que indexará Google. Al mismo tiempo evitar duplicar URLs dentro de nuestro sitemap.

Buenas prácticas para establecer la fecha de última modificación en un sitemap.

Lo primero que nos dejan claro en la guía de sitemaps de Google, es que sólo debemos actualizar la fecha de publicación de un artículo cuando el contenido ha cambiado significativamente.

Aquí nos encontramos el primer error de la gran mayoría de plugins de sitemaps para WordPress, los cuales actualizan la fecha aunque sólo modifiques el artículo para poner una coma.

La fecha de última modificación debe tener el formato correcto:

  • XML: en este caso se emplea el formato W3C Datetime.
  • RSS: se emplea el formato especificado en la RFC822.
  • ATOM: formato especificado en la RFC3339.

En este apartado del formato de las fechas de última modificación, los plugins para WordPress la muestran de forma correcta.

Buenas prácticas para los sitemaps XML.

Las buenas prácticas van a depender del tamaño de nuestra web, pero lo que nos aconseja Googles es:

  • Actualizar el sitemap al menos una vez al día y después hacer ping a Google. Con esto de actualizar el sitemap una vez al día se refiere al caso en que agreguemos contenido nuevo, sino lógicamente no será necesario.
  • Maximizar el número de URLs que contiene un sitemap. Google tiene unos límites a la hora de procesar los sitemaps y sólo procesará sitemaps que contengan 50000 URLs y de un tamaño máximo (sin comprimir) de 10 MB.

En este segundo apartado de maximizar el número de URLs que contiene cada sitemap, todos los plugins para WordPress probados fallan porque dividen el sitemap en varios sub-sitemaps (uno para los artículos de cada mes, uno para las etiquetas, otro para las categorías, otro para los autores, etc).

En cuanto a la cuestión de hacer ping a Google, he comprobado que lo hacen correctamente según el protocolo especificado.

Buenas prácticas para los feeds RSS/Atom.

En este apartado WordPress parece que no se ajusta del todo a las recomendaciones de Google, que son las siguientes:

  • Añadir al feed la URL de los contenidos nuevos y si se ha modificado considerablemente un artículo existente además de añadirlo al feed hay que modificar la fecha de actualización.
  • También recomiendan el uso del protocolo PubSubHubbub para notificar a los agregadores de noticias y suscriptores sobre los nuevos contenidos publicados en tu web.

Tras analizar este apartado con el generador de feeds RSS que trae WordPress por defecto, he podido comprobar que aunque modifique un artículo no cambia la fecha de modificación ni tampoco lo agrega al feed RSS con los últimos artículos. Además WordPress no trae por defecto soporte para el protocolo PubSubHubbub, pero si existen diversos plugins para ello.

Conclusiones finales

En general si empleamos WordPress con el plugin Google XML Sitemaps de WordPress (programado por Arne Brachhold) cumplimos la mayor parte de los consejos de Google, aunque si es cierto que en diversos apartados no. Esperemos que ahora que Google se ha pronunciado facilitando las buenas prácticas para los sitemaps, los desarrolladores las tengan en cuenta en sus proyectos.

El artículo original en perfecto inglés lo encontrais en: http://googlewebmastercentral.blogspot.ca/2014/10/best-practices-for-xml-sitemaps-rssatom.html