12 cosas que debes saber sobre los sitemaps.xml

12 cosas que debes saber sobre los sitemaps.xml

15 Jul 2020 in

Hoy nos toca el tercer blog post especializado en sistemas de indexación posicionamiento SEO. Ya hemos abordadoy lapara supervisar la indexación. Ahora nos toca trabajar con otro de los ficheros más conocidos del SEO: los archivos sitemaps.xml. Como en anteriores ocasiones vamos desgranar todo el contenido en distintos puntos, en este caso hablaremos sobre doce cosas que es importante que sepas sobre estos archivos. Algunas serán sabidas, otras espero que te sorprendan y lógicamente algunas serán validas para unos proyectos u otros.

Back to top

1) Qué son y cómo crear los sitemaps.xml

Los Sitemap no son más que una vía que nos ofrecen los motores de búsqueda a fin de que mismos les afirmemos que páginas deberían rastrear. Como prácticamente todo en herramientas de indexación son solo sugerencias y Google en realidad visitará las páginas que le de la gana en el orden que él desee. Sin embargo en muchos proyectos en los que (más por defecto de la web que de las arañas de Google) las arañas van un poco perdidas han demostrado ser de enorme utilidad para guiarlas y asistirlas a hallar el contenido.

Los sitemaps.xml son uno de los primeros ficheros que Google se preocupó por que conociésemos y eso ha logrado que exista muchísima documentación sobre como crearlos. A día de el día de hoy la mejor referencia oficial que tenemos la encontramos en "en muchísimos idiomas. El protocolo es muy simple mas tiene algunas peculariedades.

Este es el formato normal de un archivo sitemaps.xml bien hecho:

De esta estructura lo esencial es sobretodo la declaración inicial. Si no definimos el sitemap como un XML y sus atributos xmlns no será bien interpretado. Luego solo se trata de ir añadiendo nodos <url> con sus detalles (de los que solo <loc> es obligatorio). De echo la enorme mayoría de los sitemaps que encontraras verás que solo contienen el nodo "loc" y ningún otro detalle de las URLs.

La codificación de caracteres también es fundamental, solo se admite UTF-8 así que hay que revisarla. Además el sistema nos prohíbe de forma explicita el uso de ciertos caracteres. Si queremos usarlos tenemos que "escapearlos" en código HTML, esto es, debemos utilizar un código HTML para identificar el carácter preciso que verdaderamente queremos agregar.

Por suerte estos no son muchos:

Todo muy lógico, y no es nada que aun site con un tanto de posicionamiento en buscadores onpage bien hecho le vaya a afectar. Mas tengámonos en cuenta. Por ejemplo, ¿qué pasa con esta url: "?categoria=2&producto=25"? puesto que que realmente en nuestro sitemap deberíamos incluirla como "?categoria=2&producto=25".

Por último hay una restricción de tamaño:

  • Máximo se nos permiten 50.000 URLs por fichero sitemap.xml
  • Y el peso del archivo no podrá ser superior a los 50MB (así que cuidado con ajustar a cincuenta urls como hacen muchos que la podéis liar)

Bien, hasta aquí la teoría, pasamos a las cosas que a una parte de la documentación básica deberíamos todos tener contempladas para hacer un buen empleo de estos ficheros.

Back to top

2) 1. La mayoría de sites no precisan un sitemap.xml para nada

Esto no es solo verdad, sino que si hacemos mal el fichero sitemap.xml podemos hacer más mal a la indexación que bien. Este es otro de los puntos clásicos de los SEOs que están empezando: en clase les dicen que los sitemaps.xml son esenciales y de ahí muchos comprenden que cualquier site que no los tenga no indexará bien y mejoraría su indexación con ellos.

Esto no es cierto, estos archivos son una guía a fin de que las arañas no se pierdan y sepan donde acceder. Pero ¿que pasa si no se pierden? Les estoy aportando algo con este archivo. Es posible que si, si tienes alguna estrategia de trabajo con ellos (vamos a ver múltiples ejemplos más adelante) mas solo por subirlo con URLs y nada más no ganarás absolutamente nada con esto.

Así que por poner un ejemplo para sites pequeños (normalmetne con escasos recursos de desarrollo) y donde no vemos un problema de estructura evidente nosotros desde IKAUE no solemos solicitar ficheros sitemaps.xml. El posicionamiento en buscadores siembre debe jugar en la línea de la rentabilidad y indudablemente gastar tiempo de desarrollo en algo que no aporta absolutamente nada carece de sentido. Y no, la solución no es subir un archivo sitemap.xml estático que creas tu con cualquier programita... ¿qué sentido tiene? ¿Vas a utilizar un crawler menor para asistir a uno que es mucho más potente que el que tu usas? ¿Que esperas encontrar que google no pueda localizar por si acaso mismo?

Como contra además tenemos a toda esta gente que sube un sitemap sin tener mucha idea de posicionamiento web y encima provoca inconvenientes de indexación que ya antes no tenía. Esto pasa más de lo que podría parecer (hay demasiados "primos de" o bien "amigos de" haciendo SEO para webs pequeñas). Os pongo algunos ejemplos de problemas que podemos provocar con sitemaps.xml mal realizados.

  • Para comenzar si no lo haces bien puedes darle muchas URLs que en posicionamiento web en buscadores te importan más bien poco su indexación. Esto pasa cuando los produces automáticamente. Le afirmas que te indexe paginas corporativas que antes no tenía indexadas cosas así. También cuando te los generan desde desarrollo sin que pase nadie las indicaciones de qué deben contener te puedes hallar con cosas URLs del ambiente privado de usuario o bien páginas de gracias en el sitemap... ¿En serio queremos enseñarle eso a Google?
  • Otro clásico semejante al primero es cuando nos fiamos de nuestro CMS o bien de algún complemento de esos que lo genera todo. Ahí Wordpress, drupals y cosas así son unos especialistas en conseguir indexar contenido basura. Taxonomias a las que no habías ofrecido URLs en tu página, Páginas de autor, de Archivos Mensuales (o peor incluso diarios). No todo suma, todo esto resta
  • Finalmente otro problema sucede con sites donde el rastreo de Google no llega a todas y cada una de las páginas (con problemas de). Nos hallamos con que le cuesta llegar a URLs muy profundas y decidimos subirlas al sitemaps "para asistirle a encontrarlas". En estos casos podemos provocar que la araña ataque a páginas que tienen menos prioridad de posicionamiento del que tu les dabas en tu estructura. Por servirnos de un ejemplo, en una estructura web has relegado el posicionamiento de artículos muy viejos que no estaban bien enfocados hacia el objetivo real de tu web a múltiples clicks desde la home (asumiendo que muchos no se indexarán). Subes un sitemap y te alegras porque mejora la indexación de estos artículos. Mas por otro lado no te percatas de que el crawl budget sigue siendo el mismo que tenías (no lo has mejorado) y que la araña visite estos contenidos tan despriorizados termina provocando al cabo de cierto tiempo la desindexación de otros que tampoco estaban en primera línea de indexación mas que tenias más priorizados que estos que ahora estás empezando a recoger. Cuidado con ese tipo de cosas que cuando pasan puedes no percatarte de que el problema lo has provocado tu mismo con tus ansias de indexación. El crawl budget es el que es y el sitemap.xml no lo mejora.
  • Por ultimo un inconveniente (para mi menor) es que estamos poniendo a disposición de cualquiera que sea capaz de encontrar este archivo todas nuestras URLs y todos y cada uno de los datos que pongamos sobre ellas a su alcance. La competencia en posicionamiento SEO se audita también y ponérselo un tanto difícil no está de más. A mi me parece que salvo excepciones no es problemático que la competencia vea nuestros sitemaps, pero todo depende. Si esto te preocupa, es fácil de evitar: pongámonos a los archivos un nombre que no sea obvio y declaremoslos en Google Search Console y no en Robots.txt.

En definitiva dos cosas a destacar: a) en muchas webs no notaras ninguna por añadir un sitemap y b) si no te lo tomas de verdad puedes empeorar tu indexación en vez de mejorarla. Como norma, si no hay una estrategia clara detrás no hagas un sitemap.

Back to top

3) 2. Declárale la guerra a los archivos de "mapa del sitio", esos no son los buenos

Si es que realmente es muy obvio que no ayudan mas prosigue sucediendo. La gente lee sitemap y hace asociaciones raras. No es exactamente lo mismo un archivo XML de Sitemaps que un Mapa del sitio montado en una o varias páginas de la web.

Un sitemap.xml:

Es un fichero muy específico que tus usuarios no ven y que solo le ofreces a los rastreadores. Solo cumple funciones SEO, no afecta a la usabilidad del site

Un Mapa del lugar (o bien sitemap HTML o bien sitemap a secas):

Son páginas web que se usaban hace muchos años para reemplazar faltas de estructura en la página web. Lo que hacían estas páginas era, ante sites que no permitían a las arañas lograr el contenido saltando de link en enlace ofrecer una vía secundaria de indexación. Vamos, que se solucionaban carencias básicas del site creando páginas nuevas en exactamente el mismo.

Esto hace unos años era muy común... teníamos Menús que se montaban en iframes o bien con flash. Las webs las hacían diseñadores, sin directrices y la UX ni tenía nombre... Más adelante aun se usaron para casos específicos: Por poner un ejemplo era algo muy utilizado en Webs basadas en un buscador (clasificados, páginas de vuelos, etcétera). La página como estaba diseñada no ofrecía enlaces hacia el contenido así que se ponía un enlace abajo de "mapa del sitio" donde enlace a enlace el contenido terminaba siendo accedido por las arañas. Eran otros tiempos y las arañas eran mucho más tontas y sabíamos menos sobre como administrarlas.

A día de hoy los mapas del lugar carecen de sentido. Existen métodos mucho mejores para conseguir que las arañas hallen el contenido. Lo primero es una arquitectura bien planificada y aprovechar los propios menús y bloques de enlaces del site. Si esto no es suficiente probablemente precisemos dar vías de acceso secundarias (las aerolíneas siguen haciéndolo) pero con una estructura muy cercana a una real de un site y con contenidos, no con simples páginas llenas de links...

Lo peor de este sistema es que quien lo tiene piensa que ha solucionado la papeleta y no es cierto... Lo dicho: Muerte a los mapas del lugar. No los relaciones nunca con los sitemaps.xml. Estos últimos son una herramienta estupenda para hacer posicionamiento en buscadores al tiempo que los desfasados mapas de sitio son solo un vestigio del pasado tenebroso del posicionamiento web.

Back to top

4) 3. Podemos enviar a Google el sitemap de múltiples formas, no solo a través de Google Search Console

Uno de los puntos básicos pero vitales a fin de que Google lea nuestro sitemap. El sitemap no es como el fichero robots que siempre y en todo momento queda alojado en exactamente la misma URL sino prácticamente podemos ponerle cualquier nombre. Así que hay que decirle a Google (o a bing) donde buscar. Esto se hace mediante Google Search Console, donde encontraremos una sección llamada sitemap donde podemos apuntar esta URL. A esta acción la mal-llamamos "subir el sitemap". No subes nada, pero se le ha quedado este nombre.

Veremos más adelante que esta es la mejor vía posible pues nos da ciertas estadísticas sobre errores y su lectura, mas no es la única, realmente podemos utilizar dos vías más para apuntarle a Google estos archivos.

Indincándolo en el robots.txt

Es una de las vías recomendadas y puede suponer una enorme ventaja cuando hacemos implementaciones genéricas, en muchos sites al unísono o bien por lo que sea no podemos acceder al Google Search Console de cada dominio por separado. También puede ser una buena opción para motores de búsqueda menores. Por poner un ejemplo, si trabajaremos sobretodo Google mas queremos que ya de paso Bing lea nuestros sitemaps (si bien no vayamos a trabajarlos en bing) podemos añadirlo al Robots.txt y además darlos de alta en Google Search Console.

Es tan sencillo como declarar todos los ficheros sitemaps que deseemos con la declaración "siteamap:" al principio de la línea.

Los motores de búsqueda los rastrearán mas no nos darán la información de indexación y errores que si veríamos en Search Console.

Haciendo ping

Otra forma es hacer "ping" a una URL del buscador al que deseamos informar con la URL a leer. Un "Ping" no es más que una solicitud a esta URL sin más complejidades. Se carga la URL y el sistema se da por enterado. Esta solución también es valida para múltiples buscadores web. Enviamos un ping a una URL con el próximo formato "dominio buscador/ping?sitemap=URL del Sitemap". Por servirnos de un ejemplo para mandar a Google el ping de mi dominio llamaríamos a la próxima URL.

Esta es la manera más desmandada si bien puede servirnos para pegarle un toque de atención al buscador y que venga a mirar algo. Mucha gente lo emplea además para procurar forzar reastreos: frente a un update lanzamos pings de sitemaps que poseen las URLs con update intentando que la araña las visite. Si bien es verdad que subir sitemaps de URLs a realizar updates parece que algo si que afecta yo cuando menos no he tenido mucha diferencia en hacer ping o bien no a sus sitemaps la verdad.

Back to top

5) 4. Los sitemaps.xml solo afectan a archivos que están en su directorio o bien a mayor profundidad de este

Es decir "midominio.com/carpeta1/carpeta2/sitemaps.xml" no debe contener links a archivos de "midominio.com/carpeta1" o "midominio.com/" solo a los de "midominio.com/carpeta1/carpeta2/..."

Asi que por poner un ejemplo crear la típica carpeta de /sitemaps/ y por servirnos de un ejemplo alojar uno en "midominio.com/sitemaps/posts.xml" no es una buena idea ya que en teoría estos enlaces no se seguirían.

Lo mejor que podemos hacer es que es que todos nuestros sitemaps queden en la raiz de nuestro dominio (así garantizamos que no vamos a tener este tipo de restricciones). También existe la posibilidad de tener las cosas bien organizadas, y por ejemplo tener "/blog/sitemaps.xml" que solo tenga enlaces a "/blog/..." mas es más fácil equivocarse con estas URLs que forzando a que los archivos se queden en la raiz del dominio (sin utilizar carpetas).

Lo que solemos hacer nosotros para ordenarlos es (si realmente tenemos esta necesidad) jugar con el nombre de los ficheros. Por servirnos de un ejemplo, imagina que tienes un sitemap destinado al blog de la tienda de madrid del site. Como no acabamos de fiarnos de meterlo en la carpeta "dominio.com/madrid/blog/sitemap.xml" porque ciertas URLs podrían no estar en esta estructura lo que si podemos es emular algo parecido con en el nombre poniéndole por nombre por ejemplo: "/sitemap-dominio-com--madrid--weblog.xml"

Back to top

6) 5. Google no solo acepta sitemaps en XML, hay más formatos

Y es que el sitemap.xml es solo uno de los formatos aceptados (y el más completo y estándar, claro) pero hay otros que nos pueden ser realmente muy útiles en otros casos. Puedes.

Podemos subir ficheros sitemap.txt, formados por un archivo muy simple que solo contenga todas las URLs del site una detrás de otra cada una en una línea distinta. Google los lee igual y nos podemos evitar complejidades técnicas si tenemos prisa o trabajamos con el típico proyecto con recursos técnicos limitados... (ejem). Como sitemap básico funcionará igual, mas este sistema como es lógico no es el más recomendado por la sencilla razón de que perdemos muchas de las funcionalidades que vamos a ver más adelante (dado precisamente a que solo señalamos URLs y nada más con ellos).

Otra opción incluso menos conocida es que podemos Subir un RSS o bien Feed del site. Estos son archivos que se emplean para sindicar el contenido, o sea, a fin de que ciertas herramientas puedan ver las finalizas publicaciones de una plataforma y leerlas. Son archivos XML que solo tienen contenido y no diseño. Si jamás has visto ninguno puedes ver el de cualqueir blog en wordpress añadiendo "/rss" al final de su URL. POr ejemplo,. Subir este género de archivos suele suponer una mejora en la velocidad de indexación de nuevo contenido. Son sitemaps bastante consultados que generalmente solo contienen diez o veinte elementos y por tanto Google puede leerlso muy rápidamente.

Back to top

7) 6. Tenemos sitemaps de varios tipos no solo de URLs

Estamos habituados a que los Sitemaps.xml se refieran a páginas HTML concretas pero realmente pueden contener otros géneros de información. Google tiene especificados 4 tipos de sitemap entre los que resalta el estandar (URLs):

  • Estandar:/index.html
  • Video:/webmasters/answer/80471
  • Imagen:/webmasters/answer/178636
  • Noticias:/news/publisher/answer/74288

Por supuesto, cuando lo que deseamos es indexar contenido multimedia (algo que no siempre y en todo momento os recomendaría) los sitemaps expertos en videos e imágenes pueden ser realmente útiles. Los de noticias también son utiles aunque con la desparición de Google News (que vuelve a estar visible, todos lo hemos visto) puede parecer que no tienen sentido lo cierto es que no se trabajan igual y deberían aprovecharse en sitios de noticias.

POr último mentar que aun podemos mezclar estas tipologías de sitemaps creando ficheros que contengan sitemap de URLs, imágenes, videos, lo-que-quieras a la vez... Yo no lo haría pues no ayuda a entender las cosas mejor pero existe esa posibilidad.

Back to top

8) 7. Muchos campos (que cuesta tiempo desarrollar) se ignoran muchas veces por Google (según ellos por no hacerlo bien)

Y aquí viene el gran problema al trabajar con sitemaps... ¿ponemos todos y cada uno de los atributos o bien no?

Los sitemaps nos ofrecen 3 campos a añadir a la URL:

  • lastmod: fecha de ultimo cambio en la página
  • changeFreq: Cada cuanto tiempo aprox cambia el contenido de esta página.
  • Priority: de 0.1 a diez y solo en relación a las páginas del propio sitemap, cuan esenciales son unas y otras.

Sobre su interpretación tenemos históricamente mensajes muy contradictorios por la parte de Google pero que a la que los lees te das cuenta de que todos tienen un hilo común. No voy a replicarlos porque son bastantes, mas os los resumo: por una parte nos afirman que se ignora la fecha de modificacion y la frecuencia por el hecho de que absolutamente nadie lo hacia bien, por otro que se ignora la prioridad porque no aportaba la información aguardada... pero siempre y en todo momento, en todos y cada comentario que nos hacen hay una coletilla: "en la mayoría de los casos".

Al final todo esto quiere decir que estas etiquetas bien gestionadas no se ignoran, pero que acostumbramos a administrarlas mal y cuando eso sucede Google no les hace caso omiso. Esto cuadra, prácticamente en todos y cada uno de los aspectos es así: si Google no lo ve claro ignora tus etiquetados. Así que partamos de que si que podemos emplearlas, pero solo para usarlas bien, no para hacer el salvaje.

Os comento ciertos ejemplos de mala gestión que harían que google ignorase estas etiquetas...

Sobre lastmod

  • lastmod cuando empleamos generadores de sitemaps.xml nos lo ponen a la fecha de creación del sitemap, lo cual no tiene sentido y más aun cuando todas las urls tienen exactamente la misma fecha
  • lastmod tampoco tiene sentido cuando lo utilizamos para manipular al buscador. Google sabe cuando modificamos el contenido... si mentimos nos pilla
  • Por último En contenidos donde la Data aparece en el html o bien aun la tenemos marcada con schema no podemos aguardar que si no son fechas iguales nos haga caso

¿Que hacer con esta directriz?

Pensemos en su utilidad de cara al posicionamiento web. Verdaderamente incorporarlo solo nos sirve para indicar a Google que se está perdiendo una actualización en uno de nuestros contenidos. Esperamos con esto que al ver que su data de modificación es más reciente que la que el tiene en caché venga a ver el contenido ya antes. Por ese motivo os recomendaría lo siguiente:

  • Ni lo marquéis en páginas o bien sitemaps que no podéis garantizar que su data implique si o bien si la remata revisión del contenido único de la página
  • Marquémoslo solo en páginas de contenido (un last mod en un listado es muy difícil de trabajar de forma segura)
  • Usémoslo solo si verdaderamente hacemos reediciones en el contenido y nuestra reindexación es tan lenta que debemos ayudar a Google a percatarse de que lo hemos cambiado

Para todo lo demás creo que es preferible no emplearlo a emplearlo mal y que eso invalide toda la etiqueta al leer nuestos sitemaps.

ChangeFreq

Otra vez acostumbra a usarse muy mal esta etiqueta:

  • Muchos sitemaps utilizan el daily para todo aguardando que así su contenido se revise más a menudo
  • Otros escriben incluso mal el texto, tan solo se permite especificado por la documentación
  • Y otros simplemente la lían mucho haciendo un etiquetado arbitrario que nada tiene que ver con la realidad del cambio del contenido

¿Cómo deberíamos emplearlo?

  • Lo primero. Ni lo señalemos si no estamos dispuestos a trabajarlo bien y de forma bien automatizada (esta etiqueta no nos ayuda en sitemaps.xml estáticos). Partamos de la idea de que si nos pilla mintiéndole a nuestro favor ignorará la etiqueta.
  • Aún así, en muchos casos esta directriz ni siquiera va a tener sentido. ¿Cada cuanto cambia un contenido? Lo adecuado sería indicar "never" pero, ¿queremos decirle a Google eso? ¿y si nos hiciera caso y nunca la revisitase? Pero lo cierto es que un contenido puede no mudar nunca y todo lo que no sea un "never" es engañar al buscador.
  • En listados muy dinámicos un "dialy" en contraposición a los "never" o bien "yearly" de las fichas haciendo más que evidente que queremos más indexación en estos listados dinámicos

En la práctica nosotros en IKAUE prácticamente jamás la indicamos porque son matices muy particulares y creemos poco en que las arañas vayan a mudar su cola de indexación por esta indicación. Mas puesto a usarlo solo lo usaría en listados, para marcar diferencias entre aquéllos que añaden nuevos elementos continuamente (daily) y los que solo reciben nuevos elementos cada pocos dias (weekly), esperando así optimar mejor nuestro crawl budget detectando mejor nuevos items en la web.

Priority

Como en las demás esta también acostumbra a utilizarse muy mal...

  • Los generadores automáticos de sitemaps nos marcan todo el site a priority "1.0" lo que es como no decir nada
  • Muchos SEOs la procuran aprovechar para posicionar contenidos TOP que luego no se respaldan en absoluto por enlaces, menús, autoridad ni por ninguna otra señal.
  • Otros intentan hacer cambios en sus sitemaps para provocar la reindexación de contenidos. Por ejemplo, tengo mi sitemap todo a 0.5 y cuando quiero que se reindexe un contenido cambio la prioridad de este a diez aguardando que esto provoque la visita de la araña. Esto no suele funcionar (si bien si lo que hacemos es subir otro sitemap nuevo en ocasiones si)

¿como emplear la indicación de priority?

Cuando no tenemos inconvenientes de indexación el uso más lógico que podemos hacer del sitemap es ayudarnos a fortalecer la estructura de la web marcando la importancia de cada una de nuestras webs. En estos sites subir el típico fichero de sitemaps donde todo el sitemap tiene priority "1.0" ya sabemos que es estúpido. Lo que tenemos es que aprovechar este campo para fortalecer la estructura/arquitectura del site. La misma definición de menús, URLs, Breadcrumbs e inlinks, debería ser consecuente con los datos indicados en priority.

Lo que buscamos es que Google vea que nuestras prioridades si tienen sentido a fin de que nos haga caso y asi asistirle a matizar lo más esencial. Así hallar que la home y secciones primordiales tienen prioridad diez y vamos bajando hasta encontrar los productos estrella en prioridad 0.7 o bien 0.6 puede tener sentido. Haciéndolo así no se nos permite colocar estos productos en máxima prioridad (mintiendo a Google) mas si cuando menos distinguir los importantes de los que no lo son (por poner un ejemplo marcando los importantes a 0.7 y los menos esenciales a 0.5).

Hay que partir de nuestra deficnición de arquitectura web y después hacer pequeñas modificaciones sin cosas demasiado drásticas que inutilicen la indicación plenamente para Google.

Back to top

9) 8. Un Sitemap nos deja reemplazar otras etiquetas de indexación como hreflang o bien canonical (aunque no es igual de potente)

Y aqui viene otra utilidad secundaria de los sitemaps. Todos sabemos que el proyecto web perfecto no existe... Todos tienen uno, 2 o bien incluso muchos inconvenientes. Hay cosas que simplemente resulta un problema etiquetar en ciertas web. Abordamos ya como solucionar problemas de indexación desde cabeceras o indexación desde el robots mas veamos 2 posibilidades que si que nos aportan los sitemaps para suplir a etiquetas específicas.

Marcar los hreflang desde el sitemap

Los hreflang son una suerte de implementación en sites con orientación a múltiples zonas geográficas o bien sencillamente idiomas. Su definición es en realidad sencilla: Desde cada página web debo apuntar en su cabecera y mediante etiquetas <link rel="alternate" hreflang /> sus urls equivalentes en otro idioma.

Esto que parece muy simple en la práctica si tu página web por detrás no tiene estas equivalencias ya hechas (algo muy común en CMSs libres donde esta orientación multidioma no se había planeado desde un comienzo) o bien si las maquetas son en especial rígidas puede ser un averno para los programadores.

En estos casos has de saber que contamos con otra posibilidad: indicar estas relaciones en los ficheros sitemap en lugar de (o bien además de) en la página web. Su empleo es igual de simple: en todos y cada <url/< del sitempa señalamos además del nodo <loc> múltiples nodos <xhtml:link/> con las equivalencias de esa URL con otros idiomas. El problema prosigue siendo el mismo: debemos identificar en cada URL sus posibles traducciones pero por lo menos disponemos de otro sitio (muy frecuentemente más programado a medida del posicionamiento web) donde hacer este trabajo.

Puedes ver, o bien sencillamente guiarte por el ejemplo que te copio a continuación:

Evitar canibalizaciones del contenido

Y este es un método que desde luego no es equivalente a una buena etiqueta canonical (de las que vamos a hablar en otro post) pero si que puede asistirnos en ciertos instantes en los que tenemos canibalizaciones de contenido (entiéndase canibalizado como contenido duplicado interno en el cual uno posiciona sobre otro haciendo a la segunda URL absolutamente inútil).

En estos casos lo que acostumbramos a hacer es decidir como de los 2 contenidos deseamos que sea el que se posicione y añadir una etiqueta canónica (si no un trescientos uno de manera directa) desde las URLs secundarias a la primordial. Pero sabemos que esto no es siembre fácil...

Sin embargo: ¿Sabías que ante duplicados internos Google escoge casi siempre y en todo momento la URL que esté en el sitemap.xml? Lo señalan ellos mismos en su documentación, mentando que es un posible sustituto de etiquetas canonicas. Para esto solo tenemos qu etner un sitemap bien hecho, en el que evitemos incluir ninguna etiqueta que tenga peligro de ser canibalizada. Es decir, en estos casos en los que varias URLs tienen exactamente el mismo contenido o apuestan por exactamente la misma Keywrod nos es suficiente con solo incluir la URL principal en el sitemap para que esta sea la que muestre Google en sus resultados. Salvo que por links recibidos nuestra elección de URL principal no tenga ningún sentido (por ejemplo: le indicamos una URL sin enlaces internos dejando fuera a la URL que se enlaza desde todos y cada uno de los menús) Google nos hará caso.

No nos engañemos, esto no es como un canonical: No traspasa autoridad y ni siquiera tenemos garantías de que nos haga caso siempre y en todo momento (bueno, con los canonicals tampoco) mas es una vía secundaria que tomar en consideración cuando tenemos este tipo de limitaciones.

Back to top

10) 9. Los indices para sitemaps son lo mejor que puedes emplear ¡Aprovechalos Siempre y en toda circunstancia!

Dado que los Sitemaps.xml son finitos (tienen peso y URLs máximas) tuvieron que concebir una forma por las que despiezarlos en diferentes archivos. Para poder hacer eso existe un tipo de archivo sitemap de índice. Son archivos en los que podemos indicar otros archivos sitemap. Los beneficios son claras: subimos un único fichero y desde este controlamos todos y cada uno de los que ofrecemos realmente a Google automatizando su fragmentación.

Y es que al final intentar centralizar todo el sitemap en un único fichero tiene muchos riesgos:

  • Corremos el riesgo de pasarnos del tamaño máximo.
  • Nos cuesta mucho localizar en el todas las URls
  • Nos cuesta auditar sus prioridades.

Lo mejor es que para cada concepto, sección, lo-que-sea de la web creemos un sitemap distinto y empleemos estos índices para organizarlo todo.

Crear un índice es sencillo y, solo debemos señalar una rama "sitemapindex" donde podemos incluir elementos "sitemap" que tienen su localización y de forma opcional su última modificación con "lastmod" (al que aplicaríamos exactamente los mismos comentarios que al lastmod de las URLs).

Back to top

11) 10. Esta es muy importante: Los sitemaps son la única forma de revisar el porcentaje de indexación de nuestras URLS.

Uno de los mejores indicadores que nos dan los sitemaps cuando los subimos vía Google Search Console es el estado de indexación de la lista de URLS que les pasamos en ellos. Esto lo hace para cada sitemap: lo subimos y al poco tiempo ya nos afirma para cada uno de ellos cuantas URLs contenía y de ellas cuantas ha indexado. Solo deberemos dividir una cantidad sobre la otra para saber el porcentaje de indexación de dicho sitemap.

Pensando un tanto sobre esto no es difícil llegar a la conclusión de que no deseamos subir sitemaps enormes a nuestro site: lo propio es que subamos siempre y en todo momento un índice que apunte a una colección más o menos grande de sitemaps.xml parciales del site. ¿Cuantos? depende de cuanta información desees verdaderamente recoger.

Por cada sitemap.xml fragmentado que creemos, vamos a tener un nuevo grupo de URLs del que conocer el estado de su indexación. Así que a mayor cantidad de información que queramos saber sobre la indexación del site más deberíamos fragmentar los sitemaps para conocerla. Esta es una técnica mínimamente conocida mas que incluso sabiendola se emplea poco y se aplica sin pensar demasiado en ella:

Os pongo dos ejemplos para que queden claro.

Imaginad que tenemos un weblog del que subiremos los sitemaps.xml fragmentados en distintas piezas para conocer el estado de indexación de cada género de página. Una fragmentación básica nos haría crear los siguientes sitemaps:
- Home.xml
- categorías.xml
- tags.xml
- Posts.xml

Con esto podremos saber que porcentaje de cada género de página tenemos indizado. Probablemente si el blog tiene mucho tiempo y poco seo técnico nos encontraremos con que cada tipología de contenido tiene gran cantidad de URLs sin indexar.

Y esto esta bien saberlo mas si solo vemos este tipo de cosas no vamos a poder accionarlo, no sabemos que hacer para progresar estas situación y no tenemos nada que hacer con esta información. Este suele ser el problema.

Ahora pensemos en aplicar a nuestra fragmentación del sitemap una lógica posicionamiento SEO. Pensamos en cada tipología de página, como puede ser su problemática de indexación. Por servirnos de un ejemplo, escogemos los posts, donde estamos viendo el mayor porcentaje de contenido no indizado, los examinamos y vemos que es probable que se trata de un inconveniente de anigüedad: a mayor antigüedad del post más pensamos que se habrá desindexado... Así que hacemos nuestra fragmentación del sitemap buscando obtener información justo por este criterio y en vez de subir un único sitemap de artículo subimos la próxima colección:

- posts-novedad.xml -->Indexación noventa por cien
- post-ultimo-mes.xml -->Indexación cien por cien
- posts-dos-meses.xml -->Indexación 98 por ciento
- blog post-3-6meses.xml -->Indexación 89 por cien
- posts-siete-12-meses.xml -->Indexación 50 por ciento
- blog post-1-dos-anos.xml -->Indexación 55 por cien
- posts-dos-3-anos.xml -->Indexación 57 por ciento
Etc...

La cantidad de indexación de cada uno de estos sitemaps si que es un dato accionable. Puedo localizarme con que desde los 6 meses empiezan a perder la indexación y descubrir que tengo problemas de rastreo profundos. O que los posts de hace más de 5 años prosiguen indizados mas los presentes no se indexan tan bien (probando un inconveniente de autoridad y de calidad del contenido)...

Se pueden hacer muchas estrategias de este tipo. Aun jugar a mudar el patrón por el que dividimos estos sitemaps. Piensa por ejemplo en pasar screaming frog, sacar las URLs por distancia de rastreo desde la home y subir un sitemap temporal según distancia de rastreo para ver a partir de cuantos saltos comienza a sufrir la indexación. Sacamos el dato, lo activamos y después volvemos a emplear los sitemaps de siempre y en toda circunstancia...

Otra opción es sencillamente hacer seguimiento, apuntar estos datos cada seemana y asi observar como mejora o bien empeora la indexación por zonas de la web.

Back to top

12) 11. Puedes alojar los sitemaps fuera de tu dominio

Alguno habrá arqueado la ceja al leer este título... Y es que esto es extraño pero tiene grandisimas ventajas especialmente si llevas el posicionamiento en buscadores desde fuera de la página web (como autónomo, agencia, consultoría, etc. Jamás os recomendaría alojar el sitemap general de vuestro site en otro dominio diferente al del propio site mas para determinadas acciones y pruebas viene muy bien tener la posibilidad de poder ir haciendo subidas sin molestar a los desarrolladores de la página web. Pensad solo en muchas de las posibilidades que hemos comentado en este blog post y veréis que tener un espacio donde no depender de IT para subir algunos sitemaps bajo tu control te va a permitir efectuar más acciones (o bien al menos de forma más rápida) de este género.

La idea es sencilla: a parte de los propios sitemaps de la web deseo tener la posibilidad de subirle sitemaps que no se alojen en ese dominio. ¿Dpnde se alojarán? Pues en un dominio mio, uno en el que no dependo de IT y puedo acelerar ciertas acciones mientras que IT responde a las guías y funcionales que les hemos pasado.

Para esto hay múltiples opciones:

A. Utilizar los sitemaps para sites multiples

Esto estáy basicamente nos deja subir el sitemap de un dominio de la manera normal, solo que indicándole dentro del sitemap URLs de otros dominios.

Para esto básicamente tenemos que hacer que el usuario que suba el sitemap.xml sea ADMINdel Google Search Console de los dos dominios. Así que en realidad nada impide que creemos un dominio estúpido (sitemaps-seo.midominio.com) lo demos de alta en GSC y en el subamos nuestros propios sitemaps.xml para nuestros clientes, siempre y cuando nos hayan dado privilegios sobre sus GSCs.

B. Señalar el sitemap.xml en el robots.txt ya de forma directa apuntando a otro dominio

Este es otro recurso documentado aun en la propia documenación documentación de los sitemaps.org. Ahí nos dicen que podemos incluir en la indicación "sitemap: " del fichero robots un sitemap sin que importe que se encuentre o no en el dominio indicado.

Es decir que si en midominio.com dispongo de un robots.txt que termina con las siguientes lineas:

Leerá ambos. Si sumamos esto a que estos sitemaps pueden ser indices que controlan donde leer cada archivo ya tenemos un mecanismo similar al de Google Search Console.

Que todo esto tiene sus riesgos, evidentemente, mas bien hecho es una puerta nueva que no hay que desaprovechar solo pues nos de temor utilizarla.

Back to top

13) 12. Puedes utilizar Sitemaps para estimular a las arañas a que visiten URLs que quieres que se miren (aunque no por esta razón que se indexen)

Por ultimo y con una utilidad muy práctica si lo ligamos al punto anterior (de subir sitemaps por tu cuenta) tenemos una vieja técnica que se basa en subir sitemaps.xml para forzar su rastreo. Es sabido que al ir haciendo actualizaciones de los sitemaps las URLs que ahí se poseen terminan tarde o bien temprando siendo visitadas, pero esto es por norma general aún más rápido (si bien tampoco va a ser inmediato) si lo que hacemos es subir sitemaps nuevos.

Así que tenemos una herramienta (la subida de nuevos sitemaps) que nos permite crearle a Google listas de URLs pendientes de rastrear y que nos puede venir realmente bien sobretodo en ocasiones en las que por no ofrecer ya enlaces a estas páginas o por tener un rastreo lento no nos terminamos de fiar del trabajo de las arañas.

Os listo ciertos de estos casos:

  • En una migración dejar el sitemap viejo o incluso, mejor aun, subir un nuevo el sitemap de URLs con trescientos uno ayuda a que estas se lean ya antes y asegura que todas y cada una acaben siendo leidas
  • Lo mismo para 301. Después de arreglos masivos de errores cuatrocientos cuatro que han sido sustituidos por trescientos uno una subida de sitemap con estas URLs ayuda a que las arañas las recojan y asimilen./li>
  • Ante una actualización de desindexación con meta-robots subir el sitemap también puede asistir a agilizar su lectura
  • Subir un sitemap de URLs AMP en teoría no es estándar y no "es necesario" pero en ciertos casos donde la indexación de páginas AMP se atasca nos ha resultado de mucha ayuda.
  • No es bueno crear fallos en nuestros sitemaps mas para validar el bloqueo de URLs en grandes listados también podemos subir un sitemap con todas las URLs que deberían estar bloqueadas en el site y ver que efectivamente el validador nos da fallos al tener estas bloqueadas.

Y bueno, en suma, nos ayuda a revisar o intentar agilizar la indexación tras nuestras actualizaciones en la web. Siempre y cuando deseemos que las arañas pesen por sitios atípicos por los que generalmente tardarían en pasar una subida puede ponerlas en marcha, jamás será algo excesivamente rápido mas ayudará a que no se eternice.

Como decía, si unimos este punto además al anterior, por el cual podemos subirle a un usuario sitemaps.xml en nuestro propio dominio, tenemos un sistema de control de la indexación que no afecta al desarrollo de la web y que nos aportará en determinados momentos el extra que necesitamos.

Back to top

14) Conclusión

Los sitemaps son unos archivos muy poco mimados por gran cantidad de SEOs. Como son fáciles de delimitar y no lanzan grandes dificultades más allá de conseguir el propio listado de URLs para muchos el trabajo queda ahí. Incluso como decíamos al principio es una zona que bastante gente termina cuidando tan poco que hacen más mal que bien...

Sin embargo son una herramienta que trabajadas al detalle pueden ser un gran aliado tanto para progresar nuestra indexación, para hacer un análisis de la indexación o para reemplazar distintas carencias técnicas del posicionamiento web en buscadores de nuestro site.

El inconveniente con estos ficheros prosigue siendo siempre y en todo momento el mismo: la base hay que programarla a fin de que tenga sentido. Los desarrollos a medida no acostumbran a haberlos tenido en cuenta y muchos Content Management System que los desarrollan a través de complementos al hacerlo de forma generica no acaban de ser lo que precisamos. Solo tras una planificación y definición estratégica adecuadas empezamos a hacer autenticas virguerías con estos archivos. Hay muchos géneros de SEO y muchos estadios de evolución en una estrategia posicionamiento SEO, no creo que esto sea de lo primero a atacar (por complejo) pero si tengo clara una cosa: al hacer un sitemap debemos tomarnos nuestro tiempo y hacerlo bien. SI no vas a mimarlos, mejor no los uses.

¿Te gustó este blog post? Puedes proseguir sus comentarios a través de, o bien realizardesde tu blog.

Back to top
Share icon

ESTOS EXCLUSIVOS INFORMES GRATUITO REVELAN

7 SECRETOS DE EXPERTOS SEO QUE TE LLEVÁN AL 1#
7 SECRETOS DE EXPERTOS SEO QUE TE LLEVÁN AL 1# EN GOOGLE PARA GANAR 10.000s DE TRÁFICO DE CALIDAD GRATUITO - EN SÓLO 2 MESES
 

Los 7 pasos más poderosos para disparar tu ranking orgánico para ALCANZAR Y MANTENER un impresionante tráfico orgánico es TUYO.

Consigue gratis lo que el 1% de los expertos en SEO venden por miles de euros... y el otro 99% ni siquiera sabe que existe.


OBTEN MI INFORME GRATUITO
5 errores que debes evitar en tu sitio web de Drupal
Ebook - 5 errores que debes evitar en tu sitio web de Drupal (¡podrían costarte miles de euros!)
 

Este Ebook cubre 5 terribles errores que probablemente estés cometiendo ahora mismo con tu sitio web de Drupal.

¡Nº3 TE SORPRENDERÁ! Esta lectura de 10 minutos te ahorrará miles de euros.



OBTEN MI INFORME GRATUITO