Después de darnos cuenta que existen unos cuantos métodos para desindexar urls, no tan conocidos o bien frecuentes, hemos decidido hacer un pequeño test probando todos y cada uno de los métodos que hemos compendiado.
Inicialmente este blog post cubría 6 casuísticas diferentes, a través de seis urls diferentes (urls viejas, para ser exactos).
Back to top1) Casuísticas para desindexar urls
Después de una interesantísima conversación con mi amigo y gran posicionamiento SEO, hemos pensado en hacer este test mucho más completo, cubriendo catorce casuísticas diferentes.
Una vez tengamos los resultados de cada una, editaremos este post contando lo que hemos visto y compartiendo los hallazagos, con los logs en la mano y el seguimiento de desindexación de cada caso.
Las casuísticas analizadas son:
Los objetivos que perseguimos con estos test:
Back to top2) Metodología del test para desindexar urls
Replanteando los pasos que estamos siguiendo para el análisis son:
- Hemos creado una url para cada test, sin css, links entrantes, todas y cada una parten en mismas condiciones.
- Cada url tiene un title, una description, un h1 y 3 párrafos de texto.
- Añadiremos un sitemap específico de estas urls en GSC y referenciado en robots.txt
- Se añadirá también un enlace en el footer o bien menú, apuntando a los dos directorios creados, "pruebas" y "test".
- Se solicitará la indexación de todas y cada una de las urls el día 30 de agosto a través de Google Search Console.
- Una vez indexadas, meteremos a cada una, el método de desindexación indicado en la tabla
- Revisaremos los logs a diario para ver el comportamiento que ha seguido google respecto a estas urls.
- Revisaremos la indexación de las 15 urls con UrlProfiler, un par de veces al día.
- Según se vayan produciendo resultados, vamos a ir actualizando el post para compartir los resultados.
3) Responder 404 o 410
A pesar de que el contenido pueda continuar siendo rastreado en el momento en que una url es eliminada, el 410 puede ser un método que se encuadra para casos de contenidos que no van a volver a estar disponibles.
Por ejemplo, en ciclos de urls con rotación o donde existan señales positivas posicionamiento web, como rankings, tráfico orgánico, enlaces.... este no debería ser el método escogido a priori, sino estimar reciclar esas urls redirigiendo, actualizando su contenido, etc.
Con el test, vamos a procurar ver las diferencias que existen entre responder y cómo afecta en la desindexación de contenidos.
No obstante, la naturaleza del código de contestación 410 le da el carácter de "permanente", por lo que a priori, a falta de tener los resultados del test, debería ser el que suprimiese los contenidos del index más rápido.
Los test 1 y 2nos sacarán de dudas.
Back to top4) Eliminar en Google Search Console
Podemos eliminar la url a través de Google Search Console, vamos a "Índice de Google" > "Eliminación de url"
Nos va a permitir elegir la opción que más se adecúe a lo que queremos hacer:
- Ocultar temporalmente la url de los resultados y del caché
Nos especifica que tendrá efecto sobre las alteraciones de la url
- Ocultar provisionalmente la url del caché
Esta opción no la suprime de los resultados.
- Ocultar temporalmente la url
Aquí nos detalla que si queremos que sea de forma permanente empleemos uno de los métodos recomendados:
- Hacerla privada con un login
- Quitarla ( )
- Meta robots Noindex y dejarla abierta a rastreo
Con esta opción vamos a lanzar el test 4, con lo que la instrucción durará 90 días y más tarde observaremos qué ocurre: si se indexa de nuevo o bien no.
La variación a este será el test tres,ya que una vez usemos "Eliminar URL" en Google Search Console, más tarde vamos a bloquearla en robots.txt, para confirmar si se vuelve a indexar o no, puesto que Google supuestamente no va a poder entrar a ver el contenido de la etiqueta meta robots, la teoría afirma que no debería indexarla pasados 90 días, veremos qué resultados obtenemos...
La funcionalidad de Google Search Console de "Eliminar URL", es bastante eficaz y rápida, pero de la misma manera que "Explorar como Google", la petición se hace una a una.
[En los comentarios, varias personas recomiendan esta extensión, en mi experiencia con esta clase de complementos, no me ha resuelto la necesidad de desindexar grandes listados de urls, con lo que para casos concretos de listados acotados, puede ser una buena solución, ¡como siempre y en toda circunstancia, depende!]
Back to top5) Añadir Meta Robots Noindex
El método de desindexación más limpio cuando el contenido va a seguir estando activo respondiendo doscientos OK es añadir la etiqueta meta robots noindex, así como no bloquear la url o bien directorio a través de robots.txt, así nos aseguramos que la nueva etiqueta es vista. Al menos esto es lo recomendado en la teoría por Google 🙂
Para emplear este método, añadimos la etiqueta dentro del <head> de la url en cuestión:
<meta name="robots" content="noindex" />
Si nos encaramos a desindexar grandes volúmenes de urls con este método, la opción a emplear puede ser buscar modos de agilizar el rastreo de esas urls, o sea, forzar a Google a que visite esas páginas, una idea puede ser:
- Creando un sitemap específico a fin de que las rastree y vea el "noindex"
- Creando un mapa web con las urls implicadas.
- Enlazando el mapa web en algún lugar muy rastreado.
Con el test 5, veremos cuánto tiempo tarda en desindexar la url, solo con la etiqueta meta noindex.
Con el test 6, además de añadir el noindex, usaremos la opción de "Eliminar URL", para confirmar si pasados los 90 días, continúa desindexada o no.
Back to top6) Añadir meta robots unavailable_after
Desde dos mil siete lleva esta opción que Google explicaba eny que Lino ya había publicadoentonces.
La forma de la etiqueta es así:
<META NAME="GOOGLEBOT" CONTENT="unavailable_after: 25-Aug :00:00 EST">
De este modo "solicitamos" a Google que desindexe el contenido a partir de esa fecha, el propio artículo dice que puede tomar un día o bien más en procesar la petición.
Este método (y los meta robots del punto anterior) también se pueden usar a través de Cabeceras HTTP, podéis ver la documentación de Google al respecto:
Sin duda esta opción puede ser realmente útil para ciclos de urls que sabemos que expiran, pero que por otro motivos, no podemos hacer que expiren con cuatrocientos diez, como una pila de urls de productos que rompen stock.
Herramientas como Screaming Frog, siguen el contenido de este tag, mas no en el formato de ejemplo utilizado sino más bien en la directiva general, por poner un ejemplo esta sintaxis si es detectada por "la rana":
<meta name="robots" content="unavailable_after: veinticinco Jun :00:00 PST" />
Esta sintaxis NO la detecta:
<meta name="googlebot" content="unavailable_after: veintisiete-Aug :45:00 GMT">
El test 7, pretende confirmar si esta etiqueta funciona para desindexar selectivamente a partir de una fecha específica y pretendemos hacer seguimiento a qué ocurre después, a nivel de rastreo y también indexación.
Back to top7) Añadir Disallow en Robots.txt
Aunque técnicamente no es un método de desindexación, sino más bien de persuadir a los robots de rastrear determinados contenidos, en ocasiones se emplea como forma de depreciar contenidos de un site y haciendo disminuir su rastreo, Google los va priorizando cada vez menos.
Como término de posicionamiento web en buscadores básico, es conveniente rememorar el funcionamiento y uso de este fichero:
"(...) Si necesitas cerciorarte de que no se indexa una URL, utiliza la metaetiqueta robots o bien la cabecera HTTP "X-Robots-Tag"
Más info en:y
Siguiendo con el test 8, se observará en los logs si deja de ser rastreada y con el tiempo, si se desindexa o no, además, teóricamente debería aparecer en el snippet de Google el típico "La description de este lugar no se muestra....."
Back to top8) Añadir Noindex en Robots.txt
Ahora también se puede señalar la instrucción "noindex" en el fichero robots.txt, con líneas tal que:
Disallow: /example-page-1/
Disallow: /example-page-2/
Noindex: /example-page-1/
Noindex: /example-page-2/
La utilidad de este marcado, tal y como señalan enes poder señalar directivas por patrones de urls, de forma muy limpia y rápida.
Siguiendo con el test 9, deseamos revisar si se desindexa con este método, puesto que parece que no es una etiqueta "oficial" para Google, mas diferentes test, parece que marcha perfectamente.
Con el test diez,vamos a omitir la instrucción Disallow y solo usa Noindex, dentro del archivo robots.txt, para confirmar si es obligatorio emplear las dos líneas o no. Reflexionando sobre una página que quisiéramos desindexar con el tag "noindex" en el <head> del html, el propio Google nos pide que no bloqueemos por robots.txt, no obstante este método "diferente", semeja que "exige" ambas líneas, que supuestamente bloquea rastreo e indexación.
Veremos qué sale 🙂
Back to top9) Gestión de Parámetros en Google Search Console
Otro tema a chequear es si podemos influir en la desindexación de contenidos, configurando los parámetros de Google Search Console, indicándole esta opción:
De igual modo que comentábamos sobre añadir un "disallow" y google irá dejando de rastrear y dar relevancia a esos contenidos, y quizás con el tiempo, desindexar, ponemos el test 11en marcha para confirmar qué pasa con estas urls.
Para rizar un tanto más el rizo, a esta opción, le metemos una variación en el test 12,para chequear si el empleo de parámetros puede ser compatible con el empleo de "Disallow" en el fichero robots.txt, aparentemente la gestión de parámetros le afirma "no rastrees esto",¿bloqueará el acceso a Google y dejará de tener efecto? ¡Todo incógnitas!
Back to top10) Redirección 301 a una url 404
Otro escenario curioso que queremos probar es ver qué pasa con una redirección que apunta a un 404, porque si se desindexa ya antes que otros métodos que hemos comentado, puede ser una enorme opción alternativa para desindexar contenidos.
El test 13va a comprobar si verdaderamente se desindexa o no y cuánto tiempo tarda en hacerlo. También chequearemos cuándo deja de rastrear el 404, ya que estamos 😀
Back to top11) Desindexar un directorio entero
Para concluir, hemos pensado en confirmar si desindexando un directorio entero, desindexaríamos las urls que están dentro de dicho directorio.
Para este test 14, añadiremos Disallow y Noindex en el robots.txt y si logramos desindexar las urls que cuelgan de ese path, habremos triunfado y nos quitaremos muchos inconvenientes de cuajo 😀
Back to top12) Resultados del Experimento
- Se solicitó la indexación el mismo treinta de agosto de 2017
- Se solicitó la desindexación a los 8 días, el 8 de septiembre de dos mil diecisiete, cada url con su método.
- Hemos analizado logs hasta el mismo 18 de marzo de dos mil dieciocho.
Aquí os mostramos el orden en el que se han desindexado y ciertos datos más, basándonos en los logs del servidor
El ranking de más rastreadas, quedaría así:
Reflexión
- Eliminar por Google Search Console, es lo más rápido, mas si no se añade otro método, a los tres meses vuelve a indexar.
- Me sorprende la etiqueta " unavailable_after"más que nada pues nos confundimos con el año y aún así, la ha desindexado (pusimos "unavailable_after: veintidos-Sep :00:00 EST" en lugar de dos mil diecisiete).
- 410 se fue antes que la de 404
- Noindex y Disallow, han tardado lo mismo en desindexar
- Noindex en robots.txt, pese a que Google confirmó que no era una directiva de aplicación, si acabó desindexada, aquí, indudablemente, habría que poner foco en este, para sacar datos más concluyentes
- Para desindexar un directorio entero, llama la atención que se desindexe primero una url y luego la otra y el propio directorio (cinco días de diferencia)
- A día de hoy la tres, 5 y ocho, están indexadas mas aparecen como resultados omitidos de Google
- A día de hoy, la cuatro se ha vuelto a indexar, pues la opción quitar de Google Search Console, si no va a acompañada de un método de desindexación, puede volver a indexarse (como ciertamente ha ocurrido)
Hoy más que jamás, esperamos vuestros comentarios para ver si era lo que esperabais, si habéis vivido situaciones diferentes y poder producir debate a este respecto 🙂
Esperamos montar más experimentos dentro de poco, stay tuned!
Back to top