Robots.txt y SEO: todo lo que precisas saber

Robots.txt y SEO: todo lo que precisas saber

15 Jul 2020 in

Robots.txt es uno de los ficheros más simples de un sitio mas también uno de los más fáciles de arruinar. Sólo un fallo de tipeo puede causar estragos en tu posicionamiento SEO y eludir que los motores de búsqueda accedan al contenido importante en tu sitio.

Esta es la razón por la que los fallos de configuración de robots.txt son extremadamente comunes, incluso entre los profesionales posicionamiento web en buscadores con experiencia.

En esta guía aprenderás:

Back to top

1) ¿Qué es un fichero robots.txt?

Un archivo robots.txt le dice a los motores de búsqueda por dónde pueden y por donde no pueden ir en tu sitio.

En primer sitio, cuenta todo el contenido que deseas bloquear de los motores de búsqueda como Google. También le puedes apuntar a ciertos motores de búsqueda (no a Google) cómopueden rastrear el contenido alcanzable.

La mayoría de los motores de búsqueda son obedientes. No tienen el hábito de ignorar una restricción. Dicho esto, ciertos no son tímidos a la hora de obviar dichas restricciones.

Google no es uno de esos motores de búsqueda, obedece las instrucciones de un fichero robots.txt.

Sólo debes saber que algunos motores de búsqueda lo ignoran por completo.

Back to top

2) ¿Cómo se ve un fichero robots.txt?

Este es el formato básico de un archivo robots.txt:

Si nunca has visto uno de estos ficheros antes puede parecer desalentador. No obstante, la sintaxis es bastante simple. Para resumir, debes asignar reglas a los robots indicando su user-agentseguido de las directivas.

Exploremos estos 2 componentes con más detalle.

Back to top

3) User-agents

Cada motor de búsqueda se identifica con un user-agent diferente. Puedes establecer instrucciones adaptadas para cada uno de ellos en el fichero robots.txt. Hay, mas aquí existen algunos útiles en relación al SEO:

  • Google:Googlebot
  • Google Images:Googlebot-Image
  • Bing:Bingbot
  • Yahoo:Slurp
  • Baidu: Baiduspider
  • DuckDuckGo:DuckDuckBot

Todos los usuario-agents distinguen entre mayúsculas y minúsculas en robots.txt.

También puedes emplear el asterisco (*) para asignar directivas a todos y cada uno de los usuario-agents.

Por ejemplo, pongamos que quieres bloquear todos los bots excepto Googlebot a fin de que no rastree tu lugar. Así es como lo harías:

Tienes que saber que tu archivo robots.txt puede incluir directivas para tantos usuario-agents como desees. Dicho esto, toda vez que declares un nuevo user-agent, éste ignorará las directivas declaradas previamente para otros user-agents. En otras palabras, si añades directivas para múltiples usuario-agents, las directivas declaradas para el primer user-agent no se aplicarán al segundo, o al tercero, o bien al cuarto, y así consecutivamente.

La excepción a esta regla es cuando se declara exactamente el mismo usuario-agent más de una vez. En ese caso, se combinan y se cumplen todas las directivas pertinentes.

Los rastreadores sólo siguen las reglas declaradas bajo el (los) user-agent(s) que se se aplican a ellos de la manera más específica posible. De ahí que que el fichero robots.txt bloquea a todos y cada uno de los bots excepto a Googlebot (y a otros robots de Google) para que no puedan rastrear el sitio, Googlebot ignora la declaración de user-agent menos específica.

Back to top

4) Directivas

Las directivas son las reglas que deseas que los usuario-agents declarados sigan.

4.1) Directivas admitidas

Aquí están las directivas que Google acepta hoy en día, así como sus usos.

4.1.1) Disallow

Utiliza esta directiva para apuntar a los motores de búsqueda que no accedan a archivos y páginas que se hallen bajo una ruta específica. Por servirnos de un ejemplo, si deseas bloquear el acceso de todos y cada uno de los motores de búsqueda a tu weblog y a sus mensajes, el archivo robots.txt puede verse así:

Si no defines una ruta después de la directiva disallow, los motores de búsqueda la ignorarán.

4.1.2) Allow

Utiliza esta directiva para permitir a los motores de búsqueda rastrear un subdirectorio o una página, incluso en un directorio que de otra forma no estaría tolerado. Por ejemplo, si quieres evitar que los motores de búsqueda accedan a todas las entradas de tu weblog excepto a una, el archivo robots.txt puede tener este aspecto:

En este caso de ejemplo, los motores de búsqueda pueden acceder a: /blog/post-permitido. Mas no pueden acceder a:

/blog/otro-post

/blog/y-otro-post

/blog/descarga.pdf

Tanto Google como Bing admiten esta directiva.

Al igual que con la directiva disallow, si no defines una ruta después de la directiva allow, los motores de búsqueda la ignorarán.

nota sobre reglas conflictivas

A menos que seas cauteloso, las directivas allow y disallow pueden fácilmente entrar en pugna entre sí. En el siguiente ejemplo no se le permite el acceso a /blog/y se deja el acceso a /blog.

En este caso, la URL /blog/post-title/parece tener ambas directivas. Entonces ¿cuál gana?

Para Google y Bing, la regla es que gana la directiva con más caracteres. Esa es la directiva disallow.

Disallow: /blog/ (6 caracteres)

Allow: /blog (cinco caracteres)

Si las directivas allow y disallow tienen la misma longitud, entonces gana la directiva menos restrictiva. En un caso así, esa sería la directiva allow.

Aquí, /blog(sin la barra) prosigue siendo alcanzable y rastreable.

Es importante mentar que esto sólo aplica para el caso de Google y Bing. Otros motores de búsqueda obedecen a la primera directiva coincidente. En este caso sería disallow.

4.1.3) Sitemap

Utiliza esta directiva para concretar la ubicación de tu(s) sitemap(s) en los motores de búsqueda. Si no estás familiarizado con los sitemaps, normalmente incluyen las páginas que quieres que los motores de búsqueda rastreen y también indexen.

A continuación se muestra un ejemplo de un fichero robots.txt que utiliza la directiva sitemap:

¿Qué relevancia tiene incluir tu(s) sitemap(s) en tu fichero robots.txt? Si ya lo has mandado a través de Search Console entonces es algo redundante para Google. Sin embargo, le dicen a otros motores de búsqueda como Bing dónde localizar tu sitemap, por lo que sigue siendo una buena práctica.

Ten en cuenta que no es necesario reiterar la directiva sitemap varias veces para cada usuario-agent, éste aplica para todos. Por tanto, lo mejor es incluir las directivas del sitemap al comienzo o al final del fichero robots.txt. Por ejemplo:

Googlela directiva sitemap, así como Ask, Bing, y Yahoo.

Puedes incluir tantos sitemaps como desees en tu archivo robots.txt.

4.2) Directivas no admitidas

Estas son las directivas que—algunas de las cuales jamás lo fueron, técnicamente.

4.2.1) Crawl-delay

Anteriormente podías usar esta directiva para concretar un retardo del rastreo en segundos. Por ejemplo, si quisieras que Googlebot espere 5 segundos después de cada acción de rastreo, debías establecer el retardo de rastreo en 5:

Google ya no acepta esta directiva peroysí.

Dicho esto, ten cuidado al establecer esta directiva, singularmente si tienes un sitio grande. Si estableces un difiero de rastreo de 5 segundos, entonces estarás limitando a los bots a rastrear un máximo de diecisiete y doscientos ochenta URLs al día. Eso no es muy útil si tienes millones de páginas, mas podría ahorrar ancho de banda si tienes un sitio web pequeño.

4.2.2) Noindex

Esta directiva jamás fue apoyada oficialmente por Google. Sin embargo, hasta hace poco, se creía que Google tenía algún “código que maneja reglas no admitidas y no publicadas (como el noindex)”. Así que si quieres evitar que Google indexe todas y cada una de las entradas de tu blog, puedes usar la próxima directiva:

Sin embargo, el 1 de septiembre de dos mil diecinueve, Google dejó claro que esta directiva no está admitida. Si deseas excluir una página o un archivo de los motores de búsqueda, usa en su lugar la etiqueta meta robots o el encabezado HTTP x‑robots.

4.2.3) Nofollow

Esta es otra directiva que Google jamás apoyó oficialmente y fue usada para indicar a los motores de búsqueda que no siguieran links en páginas y ficheros bajo una senda específica. Por ejemplo, si quieres evitar que Google prosiga todos los enlaces de tu blog, puedes usar la siguiente directiva:

Google anunció que esta directiva no tiene soporte oficial desde el 1 de septiembre de 2019. Si quieres no seguir todos los enlaces de una página ahora, debes utilizar la meta tag robots o bien el encabezado x‑robots. Si quieres apuntar a Google que no prosiga enlaces específicos de una página, emplea el atributo de enlace rel=“nofollow”.

Back to top

5) ¿Necesitás un archivo robots.txt?

Tener un archivo robots.txt no es vital para muchos sitios, especialmente para los más pequeños.

Dicho esto, no hay ninguna buena razón para no tener uno. Te dará más control sobre dónde los motores de búsqueda pueden y no pueden entrar en tu sitio, y esto podría ayudarte con cosas como:

  • Prevenir el rastreo de;
  • Mantener secciones de un sitio web como privadas (por poner un ejemplo, tu lugar de pruebas);
  • Prevenir el rastreo de páginas de resultados de búsqueda interna;
  • Prevenir la sobrecarga del servidor;
  • Prevenir que Google desperdicie su “.”
  • Prevenir que,, y ficheros de recursos aparezcan en los resultados de búsqueda de Google.

Ten en cuenta que si bien Google no acostumbra a indexar las páginas web que están bloqueadas por robots.txt, no hay forma de garantizar la exclusión en los resultados de búsqueda mediante el archivo robots.txt.

Como, si el contenido está enlazado desde otros lugares en la web, puede llegar a aparecer en los resultados de búsqueda de Google.

Back to top

6) Cómo hallar tu archivo robots.txt

Si ya tienes un fichero robots.txt en tu sitio, podrás acceder a él mediante dominio.com/robots.txt. Navega hasta la URL de tu navegador. Si ves algo como esto, entonces tienes un archivo robots.txt:

Back to top

7) Cómo crear un fichero robots.txt

Si aún no tienes un fichero robots.txt, crear uno es fácil. Simplemente abre un documento .txt en blanco y empieza a redactar directivas. Por ejemplo, si quieres impedir que todos y cada uno de los motores de búsqueda rastreen tu directorio /admin/se debería ver algo así:

Continúa redactando las directivas hasta el momento en que estés satisfecho con lo que tienes. Guarda tu archivo como “robots.txt”.

Alternativamente, también puedes utilizar un generador robots.txt como.

La ventaja de utilizar una herramienta como esta es que minimiza los errores de sintaxis. Esto es bueno pues un error podría resultar en una catástrofe posicionamiento en buscadores para tu sitio, con lo que vale la pena ir por el lado de la precaución.

La desventaja es que son algo limitados en términos de personalización.

Back to top

8) Dónde ubicar tu fichero robots.txt

Ubica el fichero robots.txt en el directorio raíz del subdominio al que se aplique. Por ejemplo, para controlar el comportamiento de rastreo en un dominio.com, el archivo robots.txt debe estar alcanzable en dominio.com/robots.txt.

Si quieres controlar la rastreabilidad en un subdominio como blog.dominio.com, el fichero robots.txt debe estar accesible en blog.dominio.com/robots.txt.

Back to top

9) Buenas prácticas para el fichero robots.txt

Tenlos en cuenta para eludir errores comunes.

9.1) Usa una nueva línea para cada directiva

Cada directiva debería ir en una nueva línea. De lo contrario confundirá a los motores de búsqueda.

Incorrecto:

Correcto:

9.2) Utiliza asteriscos para simplificar las instrucciones

No sólo puedes utilizar asteriscos (*) para aplicar directivas a todos los user-agents sino más bien también a fin de que coincidan con los patrones de URL al declarar directivas. Por poner un ejemplo, si quieres eludir que los motores de búsqueda accedan a las URLs de las categorías de productos parametrizadas en tu lugar, puedes contarlas de la siguiente manera:

Pero no es muy eficiente. Sería mejor si simplificáramos las cosas con un asterisco, de la próxima manera:

Este ejemplo bloquea a los motores de búsqueda para que no rastreen todas las URLs bajo la subcarpeta /productos/ que contengan un signo de interrogación. En otras palabras, cualquier URL parametrizada de la categoría “producto”.

9.3) Usa “ dólares americanos ” para detallar el final de una URL

Incluye el símbolo “ dólares americanos ” para marcar el final de una URL. Por poner un ejemplo, si deseas eludir que los motores de búsqueda accedan a todos y cada uno de los archivos .pdf de tu sitio, el fichero robots.txt debería verse así:

En este ejemplo, los motores de búsqueda no pueden acceder a ninguna URL que concluya en.pdf. Esto significa que no pueden acceder a /archivo.pdf, pero pueden acceder a /archivo.pdf?id= pues no termina con “.pdf”.

9.4) Usa cada usuario-agent sólo una vez

A Google no le importa si especificas el mismo usuario-agent múltiples veces. Sencillamente combinará todas las reglas de las diversas declaraciones en una sola y las seguirá todas y cada una. Por servirnos de un ejemplo, si tienes los próximos user-agents y directivas en tu fichero robots.txt.…

… Googlebot no dejaría de rastrearninguna de las dos subcarpetas.

Dicho esto, tiene sentido declarar a cada usuario-agent sólo una vez pues es menos confuso. En otras palabras, es menos probable que cometas fallos críticos al sostener las cosas ordenadas y simples.

9.5) Sé específico para eludir errores involuntarios

La falta de instrucciones específicas en el momento de establecer directivas puede dar sitio a fallos fáciles que pueden tener un impacto catastrófico en el posicionamiento en buscadores. Por servirnos de un ejemplo, imaginemos que tienes un sitio multilingüe y que estás trabajando en una versión en alemán que estará libre en el subdirectorio /de/.

Debido a que no está listo para marchar, deseas eludir que los motores de búsqueda accedan a él.

El fichero robots.txt que se muestra a continuación evitará que los motores de búsqueda accedan a esa subcarpeta y a todo lo que contiene:

Pero también evitará que los motores de búsqueda rastreen páginas o ficheros que comiencen con /de.

Por ejemplo:

/decoracion/

/delivery-informacion.html

/depeche-mode/camisetas/

/definitivamente-no-para-ser-visto-en-publico.pdf

En este caso, la solución es simple: añadir una barra.

9.6) Use comentarios para explicar tu fichero robots.txt a humanos

Los comentarios asisten a explicar el fichero robots.txt a los desarrolladores, e incluso potencialmente a tu futuro . Para incluir un comentario, comienza la línea con un numeral (#).

# Esto le indica a Bing que no rastree nuestro sitio.

Los rastreadores ignorarán todo lo que haya en las líneas que comiencen con un numeral.

9.7) Usa un archivo robots.txt separado para cada subdominio

Robots.txt sólo controla el comportamiento de rastreo en el subdominio donde esté alojado. Si deseas controlar el rastreo en un subdominio diferente, necesitarás un archivo robots.txt separado.

Por ejemplo, si tu sitio principal se encuentra en dominio.com y tu blog en blog.dominio.com, necesitarás 2 archivos robots.txt. Uno debe ir en el directorio raíz del dominio principal, y el otro en el directorio raíz del blog.

Back to top

10) Ejemplos de ficheros robots.txt

A continuación se muestran ciertos ejemplos de ficheros robots.txt. Estos son principalmente para inspirarse, mas si uno de ellos se ajusta a tus necesidades, cópialo y pégalo en un documento de texto, guárdalo como “robots.txt” y cárgalo en el directorio apropiado.

10.1) Acceso total para todos los bots

Si no se declara una URL después de una directiva, ésta se vuelve redundante. En otras palabras, los motores de búsqueda lo ignoran. Es por eso que esta directiva no tiene ningún efecto en el sitio; los motores de búsqueda todavía pueden rastrear todas las páginas y ficheros.

10.2) Sin acceso para todos y cada uno de los bots

10.3) Bloquear un subdirectorio para todos y cada uno de los bots

10.4) Bloquear un subdirectorio para todos y cada uno de los bots (con un fichero interno permitido)

10.5) Bloquear un fichero para todos y cada uno de los bots

10.6) Bloquear un tipo de archivo (PDF) para todos los bots

10.7) Bloquear todas y cada una de las URLs parametrizadas sólo para Googlebot

Back to top

11) ¿Cómo auditar tu archivo robots.txt en busca de fallos?

Los fallos de robots.txt se pueden deslizar por la red con bastante sencillez, con lo que vale la pena estar atento a los problemas.

Para hacerlo, busca regularmente cuestiones relacionadas al robots.txt en el reporte de “Cobertura” de. Aquí debajo tienes algunos de los fallos que podrías ver, qué significan y cómo podrías solucionarlos.

¿Necesitas buscar fallos en una página determinada?

Pega la URL en la herramienta de inspección de URLs de Google en Search Console. Si está bloqueado por robots.txt, deberías ver algo como esto:

11.1) URL presentada bloqueada por robots.txt

Esto significa que cuando menos una de las URL de los sitemaps presentados está bloqueada por robots.txt.

Si túy excluiste páginas, noindexadas, y, entonces ninguna página presentada debería ser bloqueada por robots.txt. Si es así, investiga qué páginas están afectadas y a continuación ajusta el fichero robots.txt en consecuencia para suprimir el bloqueo de esa página.

Puedes usar elpara ver qué directiva bloquea el contenido. Sólo ten cuidado al hacer esto, es fácil cometer errores que afectan a otras páginas y archivos.

11.2) Bloqueado por robots.txt

Esto significa que tienes contenido bloqueado por robots.txt que no está indexado en nuestros días en Google.

Si este contenido es esencial y ha de ser indexado, suprime el bloqueo de rastreo en robots.txt. Si has bloqueado contenido en robots.txt con la intención de excluirlo del índice de Google, suprime el bloqueo y emplea una meta etiqueta de robots o un encabezado x‑robots. Esa es la única forma de garantizar la exclusión de contenido del índice de Google.

Es esencial suprimir el bloqueo de rastreo cuando se procura excluir una página de los resultados de la búsqueda. Si no lo haces, Google no verá la etiqueta noindex ni el encabezado HTTP, con lo que permanecerá indizada.

11.3) Indexada, si bien bloqueada por robots.txt

Esto quiere decir que parte del contenido bloqueado por robots.txt prosigue estando indexado en Google.

Una vez más, si estás intentando excluir este contenido de los resultados de búsqueda de Google, robots.txt no es la solución adecuada. Quita el bloqueo de rastreo y en su sitio usa unapara prevenir la indexación.

Si has bloqueado este contenido por accidente y deseas sostenerlo en el índice de Google, suprime el bloqueo del rastreo en robots.txt. Esto puede asistir a prosperar la visibilidad del contenido en la búsqueda de Google.

Back to top

12) FAQs

Aquí están ciertas preguntas más frecuentes que no encajaban de forma natural en otra parte de nuestra guía: haznos saber en los comentarios si falta algo, y actualizaremos la sección en consecuencia.

12.1) ¿Cuál es el tamaño máximo de un fichero robots.txt?

(más o menos).

12.2) ¿Dónde está robots.txt en WordPress?

En el mismo lugar: dominio.com/robots.txt.

12.3) ¿Cómo puedo editar robots.txt en WP?

De forma manual o utilizandocomo Yoast que te permite editar robots.txt desde el backend de WP.

12.4) ¿Qué sucede si no dejo el acceso a contenido no-indizado en robots.txt?

Google jamás verá la directiva noindex porque no puede rastrear la página.

“¿Sabías que bloquear una página con un robots.txt disallow y un noindex en la página no tiene mucho sentido por el hecho de que Googlebot no puede “ver” el noindex?”

Back to top

13) Conclusiones

Robots.txt es un archivo simple pero poderoso. Utilízalo sabiamente, y puede tener un impacto positivo en el posicionamiento web en buscadores. Úsalo al azar y, bueno, vivirás para arrepentirte.

¿Tienes más preguntas? Deja un comentario o bien.

Back to top
Share icon

ESTOS EXCLUSIVOS INFORMES GRATUITO REVELAN

7 SECRETOS DE EXPERTOS SEO QUE TE LLEVÁN AL 1#
7 SECRETOS DE EXPERTOS SEO QUE TE LLEVÁN AL 1# EN GOOGLE PARA GANAR 10.000s DE TRÁFICO DE CALIDAD GRATUITO - EN SÓLO 2 MESES
 

Los 7 pasos más poderosos para disparar tu ranking orgánico para ALCANZAR Y MANTENER un impresionante tráfico orgánico es TUYO.

Consigue gratis lo que el 1% de los expertos en SEO venden por miles de euros... y el otro 99% ni siquiera sabe que existe.


OBTEN MI INFORME GRATUITO
5 errores que debes evitar en tu sitio web de Drupal
Ebook - 5 errores que debes evitar en tu sitio web de Drupal (¡podrían costarte miles de euros!)
 

Este Ebook cubre 5 terribles errores que probablemente estés cometiendo ahora mismo con tu sitio web de Drupal.

¡Nº3 TE SORPRENDERÁ! Esta lectura de 10 minutos te ahorrará miles de euros.



OBTEN MI INFORME GRATUITO