Hace tiempo que no comentamos muchas cosas de posicionamiento web por aquí. Así que a fin de que no se diga el día de hoy he sacado de bocetos una serie de apuntes sobre uno de los básicos del posicionamiento SEO del que la mayoría de gente desconoce detalles muy importantes: El archivo robots.txt, uno de los básicos de la indexación SEO. Robots.txt es un fichero destinado a apuntar a los motores de búsqueda que URLs tiene derecho a visitar y de cuales debería abstenerse. El funcionamiento es simple: antes de visitar una URL del site un robot debería mirar en este archivo para determinar si debe ir ahí a recoger información o si por el contrario el dueño del site prefiere que no entre. En suma son solo indicaciones que cualquier robot puede saltarse si quiere, pero a las que el robot de google hace bastante caso (que tampoco al 100 por ciento ).
El archivo robots.txt es uno de esos temas técnicos del que todo posicionamiento en buscadores ha de saber lo suficiente como para manipularlo con éxito. Por ello exactamente el mismo Google en su soporte nos indica como podemos crear el nuestro:.
Se nos da información muy directa y fácil de asimilar. La redacción de estos archivos es sencillísima si bien cualquier fallo, por mínimo que sea, podría provocar que las arañas no entrasen en las páginas que nosotros deseamos. En el mejor caso eso provocará que sigan visitando URLs en las que no querríamos que perdiesen el tiempo en el peor será todo lo contrario: no indexarán contenidos que realmente si que deseamos que aparezcan en el buscador. Es el tipíco aspecto importante que de fácil que es la gente no se toma lo suficientemente en serio, y ahí esta el problema: la documentación de Google está bien aunque no cubre todas y cada una de las pecularidades sobre como se va a interpretar dicho archivo y si nos quedamos solo ahí podemos cometer fallos que lamentaremos en el futuro.
Así pues, os dejo diez conceptos sobre estos archivos que hay que tener en cuenta y digerir. Desde lo más básico hasta consejos que solo en webs complejas o con mucho detalle de optimización del crawl budget vamos a poder aplicar.
Back to top1) Previo: El formato general del robots.txt
Un Robots.txt es fácil...
1. Empezamos declarando en una línea el user-agent (nombre del sistema que está navegando o bien rastreando el site) al que queremos afectar y tras esta indicaremos los accesos tolerados y prohibidos.
- En muchas ocasiones declararemos un accceso a todos (usuario-agent:*) y en ocsaiones nos referiremos a algún robot o bien crawler en particular (user-agent:googlebot).
Sigue leyendo









