A continuación se documentan diez consejos para revisar que el posicionamiento SEO Técnico de tú web o bien weblog cumple un mínimo de requisitos a fin de que no haya ningún tipo de inconveniente en que Googlebot pueda acceder a tu sitio.
Igualmente, se provee información para la crawlabilidad e indexación de un sitio web. Como se puede ver en estas diapositivas,. Mas para que una web pueda ser indexada, primero debe poder ser crawleada.
Por ello, también se ofrecerán.
-
Back to top
1) La versión cacheada de Google halla el contenido
Ya hemos comprobado que los bots pueden acceder a la web sin inconvenientes y que los links en la web dejan generar un camino por el cual los crawlers pueden acceder a la información de todas y cada una de las páginas.
Ahora debemos comprobar que la información que se muestra en esas páginas, puede ser procesada por los buscadores. Para esto, vamos a visualizar si la versión cacheada en el navegador de Google contiene toda la información que se provee en la página web.
Para poder llevar a cabo esta labor, edita la URL en la barra de dirección del navegador de manera que introduzcas al comienzo de exactamente la misma la palabra cache: y pulsa Intro, como aparece en la imagen siguiente:
El resultado será algo similar a lo que aprecia en la imagen, aparecerán tres opciones en la parte superior izquierda en las podrás ver como se renderiza la web para la versión completa ( lo que ve el usuario ); la versión texto, es el contenido que puede ver el bot o crawler y finalmente la opción "Ver origen" que es código.
Se puede comprobar que aparecen las diferentes opciones:
- Versión completa - Es la versión que se puede ver en el navegador
- Versión solo texto - Al hacer click vamos a poder ver la información que el buscador ha encontrado
- Ver origen - En esta opción se verá el código fuente
2) Configuración del fichero robots.txt
Asegurate de que no hay limitaciones para los bots al acceder. Eso si, se puede configurar este archivo para determinar qué bots pueden acceder y cuales no. De igual manera, se puede determinar qué secciones de la página web quieres que sean crawleadas o no.
Aquí se facilita la documentación oficial de Google para la creación de un fichero robots.txt y la configuración del mismo.
Mediante la herramienta Search Console, se pueden comprobar qué elementos están bloqueados y los diferentes errores que pueden aparecer en relación a la configuración del fichero robots.txt
Para poder estar seguros de que no aparecen errores en los puntos que hemos comentado, mediante Search Console se pueden comprobar:
-
2.1) Asegurate de que no hay recursos bloqueados a los bots
-
2.2) El archivo robots.txt no presenta errores
3) Comprueba que lo que ve el usuario en el navegador es lo que ve Googlebot
En en el caso de que al analizar la versión cacheada la información que ven los bots no sea exactamente la misma que se muestra en el navegador, esto es la que el usuario pueder ver, es posible que sea debido a una error de crawleo, como se puede revisar en la imagen siguiente:
Al ejecutar Rastrear como Google, vemos que en la parte izquierda el mensaje "Así es como Googlebot ha visto la página" difiere de la parte derecha "Así es como un visitante del sitio web habría visto la página". Esto es debido a que hay elementos bloqueados que éstán impidiendo el acceso total a archivos CSS y JS y cuyos mensajes nos indican los fallos de configuración en el fichero robots.txt.
4) Asegurate que los archivos CSS, JS e imágenes no están bloqueados por robots
En este artículo de Mozse documenta la necesidad de configurar el archivo robots.txt para permitir el acceso a fichero CSS y JS.
Para estar totalmente seguro de que están desbloqueandos todos los ficheros JavaScript y CSS, se puede añadir al archivo robots.txt, las siguientes líneas de código:
User-Agent: Googlebot
Allow: *.js
Allow: *.css
Si en el fichero robots.txt se están bloqueando directorios completos, puede ser un tanto más complicado.En estos casos, también es preciso permitir el acceso a los bots de Google para cada uno de ellos de los directorios que ha bloqueado.
Por ejemplo:User-Agent: Googlebot
Disallow: /modulos/
Allow: /modulos/*.js
Allow: /modulos/*.css
Igualmente Matt Cutts lo explica en este vídeo:
5) Enlaces rotos o bien errores de crawlabilidad
Lo primero es el crawleo, por ello se debe comprobar que no hay restricciones a fin de que los bots puedan acceder a la información.
Esto supone que una vez se les ha facilitado la vía de entrada, hay que asegurarse que los links internos que existen en el contenido o en las distintas secciones de la página web, no tienen errores, o sea, las arañas de Google y el resto de buscadores web pueden seguir rastreando el resto de páginas.
Una herramienta con la que puedes comprobar que no hay links rotos en tú web es
Para poder valorar los diferentes problemas de crawlabilidad que puedan estar ocurriendo, a través de la herramienta Search Console podemos acceder a la sección Rastreo>>Errores de rastreo
Algunos de los errores más comunes son:
-
5.1) Errores de Servidor - Error quinientos o 503
-
5.2) Acceso rechazado ( Revisar el archivo robots.txt ) - Código de contestación 403
-
5.3) Errores cuatrocientos cuatro ( urls no se hallan )
Aquí puedes contar con del listado de contestaciones HTTP de servidor y qué significa cada uno de ellos de ellas:
6) Comprobar que el renderizado del HTML es correcto
Lo verdaderamente importante en este caso es que en la versión cacheada de Google, específicamente en "Versión solo texto", el buscador haya podido encontrar todo el contenido o la información por la que nos interesa posicionar.
En caso contrario, sería recomendable comprobar por qué la información no se renderiza corréctamente. Puede ser por que la implementación esté hecha con AJAX, la web esté hecha con un Framework en Javascript que preprocesa el renderizado del HTML o bien cualquier otra incidencia técnica.
Dicho esto, pasamos a valorar la próxima mejora técnica que se tendría que tener en cuenta.
¿Cómo hacemos esto?, mediante Search Console se puede ejecutar "Explorar como Google". Seleccionar una página de tú web, y una vez se ha llevado a cabo la tarea verifica que la contestación HTTP de descarga es correcta.
En el caso de que aparezca cualquier error, por ejemplo, la respuesta HTTP no sea 200 OK, muestre un mensaje de que la URL está bloqueada, la URL no se encuentra, etcétera entonces nuevamente sería preciso comunicar con el equipo técnico para solucionar este problema, ya sea por configuración de robots.txt, error de servidor, etc.
7) Validar los datos estructurados o schema
En este caso se facilita el enlace a la herramienta para poder validar la implementación de los Rich Snippets, así sea en el markup ( a través de código HTML en el template) o mediante JSON, es una buena práctica revisar que la implementación de los datos estructurados es adecuada.
Schema.org es un vocabulario específico de etiquetas (o bien microdatos) que se pueden agregar a su HTML para la manera en que su página es entendida por los motores de búsqueda.
Schema.org es el resultado de la colaboración entre Google, Bing, Yandex, y Yahoo! para ayudar a proporcionar la información de sus motores de búsqueda mediante un lenguaje estándar que deje comprender el contenido por parte de las máquinas y ofrecer los mejores resultados posibles de búsqueda.
Implementar Rich Snippets en código HTML mejora la forma en que su página pueda ser mostrada en las SERPs mediante la mejora de los fragmentos enriquecidos que se muestran bajo el título de la página.
es el sitio oficial donde podrá hallar las últimas actualizaciones, una guía para la implementación de esquemas y preguntas usuales.
8) Configurar URL's con parámetros en Search Console
Normalmente, las URLs con parámetros se generan en páginas webs que ofrecen distintas opciones de clasificación como Ordenar = relevancia, tipo = ascendiente, paginación y así sucesivamente, que también se debe tener en cuenta como parámetros de URL.
Por lo general, todo depende de la configuración del lugar, la arquitectura y la tecnología que se utilice para mostrar u ordenar la información.
Una buena práctica posicionamiento web es la generación de URL-friendly, cuya URL no contiene parámetros dinámicos y contiene las palabras clave por las que se quiere posicionar.
A continuación vamos a ver como administrar la crawlabilidad de las URL's con parámetros a través de Search Console.
La administración de parámetros es una opción útil para ayudar a la indexación, vale la pena desde el punto de vista de aumento de tráfico orgánico y desindexación de páginas que se se indexan en los motores de búsqueda pero no aportan valor a la captación de nuevos usuarios en los motores de búsqueda, un ejemplo de URL con parámetros es: /?utm_campaign=coschedule&utm_source=twitter&utm_medium=.
Al hacer click en Editar,en la opción del parámetro que se quiera configurar, aparecerá una interfaz donde se podrá determinar qué se quiere hacer con las URLs que contengan dicho parámetro.
El objetivo es minimizar el número de URL's con parámetros indexadas, de manera que sea más fácilmente rastreable por Google, lo que aumentará la frecuencia de rastreo de su lugar, y también tendrán un costo menor en el ancho de banda preciso para crawlear la información.
Mi recomendación sería, comprobar qué URLs con parámetros tiene indizados Google de su sitio y además que parámetros ha detectado en Search Console.
Una vez identificadas las URL's con parámetros indizadas que no traigan tráfico orgánico, desindexar las mismas. Paralelamente, condigurar las URL's con parámetros para la crawlabilidad de indexabilidad.
9) Deshabilita CSS y comprueba la información en la página es exactamente la misma para Googlebot y para el usuario
En este caso no nos referimos a que haya información que se carga en el navegador, pero que los usuarios no ven.
Nos referimos a que la información que se carga en el DOM, tiene que ser la misma que los crawlers procesan, o sea, que no se esté cargando ninguna información extra en la plantilla de forma que se repita en secciones de la web donde no es útil.
Para poder hacer esta comprobación es necesario tener instalado, así sea en Mozilla Firefox o Google Chrome la extensión "". Una vez se instale, ir a la sección: CSS>>Disable all styles
El objetivo es encontrar aquellas imágenes, textos o contenidos que se cargan al hacer la petición HTTP de la página, es decir al cargar exactamente la misma, pero cuya información no se ve en el navegador por el usuario.
Estos fallos suelen ser comunes en CMS o bien plataformas que usan un sistema de plantillas, de forma que se cargan en todas las páginas, mas que no aportan valor al contenido, consumen recursos y no los bots lo pueden interpretar como.
Igualmente pueden estar presentes en webs que estén desarrolladas con implementaciones AJAX, de manera que la información se cargue pero esté oculta y que se muestre cuando se ejecuta un acontecimiento en Javascript. Una vez el usuario interactua con la página web y hace click, scroll o cualquiera otra interactuación, la información será mostrada o bien ocultada.
En estos casos, es necesarioy comprobar la información cacheada por Google.
10) Actualización del Sitemap XML vs Sitemap HTML vs RSS
Seguro que esta cuestión levanta un tanto de controversia, como puedes revisar en la imagen, el Sitemap XML en la página web de Brandemia lleva sin actualizarse más de un año y sigue incrementando el tráfico orgánico, como puedes ver aquí:
La vía opción alternativa para la crawlabilidad e indexación de la página web ha sido esta:
Es una buena práctica la actualización del fichero Sitemap XML y hacer ping en Search Console en el caso de que no exista otra alternativa, como puede ser un Sitemap HTML.
Cada posicionamiento en buscadores aplica los cambios que considera que serán mejores basándonos en las características del Content Management System, el control que tenga sobre la parte técnica o las restricciones que haya por parte del cliente en el momento de incorporar las diferentes opciones para el posiciconamiento en motores de búsqueda.
Back to top11) La versión cacheada de Google halla el contenido
Ya hemos comprobado que los bots pueden acceder a la página web sin inconvenientes y que los enlaces en la web permiten generar un camino por el que los crawlers pueden acceder a la información de todas y cada una de las páginas.
Ahora debemos comprobar que la información que se muestra en esas páginas, puede ser procesada por los buscadores. Para esto, vamos a visualizar si la versión cacheada en el navegador de Google contiene toda la información que se provee en la página web.
Para poder hacer esta tarea, edita la URL en la barra de dirección del navegador de manera que introduzcas al comienzo de la misma la palabra cache: y pulsa Intro, como aparece en la imagen siguiente:
El resultado será algo similar a lo que aprecia en la imagen, aparecerán tres opciones en la parte superior izquierda en las podrás ver como se renderiza la web para la versión completa ( lo que ve el usuario ); la versión texto, es el contenido que puede ver el bot o crawler y por último la opción "Ver origen" que es código.
Se puede revisar que aparecen las diferentes opciones:
- Versión completa - Es la versión que se puede ver en el navegador
- Versión solo texto - Al hacer click podremos ver la información que el buscador ha encontrado
- Ver origen - En esta opción se verá el código fuente
12) Configuración del fichero robots.txt
Asegurate de que no hay limitaciones para los bots al acceder. Eso si, se puede configurar este archivo para determinar qué bots pueden acceder y cuales no. Del mismo modo, se puede determinar qué secciones de la web quieres que sean crawleadas o no.
Aquí se facilita la documentación oficial de Google para la creación de un archivo robots.txt y la configuración del mismo.
Mediante la herramienta Search Console, se pueden comprobar qué elementos están bloqueados y los diferentes errores que pueden aparecer en relación a la configuración del archivo robots.txt
Para poder estar seguros de que no aparecen errores en los puntos que hemos comentado, mediante Search Console se pueden comprobar:
-
12.1) Asegurate de que no hay recursos bloqueados a los bots
-
12.2) El archivo robots.txt no presenta errores
12.3) Asegurate de que no hay recursos bloqueados a los bots
12.4) El archivo robots.txt no presenta errores
Back to top13) Comprueba que lo que ve el usuario en el navegador es lo que ve Googlebot
En caso de que al examinar la versión cacheada la información que ven los bots no sea exactamente la misma que se muestra en el navegador, esto es la que el usuario pueder ver, puede que sea debido a una fallo de crawleo, como se puede revisar en la imagen siguiente:
Al ejecutar Rastrear como Google, vemos que en la parte izquierda el mensaje "Así es como Googlebot ha visto la página" difiere de la parte derecha "Así es como un visitante del sitio web habría visto la página". Esto se debe a que hay elementos bloqueados que éstán impidiendo el acceso total a ficheros CSS y JS y cuyos mensajes nos señalan los errores de configuración en el archivo robots.txt.
Back to top14) Asegurate que los archivos CSS, JS y también imágenes no están bloqueados por robots
En este artículo de Mozse documenta la necesidad de configurar el archivo robots.txt para permitir el acceso a fichero CSS y JS.
Para estar absolutamente seguro de que están desbloqueandos todos y cada uno de los ficheros JavaScript y CSS, se puede añadir al archivo robots.txt, las siguientes líneas de código:
User-Agent: Googlebot
Allow: *.js
Allow: *.css
Si en el archivo robots.txt se están bloqueando directorios completos, puede ser un tanto más complicado.En estos casos, también es preciso permitir el acceso a los bots de Google para cada uno de los directorios que ha bloqueado.
Igualmente Matt Cutts lo explica en este vídeo:
Back to top15) Enlaces rotos o bien errores de crawlabilidad
Lo primero es el crawleo, por esta razón se debe comprobar que no hay limitaciones a fin de que los bots puedan acceder a la información.
Esto supone que una vez se les ha facilitado la vía de entrada, hay que asegurarse que los enlaces internos que existen en el contenido o en las diferentes secciones de la web, no tienen fallos, o sea, las arañas de Google y el resto de buscadores web pueden proseguir rastreando el resto de páginas.
Una herramienta con la que puedes revisar que no hay links rotos dentro de tú web es
Para poder valorar los diferentes problemas de crawlabilidad que puedan estar ocurriendo, a través de la herramienta Search Console podemos acceder a la sección Rastreo>>Errores de rastreo
Algunos de los fallos más comunes son:
-
15.1) Errores de Servidor - Error quinientos o 503
-
15.2) Acceso rechazado ( Revisar el archivo robots.txt ) - Código de contestación 403
-
15.3) Errores 404 ( urls no se encuentran )
15.4) Errores de Servidor - Error 500 o 503
15.5) Acceso denegado ( Revisar el archivo robots.txt ) - Código de contestación 403
15.6) Errores cuatrocientos cuatro ( urls no se hallan )
Aquí puedes disponer del listado de contestaciones HTTP de servidor y qué significa cada uno de ellas:
Back to top16) Comprobar que el renderizado del HTML es correcto
Lo verdaderamente esencial en un caso así es que en la versión cacheada de Google, en concreto en "Versión solo texto", el buscador haya podido hallar todo el contenido o la información por la que nos resulta de interés posicionar.
En caso contrario, sería recomendable revisar por qué la información no se renderiza corréctamente. Puede ser por que la implementación esté hecha con AJAX, la web esté hecha con un Framework en Javascript que preprocesa el renderizado del HTML o cualquier otra incidencia técnica.
Dicho esto, pasamos a valorar la siguiente mejora técnica que se tendría que tener en cuenta.
¿Cómo hacemos esto?, mediante Search Console se puede ejecutar "Explorar como Google". Escoger una página de tú web, y una vez se ha llevado a cabo la labor verifica que la contestación HTTP de descarga es adecuada.
En el en caso de que aparezca cualquier error, por poner un ejemplo, la respuesta HTTP no sea doscientos OK, muestre un mensaje de que la URL está bloqueada, la URL no se halla, etcétera entonces de nuevo sería necesario comunicar con el equipo técnico para solventar este problema, así sea por configuración de robots.txt, fallo de servidor, etc.
Back to top17) Validar los datos estructurados o schema
En este caso se facilita el enlace a la herramienta para poder validar la implementación de los Rich Snippets, así sea en el markup ( mediante código HTML en el template) o a través de JSON, es una buena práctica comprobar que la implementación de los datos estructurados es correcta.
Schema.org es un léxico específico de etiquetas (o bien microdatos) que se pueden añadir a su HTML para la manera en que su página es entendida por los motores de búsqueda.
Schema.org es el resultado de la colaboración entre Google, Bing, Yandex, y Yahoo! para asistir a proporcionar la información de sus motores de búsqueda mediante un lenguaje estándar que deje entender el contenido por parte de las máquinas y ofrecer los mejores resultados posibles de búsqueda.
Implementar Rich Snippets en HTML mejora la manera en que su página pueda ser mostrada en las Search Engines Ranking Positions mediante la mejora de los fragmentos enriquecidos que se muestran bajo el título de la página.
es el sitio oficial donde podrá hallar las últimas actualizaciones, una guía para la implementación de esquemas y preguntas frecuentes.
Back to top18) Configurar URL's con parámetros en Search Console
Normalmente, las URLs con parámetros se generan en páginas webs que ofrecen diferentes opciones de clasificación como Ordenar = relevancia, tipo = ascendiente, paginación y así consecutivamente, que también se debe tomar en consideración como parámetros de URL.
Por lo general, todo depende de la configuración del sitio, la arquitectura y la tecnología que se utilice para mostrar u ordenar la información.
Una buena práctica posicionamiento web es la generación de URL-friendly, cuya URL no contiene parámetros dinámicos y contiene las palabras clave por las que se quiere posicionar.
A continuación vamos a ver como gestionar la crawlabilidad de las URL's con parámetros a través de Search Console.
La administración de parámetros es una opción útil para ayudar a la indexación, vale la pena desde la perspectiva de aumento de tráfico orgánico y desindexación de páginas que se se indexan en los motores de búsqueda pero no aportan valor a la captación de nuevos usuarios en los motores de búsqueda, un caso de URL con parámetros es: /?utm_campaign=coschedule&utm_source=twitter&utm_medium=.
Al hacer clic en Editar,en la opción del parámetro que se quiera configurar, aparecerá una interfaz donde se podrá determinar qué se quiere hacer con las URLs que contengan dicho parámetro.
El objetivo es disminuir al mínimo el número de URL's con parámetros indexadas, de manera que sea más fácilmente rastreable por Google, lo que aumentará la frecuencia de rastreo de su sitio, y también tendrán un costo menor en el ancho de banda preciso para crawlear la información.
Mi recomendación sería, revisar qué URLs con parámetros tiene indexados Google de su sitio y además que parámetros ha detectado en Search Console.
Una vez identificadas las URL's con parámetros indexadas que no traigan tráfico orgánico, desindexar las mismas. Paralelamente, condigurar las URL's con parámetros para la crawlabilidad de indexabilidad.
Back to top19) Deshabilita CSS y comprueba la información en la página es la misma para Googlebot y para el usuario
En este caso no nos referimos a que haya información que se carga en el navegador, mas que los usuarios no ven.
Nos referimos a que la información que se carga en el DOM, tiene que ser exactamente la misma que los crawlers procesan, o sea, que no se esté cargando ninguna información extra en la plantilla de forma que se repita en secciones de la web donde no es útil.
Para poder hacer esta comprobación es necesario tener instalado, ya sea en Mozilla Firefox o Chrome la extensión "". Una vez se instale, ir a la sección: CSS>>Disable all styles
El objetivo es hallar aquellas imágenes, textos o contenidos que se cargan al hacer la petición HTTP de la página, o sea al cargar la misma, pero cuya información no se ve en el navegador por el usuario.
Estos fallos acostumbran a ser comunes en Content Management System o bien plataformas que utilizan un sistema de plantillas, de forma que se cargan en todas y cada una de las páginas, pero que no aportan valor al contenido, consumen recursos y no los bots lo pueden interpretar como.
Igualmente pueden estar presentes en webs que estén desarrolladas con implementaciones AJAX, de forma que la información se cargue mas esté oculta y que se muestre cuando se ejecuta un acontecimiento en Javascript. Una vez el usuario interactua con la página web y hace click, scroll o bien cualquiera otra interactuación, la información será mostrada o bien ocultada.
En estos casos, es necesarioy comprobar la información cacheada por Google.
Back to top20) Actualización del Sitemap XML vs Sitemap HTML vs RSS
Seguro que esta cuestión levanta un poco de controversia, como puedes comprobar en la imagen, el Sitemap XML en la web de Brandemia lleva sin actualizarse más de un año y prosigue incrementando el tráfico orgánico, como puedes ver aquí:
La vía alternativa para la crawlabilidad e indexación de la página web ha sido esta:
Es una buena práctica la actualización del fichero Sitemap XML y hacer ping en Search Console en el caso de que no exista otra opción alternativa, como puede ser un Sitemap HTML.
Cada posicionamiento en buscadores aplica los cambios que estima que serán mejores basándonos en las características del CMS, el control que tenga sobre la parte técnica o bien las limitaciones que haya por la parte del cliente a la hora de implementar las distintas opciones para el posiciconamiento en buscadores.
La implementación de un Sitemap que permita prosperar desde el posicionamiento web en buscadores Técnico la crawlabilidad y también indexabilidad de cualquier sitio es un factor esencial a la hora de realizar una estrategia o bien una campaña de search.
Independientemente de cual sea la opción escogida se aconseja como una buena práctica para mejorar el posicionamiento SEO la implementación de cualquiera de las alternativas presentadas para poder lograr mejores resultados en las búsquedas y así lograr que nuestros proyectos obtengan una mejor visibilidad en los diferentes buscadores web.
Back to top