Seleccionar página

Cuando se trata de SEO, la mayoría de la gente tiene una idea bastante acertada de lo básico. Muchos han oído acerca de las keywords, y cómo deben aparecer en diferentes lugares a lo largo de su contenido. Han oído hablar también de SEO on-page y SEO local, y tal vez incluso han usado el plugin SEO de Yoast para WordPress.

Lo que muchos no saben es que en la optimización de motores de búsqueda, sin embargo, hay algunas piezas más oscuras del rompecabezas que no todo el mundo conoce, estamos hablando del archivo robots.txt.

Pero, ¿Qué es el archivo robots.txt y cómo se usa?

Un archivo robots.txt es un archivo de texto plano que alojaremos dentro de nuestro servidor. En él vamos a escribir reglas para comunicarnos con los distintos motores de búsqueda y poder indexar nuestra web correctamente, diciendo a Google que partes de nuestro sitio queremos que indexe y cuáles no.

Hay muchas razones por la que podemos querer no indexar algunas páginas de nuestra web, por ejemplo que estés en pleno desarrollo o mantenimiento de la misma, donde esperas probar algunos cambios antes de que Google lo vea. También es posible que tengas alguna carpeta con archivos privados que no deben aparecer por la red. Hay varias posibilidades para querer crear el archivo robots.txt.

¿Cómo creo el archivo robots.txt y dónde lo pongo?

La elaboración del archivo robots.txt es tan fácil como crear un archivo de texto con tu editor de texto preferido y llamarlo robots.txt. Simplemente guardar y ya está. En serio, es así de fácil .

Luego lo subes a tu servidor vía FTP y lo colocas en la carpeta raíz, normalmente donde se sitúa el archivo index.php. Si tienes un sitio con varios subdominios deberás crear un archivo robots.txt para cada uno de ellos. Cabe destacar que aunque es aconsejable tener este archivo en tu servidor, no es obligatorio el tenerlo ya que los motores de búsqueda indexarán tu web de igual forma pero sin restricciones.

Hay que tener en cuenta, sin embargo, que la obediencia al archivo robots.txt no se puede hacer cumplir. Es decir, el archivo será reconocido y respetado por los motores de búsqueda, pero los rastreadores maliciosos y los rastreadores de búsqueda de baja calidad pueden ignorarlo por completo.

archivo robots.txt

Puedes editarlo desde Webmaster’s Tools

¿Cómo crear reglas dentro del robots.txt?

El robots.txt tiene su propia sintaxis para definir reglas. Estas reglas también se llaman “directivas”. A continuación, vamos a ver cómo se pueden utilizar para dejar que los rastreadores sepan lo que pueden y lo que no pueden hacer en tu sitio.

Sintaxis básica del archivo robots.txt

No preocuparos que cuando hablamos de sintaxis no va a ser algo complicado realmente. De hecho las directivas empleadas para este archivo son pocas y fáciles de implementar. De hecho, sabiendo sólo dos de ellas es suficiente para la mayoría de los propósitos:

User-Agent – Define un motor de búsqueda.
Disallow – Le dice al rastreador que no indexe ciertos archivos, páginas, o directorios.

Si vamos a establecer las reglas para todos los motores de búsqueda se puede utilizar un asterisco (*) para definir directivas universales para todos ellos. Por ejemplo, para bloquear a todo el mundo de todo su sitio web, podrá configurar el archivo robots.txt de la siguiente manera:

User-agent: *
Disallow: /

Esto dice que todos los directorios están fuera de los límites para todos los motores de búsqueda. No se indexa nada.

Lo importante a destacar es que el archivo utiliza rutas relativas (y no absolutas). Como el robots.txt se sitúa en el directorio raíz, la barra diagonal indica un disallow para esta ubicación y todo lo que contiene. Para definir los directorios individuales, tales como la carpeta imágenes, tendríamos que escribir algo como wp-content/imágenes/.

Podemos definir ciertas reglas para un rastreador y otras reglas para los demás. Por ejemplo, el siguiente código dentro de tu robots.txt daría acceso completo a Google a su sitio web, denegándolo a todos los demás :

User-agent : Googlebot
Disallow :
User-agent : *
Disallow: /

Las directivas para rastreadores específicos irán al principio mientras que las reglas universales las pondremos al final.

Los distintos rastreadores que podemos configurar son:

Googlebot – Google
Googlebot-Image – imágenes de Google
Googlebot-News – Google Noticias
Bingbot – Bing
Yahoo! Slurp – Yahoo

Sintaxis avanzada del archivo robots.txt

Disallow y User-agent no son las únicas reglas disponibles. Éstas son algunas más:

Allow – Permite explícitamente el rastreo de un rastreador en el servidor
Sitemap – Indica a los rastreadores donde tenemos nuestro mapa del sitio
Host – Define su dominio preferido para un sitio que tiene múltiples sitios
Crawl-delay – Establece a los motores de búsqueda un tiempo de intervalo de espera entre solicitudes a su servidor

Un error común es que la regla Allow se use para insistir a los motores de búsqueda que revisen nuestro sitio y es malo por razones de SEO. Un mal ejemplo para el archivo robots.txt:

User-agent: *
Allow: /
Esta directiva es redundante. ¿Por qué? Porque el sitio ya va a ser indexado como norma general.

En cambio, la directiva allow se utiliza para contrarrestar a disallow. Esto es útil en caso de que quiera bloquear un directorio completo, pero permite el acceso a uno o más archivos específicos:

User-agent: *
Allow: /juanma/ejemplo.php
Disallow: /juanma/
Los motores de búsqueda se mantendrán alejado de mi directorio juanma en general, pero aún así podrán acceder a ejemplo.php. Sin embargo, es importante señalar que es necesario colocar la directiva en orden para que esto funcione.

Algunos rastreadores interpretan la directiva sitemap. Se puede utilizar para decirles dónde encontrar el mapa de nuestro sitio web y se pone de la siguiente forma:

Sitemap: http://midominio.com/sitemap_index.xml

Al igual que en otros comandos de diversos lenguajes, se puede usar el asterisco como comodín. Por ejemplo, si desea bloquear todas las carpetas de acceso que comienzan con “wp-“, podríamos hacerlo así:

User-agent: *
Disallow: /wp-*/

Como hemos visto es muy útil el uso de este archivo para vuestra web. Hemos explicado qué es, dónde se ubica y cómo se configura. Cada parte cuenta en esto del SEO así que no subestimes ningún detalle de tu sitio y manos a la obra.

 

Título
¿Qué es el archivo robots.txt?
Título
¿Qué es el archivo robots.txt?
Descripción
Un archivo imprescindible y muy útil en cualquier proyecto web es el archivo robots.txt. Vamos a configurarlo correctamente para exprimir sus funciones.
Autor

Pin It on Pinterest

Share This