Robots.txt

tag Internet y páginas web

Se trata de un fichero, ubicado en el directorio raíz de un sitio web, cuyo fin es el de indicar a los motores de búsqueda a que páginas, rutas o archivos tienen acceso y cuales deben ignorar.

Por defecto un motor de búsqueda podrá rastrear e indexar cualquier contenido publicado de un sitio web. Mediante este fichero podremos bloquear determinadas URL para que no sean indexados en Google u otros buscadores.

La sintaxis del fichero robots.txt es muy sencilla. Por un lado tenemos el comando User-agent para hacer referencia a un robot determinado de un motor de búsqueda, a varios, o a todos (mediante el carácter «*»). Por otro lado disponemos de algunos comandos para de acciones específicas:

  • Disallow: para bloquear una URL o ruta determinada. Es el comando más utilizado.
  • Allow: el contrario del comando Disallow. Permite el acceso a la ruta especificada.
  • Sitemap: para indicar a los motores de búsqueda la ubicación del sitemap XML.
  • Crawl-delay: indica a los buscadores la cantidad de segundos a esperar antes de cargar cada página. Útil para el SEO para mejorar la velocidad de carga del servidor.

Ejemplos de ficheros robots.txt

Ejemplo 1: Niega el acceso a todos los robots a todos los ficheros.

User-agent: *
Disallow: /

Ejemplo 2: Niega el acceso, a todos los robots, a ciertos directorios específicos (al resto si se tiene acceso).

User-agent: *
Disallow: /cgi-bin/
Disallow: /search/
Disallow: /tmp/

Ejemplo 3: Niega el acceso a unas rutas determinadas para un robot específico.

User-agent: Googlebot #nombre del robot
Disallow: /wp-*  # impide acceder a todos los directorios y ficheros que empiecen por "wp-"
Disallow: /tmp/

Generación del fichero robots.txt

Al tratarse de un fichero de texto puedes emplear cualquier editor de texto simple para incluir tus reglas. El fichero deberás guardarlo y subirlo a la carpeta o directorio raíz de tu sitio web, ya sea por FTP o algún programa de administración de ficheros en tu servidor.

De forma alternativa puedes usar un generador de robots.txt tales como:

Buscando en internet también puedes encontrar guías, artículos y recomendaciones para elaborar un robots.txt adecuado a un determinado CMS como por ejemplo WordPress.


Para ampliar información sobre el fichero robots.txt puedes consultar la Wikipedia o la documentación de Google.