Se trata de un fichero, ubicado en el directorio raíz de un sitio web, cuyo fin es el de indicar a los motores de búsqueda a que páginas, rutas o archivos tienen acceso y cuales deben ignorar.
Por defecto un motor de búsqueda podrá rastrear e indexar cualquier contenido publicado de un sitio web. Mediante este fichero podremos bloquear determinadas URL para que no sean indexados en Google u otros buscadores.
La sintaxis del fichero robots.txt es muy sencilla. Por un lado tenemos el comando User-agent para hacer referencia a un robot determinado de un motor de búsqueda, a varios, o a todos (mediante el carácter «*»). Por otro lado disponemos de algunos comandos para de acciones específicas:
- Disallow: para bloquear una URL o ruta determinada. Es el comando más utilizado.
- Allow: el contrario del comando Disallow. Permite el acceso a la ruta especificada.
- Sitemap: para indicar a los motores de búsqueda la ubicación del sitemap XML.
- Crawl-delay: indica a los buscadores la cantidad de segundos a esperar antes de cargar cada página. Útil para el SEO para mejorar la velocidad de carga del servidor.
Ejemplos de ficheros robots.txt
Ejemplo 1: Niega el acceso a todos los robots a todos los ficheros.
User-agent: * Disallow: /
Ejemplo 2: Niega el acceso, a todos los robots, a ciertos directorios específicos (al resto si se tiene acceso).
User-agent: * Disallow: /cgi-bin/ Disallow: /search/ Disallow: /tmp/
Ejemplo 3: Niega el acceso a unas rutas determinadas para un robot específico.
User-agent: Googlebot #nombre del robot Disallow: /wp-* # impide acceder a todos los directorios y ficheros que empiecen por "wp-" Disallow: /tmp/
Generación del fichero robots.txt
Al tratarse de un fichero de texto puedes emplear cualquier editor de texto simple para incluir tus reglas. El fichero deberás guardarlo y subirlo a la carpeta o directorio raíz de tu sitio web, ya sea por FTP o algún programa de administración de ficheros en tu servidor.
De forma alternativa puedes usar un generador de robots.txt tales como:
- https://en.ryte.com/free-tools/robots-txt-generator/
- https://smallseotools.com/es/robots-txt-generator/
- http://tools.seobook.com/robots-txt/generator/
Buscando en internet también puedes encontrar guías, artículos y recomendaciones para elaborar un robots.txt adecuado a un determinado CMS como por ejemplo WordPress.
Para ampliar información sobre el fichero robots.txt puedes consultar la Wikipedia o la documentación de Google.