Qué es Robots.txt?
El archivo robots.txt es un archivo de texto situado en la raíz de nuestro directorio que sirve para indicar a los robots de los buscadores el contenido al que no pueden acceder y por tanto que no queremos que indexen ni muestren en los resultados de búsqueda.
Este archivo se puede crear con un sencillo editor de texto como el bloc de notas de windows y debe alojarse en nuestro servidor en la carpeta raíz, de forma que se pueda acceder mediante la dirección tudominio.com/robots.txt.
En este documento de Google puedes ver las especificaciones que hay que seguir en los archivos robots.txt.
El contenido del archivo puede indicar el nombre de los robots a los que se dirigen las instrucciones y un listado de los directorios o archivos que no deben indexar.
Podemos dirigir nuestro listado de exclusiones a todos los robots con el comando User-agent: *, o por ejemplo solo al robot de google con el comando User-agent: Googlebot.
A continuación podemos especificar una lista de directorios o archivos que no queremos que se indexen con el comando Disallow, como por ejemplo los que contienen los programas de gestión de la web.
De esta forma podemos optimizar el recorrido de los robots, para que no pierdan el tiempo que nos dedican (crawl budget) en rastrear archivos que no deben ser indexados.
El formato habitual es el siguiente:
User-agent: * Disallow: /carpeta1/
Disallow: /carpeta2/archivo.html
Una vez hayas creado y subido tu archivo robots.txt a la carpeta raiz de tu servidor, puedes comprobar su funcionamiento con el Probador de robots.txt de Search Console.
Esta herramienta comprueba si el archivo bloquea el acceso de los rastreadores web de Google a URL concretas de tu web.
Ten en cuenta que el contenido del archivo robots.txt es público y que nada obliga a los robots a seguir sus instrucciones, especialmente si se trata de robots de malware.
Por otra parte, el estado del archivo también puede provocar un problema de indexación:
- Si la dirección "tudominio.com/robots.txt" da una respuesta de estado 404, el acceso a todo el sitio está permitido, equivale a la regla "Disallow: "
- Si la dirección "tudominio.com/robots.txt" da una respuesta de estado 500, el acceso a todo el sitio NO está permitido, equivale a la regla "Disallow:/"
Si quieres aprender más sobre este archivo, puedes echar un vistazo a la ayuda de Search Console.
Reglas estandar para el archivo robots.txt
El blog oficial para webmasters de Google ha anunciado que el protocolo de exclusión de robots (REP, Robots Exclusion Protocol) se convertirá oficialmente en un estándar de internet a partir del 1 de septiembre de 2019.
Entre los cambios que se producirán, dejarán de tener validez las directivas noindex, nofollow y crawl-delay.
El estándar robots.txt se encuentra actualmente en fase de borrador, en la que Google ha solicitado comentarios de los desarrolladores.
Volver al Diccionario SEO - Glosario de términos de marketing digital