Hay dos consideraciones importantes cuando usas el archivo /robots.txt:
Los robots pueden ignorar tu archivo /robots.txt. Especialmente cuando se trata de robots malware que escanean la red y son una amenaza para la seguridad.
Tu archivo /robots.txt es un archivo disponible al público. Todo el mundo puede ver su contenido y lo que tratas de ocultar. (Te recomendamos que si tienes información privada o sensible, utilices protección de carpetas mediante usuario y contraseña para tu tranquilidad).
No trates de poner en tu archivo robots.txt, archivos o texto que sean privados o que no quieras que los vean. ¡Ellos pueden verlos!
Detalles:
El archivo mencionado es un estándar y no pertenece a ninguna corporación.
Existen estándares de 1994 en los que se detalla el procedimiento para los archivos tipo robot.
En 1997 se creo una especificación para los métodos que se usan en el control de éste tipo de archivos.
Se puede consultar:
¿Cómo crear un archivo robots.txt?
¿Dónde ponerlo?
En el nivel raíz de tu servicio web.
Generalmente lo pones en el directorio: /httpdocs/robots.txt
Cuando un robot busca el archivo para una URL (sitio) lo hace iniciando desde el directorio raíz.
¿Qué se puede poner en el archivo de texto robots.txt?
El archivo "/robots.txt" es un simple archivo de texto con uno o más registros, Generalmente contiene uno o más renglones como se muestra a continuación:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
En el ejemplo, 3 directorios han sido excluido de la búsqueda de los robots.
cgi/bin
/tmp
/~joe/
Es mejor que cada uno quede en su propia línea en el archivo.
Toma nota que tienes que separar la linea "Disallow" para cada prefijo que quieras excluir.
-- No se puede usar: "Disallow: /cgi-bin/ /tmp/" En una sola línea.
No se permiten líneas en blanco, por que pueden interpretarse como diferentes comandos.
Toma nota que las expresiones regulares no están soportadas por el 'user agent' o las líneas de 'disallow'.
El caracter '*' en el 'user agent' es un campo especial que significa: cualquier robot. Específicamente no puedes tener líneas como 'user-agent 'bot', 'disallow: /tmp/*' o 'Disallow:*.gif'.
Lo que quieres excluir depende de tu servidor. Todo lo que no menciones será otorgado a los programas robot.
Ejemplos:
Para excluir todos los robots del servidor:
User-agent: * Disallow: /
Permitir el libre acceso a los robots:
User-agent: * Disallow:
(O sólo crea un archivo vacío llamado: "/robots.txt" , o no pongas ninguno!)
Para excluir robots en algunas partes:
User-agent: *
Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/
Para excluir algún robot en específico:
User-agent: BadBot Disallow: /
Para permitir el acceso a un robot:
User-agent: Google Disallow: User-agent: * Disallow: /
Para excluir todos los archivos con exepción de uno:
Esto es raro, por que no existe un campo "Allow" (permitir). La manera ms fácil es porner todos los archivos que se quieran excluir en un folder por separado, como podría ser "archivos_varios", y dejar el archivo que queremos que visiten en un directorio arriba del folder creado.
User-agent: * Disallow: /~joe/archivos_varios/
Alternativamente puedes deshabilitar todas las páginas deshabilitadas:
User-agent: *
Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html