Construyendo un robots.txt

Hoy se va a enseñar de que trata el archivo robots.txt, sin embargo, primero se debe decir de qué trata y que función tienen dentro de nuestras redes.

El robot es un programa algo complejo el cual tiene como trabajo el buscar vuestras páginas web y archivar el contenido de ellas dentro de una base de datos para continuar enlaces el cual se dirigen a otras páginas, claro está. Esa acción nos beneficia ya que logra que se indexen algunas páginas de vuestra posesión.

Hoy en día lo que lo primero que un robot hace es indagar dentro de la raíz de vuestra página y si poseen algún archivo llamado robots.txt, podéis hallar y ver que sigue unas normas que dentro de él se hallan y si no da con eso, empieza a investigar a fondo todo el sitio.
Este tema si bien no trata sobre consejos y desarrollo, es importante conocer de qué trata y la importancia de elaborar bien este archivo y ver en qué páginas se quiere que el robot empiece a rastrear y que otras no, (esas que no son rastreadas el navegador las indexa).

Elaborar un archivo robots.txt

Es sencillo de construir la verdad, solo deben saber algunas pautas y podrán elaborarlo sin ningún inconveniente.
Deben tener en cuenta que robots.txt puede hacerse sólo para que se emplee en determinados buscadores. Por ende, pasamos a redactar un ejemplo donde se muestran las posibilidades.
User-agent: * # Se aplica para todos los robots
Disallow: / # Impide la indexación en todas las páginas

Es decir que los robots no pudiesen indexar una página del dominio. En ese sentido, User-argent os dice que robots se les incluye las características que le siguen más adelante. Si se utiliza el “*” se le está pidiendo que las normas sean adaptables en todos los robots. Pero conjuntamente se peude hacer en concretos robots como se puede ver en el siguiente ejemplo:
User-agent: lycra 
User-agent: BadBot 
Disallow: / 

Aquí se muestra lo que son los robots lucra y BadBot el cual no podrían realizar una indexación en cualquier página del dominio. El disallow es ese archivo o carpeta el cual pretende no ser indexada, de esa forma se pudiese realizar un archivo como el siguiente:
User-agent: * 
Disallow: /tmp/prueba.html 
Disallow: /logs 

Lo que se ve en esas líneas sería el impedir la indexación de la carpeta logs y el archive prueba.html para todos los robots. Ya con todo lo mostrado se puede proceder a realizar un archivo de robots.txt totalmente funcional, pero asimismo hay términos para designar en qué horario se desea que el programilla empiece a investigar vuestras páginas. La manera de hacerlo es la siguiente:

Visit-time: 0300-0400 #esto obligaría a examinar las paginas solo de 3:00 am a 4:00 am.

Tener en consideración que las horas siempre se ponen en Greenwitch.
Por otra parte, pueden dejar que indexe una página o varias de ellas cada cierto tiempo y para eso pueden hacer la siguiente acción:

Request-rate: 1/30 

En donde el número 1 es de documentos a investigar y el 30 el tiempo que pasa entre una investigación y la siguiente.

Lo relevante aquí es conocer que no pueden dejar líneas en blanco porque luego, el robot va a funcionar correctamente.