robots.txt y su funcionalidad
robots.txt es un archivo que opcionalmente se puede poner en un directorio de tu página Web afectando sus instrucciones a todos los subdirectorios de este.
Este archivo se puede utilizar para diferentes finalidades pero la más importante es para comunicarle a los buscadores la exclusión de ciertas partes de un página Web, por ejemplo directorios reservados para uso interno que no se desea que sean indexados por los buscadores.
Actualmente el soporte que los buscadores dan a este archivo es completo y los tres grandes, Google, Yahoo! y MSN lo tienen muy en cuenta y bien documentado.
Los comandos que se pueden utilizar en este archivo son:
Disallow:
Dice a los crawlers(Robots de los buscadores que escanean la Web) que no indexe la Web o una parte de ésta.
Allow:
Al revés que disallow esta instrucción permite o solicita de los crawlers que una parte de la Web sea indexada. En realidad este comando solo tiene sentido en combinación con Disallow ya que por defecto todo es Allow, en combinación podemos decir que los crawlers no indexen ninguna parte y con allow podemos especificar alguna parte que debe ser indexada.
$ Wildcard Support
Dice a los crawlers que no indexen archivos que respondan a una muestra determinada, por ejemplo archivos PDF que terminan en .pdf
Sitemap Location
dice a los crawlers donde se encuentra el sitemap de la web, si este existe
Aquí podéis encontrar la documentación acerca del uso de este archivo para cada uno de los tres grandes, en inglés:
Google – Improving on Robots Exclusion Protocol
Yahoo! – One Standard Fits All: Robots Exclusion Protocol for Yahoo!, Google and Microsoft
MSN – Robots Exclusion Protocol: Joining Together to Provide Better Documentation
Un cordial saludo
David Antón Asensio
idanas blog, donde Googel y Goolge generan cientos de visitas diarias.











