Usando Arquivos Robot.txt
Robots.txt é um arquivo no formato texto (texto puro, não html) que pode ser utilizado no diretório principal de web sites (root ou public_html) para avisar aos crawler´s sobre quais as página e diretórios você permite a indexação do conteúdo e quais diretórios ou páginas não devem ser indexados, ou seja, você gostaria que fossem excluídos durante o processo de rastreamento.
O arquivo Robots.txt não é de modo algum um item obrigatoriamente respeitado pelos motores de Busca mas geralmente as diretrizes formalizadas no Robot.txt são obedecidas e as solicitações para não indexarem os arquivos solicitados são preservadas.
É importante esclarecer que o arquivo Robots.txt não é um meio de prevenir que os motores de Busca não realizem o rastreieo em determinados diretórios e arquivos do seu web site (não é um firewall nem um tipo de proteção) e o fato que você colocar um arquivo de Robots.txt no diretório principal de seu web site soa mais como pôr uma placa na porta de entrada que esteja destrancada, dizendo: "Estas páginas podem ser visitadas... , nestas páginas e diretórios você não deve entrar..." - ex. você não pode impedir que em uma porta destrancada algum ladrão tente entrar, mas pessoas de bom senso moral e ético podem respeitar a mensagem da porta.
Essa é a razão pela qual podemos dizer que, caso tenha realmente informações importantes nos diretórios de seu web site seria muita pretensão contar com o arquivo Robots.txt para protegê-los da indexação para desta forma não ter o conteúdo destas páginas/diretórios incluídos e exibidos nos resultados de Busca (SERP´s).
A localização do arquivo Robots.txt é muito importante. Deve estar no diretório principal do seu domínio porque de forma contrária os crawler´s de Busca (user agents) dos sistemas de Busca não serão capazes de encontrá-lo - eles não procuram em todo o site a localização de um arquivo chamado Robots.txt. Em vez disso, eles procuram no diretório principal (ex. http://meudominio.com.br/robots.txt) e caso o arquivo robot.txt não seja encontrado eles simplesmente supõe que o site não tem um arquivo Robots.txt. Portanto, tudo que eles encontrarem pelo caminho será rastreado.
Então, caso você não use um arquivo Robots.txt ou ele não esteja localizado no lugar correto não será difícil que todos as páginas e diretórios do seu domínio sejam apresentados nos índices dos sistemas de Busca e nas páginas de resultados de Busca.
O conceito e estrutura dos arquivos Robots.txt foi desenvolvido a mais que uma década e caso esteja interessado em aprender mais sobre ele visite http://www.robotstxt.org ou pode ir diretamente ao web site da Standard for Robot Exclusion (Padrão para Exclusão de Robots ) em [http://www.robotstxt.org/wc/norobots.html]) porque neste artigo abordaremos somente os aspectos gerais mais importantes de um arquivo Robots.txt. A seguir continuaremos com a estrutura de um arquivo Robots.txt.