Remoção de URLs explicada, parte I: Remoção de URLs e diretórios

posted Aug 26, 2011, 1:43 AM by aalbuquerque@google.com   [ updated Aug 26, 2011, 3:29 AM ]

Remoção de URLs explicada, parte I: Remoção de URLs e diretórios

  

Hoje em dia, há imenso conteúdo na internet. A determinada altura, poderá aparecer on-line algo que preferiria não ver ali: de uma mensagem inflamada num blogue que lamenta ter publicado a dados confidenciais que foram acidentalmente expostos. Na maioria dos casos, eliminar ou restringir o acesso a este conteúdo fará com que desapareça naturalmente dos resultados de pesquisa ao fim de algum tempo. Se, no entanto, precisa urgentemente de remover conteúdo indesejado que foi indexado pelo Google e não pode esperar até que desapareça naturalmente, poderá utilizar a nossa ferramenta de remoçao de URLs para acelerar a remoção de conteúdo dos nossos resultados de pesquisa, desde que satisfaçaa determinados critérios (que apresentaremos a seguir). 

Temos uma série de mensagens do blogue alinhadas para si que explicam como remover com éxito vários tipos de conteúdo e erros comuns a evitar. Nesta primeira mensagem, abordarei alguns cenários básicos: a remoção de um único URL, a remoção de um diretório inteiro ou site e a reinclusão do conteúdo removido. Recomendo vivamente a nossa anterior mensagem sobre como gerir que informações sobre si são disponibilizadas on-line.


 

Remoção de um único URL    

 

De um modo geral, para que os pedidos de remoção tenham êxito, o proprietário do(s) URL(s) em questão (quer seja você ou outra pessoa) deve ter indicado que concorda com a remoção desse conteúdo. Para um URL individual, isto pode ser indicado de um dos seguintes modos:

 

1. bloquear a indexação da página através de um ficheiro robots.txt (inglês)

2. bloquear a indexação da página através da metatag “noindex” (inglês)

3. indicar que a página já não existe devolvendo um código de estado 404 ou 410 (inglês)

 

Antes de enviar um pedido de remoção, poderá verificar se o URL está devidamente bloqueado:


1. robots.txt: pode verificar se o URL está corretamente bloqueado utilizando as funcionalidades Obter como Googlebot ou Testar robots.txt nas Ferramentas para o Webmaster do Google. 

2. metatag “noindex”: pode utilizar a funcionalidade “Obter como Googlebot” para verificar se a metatag aparece algures entre as etiquetas <head> e </head>. Se pretende verificar uma página que não consegue confirmar nas Ferramentas para o Webmaster do Google, pode abrir o URL num navegador, aceder a Ver > Fonte da página e verificar se vê a metatag entre as etiquetas <head> e </head>.

3. código de estado 404/410: pode utilizar a funcionalidade “Obter como Googlebot” ou ferramentas como Live HTTP Headers ou web-sniffer.net para confirmar se o URL está a devolver o código correto. Páginas "eliminadas" apresentam, por vezes, "404" ou "Não encontrado" na página, mas devolvem de facto um código de estado 200 no cabeçalho; por isso, é boa ideia utilizar uma ferramenta de verificação de cabeçalhos apropriada para verificar novamente.


Se o conteúdo indesejado tiver sido removido de uma página, mas esta não tiver sido bloqueada por nenhum dos métodos indicados acima, então não se vai conseguir remover completamente esse URL dos nossos resultados de pesquisa. Isto é muito comum quando não é o proprietário do site que aloja o conteúdo. Abordaremos esta situação na Parte II da nossa série sobre remoções.

Se o URL cumprir um dos critérios acima, pode removê-lo visitando http://www.google.com/webmasters/tools/removals, introduzindo o URL que pretende remover e selecionando a opção ‚”O webmaster já bloqueou a página”. Nota: deve introduzir o URL da localização onde o conteúdo estava alojado e não o URL da pesquisa Google em que aparece. Por exemplo, introduza

 

  http://www.example.com/embarrassing-stuff.html

 e não

  http://www.google.com/search?q=embarrassing+stuff

  


Remoção de um diretório inteiro ou site 

 

Para que a remoção de um diretório ou site tenha éxito, o diretório ou site deve estar bloqueado no ficheiro robots.txt do site em questão. Por exemplo, para remover o diretório http://www.example.com/secret/, o ficheiro robots.txt terá de incluir:

  User-agent: *

  Disallow: /secret/

 

Não basta que a raiz do diretório devolva um código de estado 404, porque um diretório pode devolver um código 404 e continuar a apresentar ficheiros abaixo dele. A utilização do robots.txt para bloquear um diretório (ou um site inteiro) garante que todos os URLs por baixo desse diretório (ou site) também são bloqueados. Pode testar se um diretório foi corretamente bloqueado utilizando as funcionalidades “Obter como Googlebot” ou” Testar robots.txt “nas Ferramentas para o Webmaster do Google. 

Só proprietários confirmados de um site podem solicitar a remoção de um site ou diretório inteiro nas Ferramentas para o Webmaster do Google. Para solicitar a remoção de um diretório ou site, clique no site em questão e, em seguida, aceda a Configuração do site > Acesso do motor de rastreio > Remover URL. Se introduzir a raiz do site como o URL que pretende remover, ser-lhe-á solicitado que confirme se pretende remover todo o site. Se introduzir um subdiretório, selecione a opção "Remover diretório" no menu pendente.

 


Reinclusão de conteúdo 

 

Pode cancelar pedidos de remoção de sites de que é proprietário em qualquer altura, incluindo os enviados por outras pessoas. Para tal, tem de ser um proprietário confirmado do site nas Ferramentas para o Webmaster do Google. Após a confirmação, pode aceder a Configuração do site > Acesso do motor de rastreio > Remover URLs (ou > Solicitado por outros) e clicar em ‚”Cancelar”‚ junto aos pedidos que pretende cancelar.

 


Continua com dúvidas? Não perca o nosso próximo artigo sobre remoção de conteúdo dos resultados de pesquisa do Google. Se não pode esperar, muito tem sido escrito no nosso Fórum de Ajuda acerca da remoção de URLs e da resolução de problemas de casos específicos. Se continuar com dúvidas depois de ter lido as experiências de outras pessoas, não hesite em perguntar. Repare que, na maioria dos casos, é difícil dar conselhos relevantes acerca de uma remoção específica sem conhecer o site ou o URL em questão. Recomendamos que partilhe o URL utilizando um serviço de redução de URLs para que o URL que o preocupa não seja indexado como parte da sua mensagem; alguns serviços de redução de URLs até lhe permitem desativar posteriormente o atalho, uma vez resolvido o problema.

 

Adaptado do artigo " URL removal explained, Part I: URLs & directoriespor Susan Moskwa, Webmaster Trend Analyst,  Terça-feira, 30 de março de 2010 às 14:38

Comments