a web oculta



 A Web que poucas ferramentas enxergam


Um espaço informacional na Web seria 500 vezes maior do que aquele ao qual podemos ter acesso pelo uso das ferramentas de busca mais populares como o Yahoo! e o Alta Vista.  

Neste artigo, pretendo aprofundar um pouco mais a descrição desse espaço informacional, demonstrando sua riqueza, sua utilidade e também discutindo o porquê do termo Invisível não ser o mais adequado para caracterizá-lo.

A Estrutura da Web
A Web é um espaço informacional composto essencialmente por textos armazenados em servidores espalhados por todo o planeta. Para ter acesso a um de tais textos, desde o início da história da Web, é necessário saber exatamente o endereço do servidor que o contém e o diretório desse servidor no qual ele está guardado. Esse parâmetro de localização contendo endereço e diretório é conhecido como URL (Uniform Resource Locator) e geralmente tem a forma http://www.servidor.dominio/diretorio/texto.htm 

Com o espantoso crescimento da Web nas últimas décadas do século passado, tornou-se inviável para qualquer usuário localizar um texto sempre pelo conhecimento prévio de seu URL.  Para resolver tal problema, surgiram as ferramentas de busca.  

Primeiro surgiram os precursores dos atuais catálogos (directories) como o Yahoo!, que dependem de mão-de-obra humana para selecionar e organizar os sites encontrados. Quando a Web ainda contava com uns poucos sites, os catálogos eram ferramentas relativamente eficientes para quem quer que procurasse informação.

Mas a Web cresceu e o processo de seleção e catalogação humana se tornou por demais lento.  Foi quando surgiram os primeiros sites de busca (search engines), ferramentas automáticas que varrem a Web periodicamente à busca de novos documentos para arquivá-los em um enorme banco de dados chamado índice.  Quando um usuário utiliza um motor como o Alta Vista, é nesse índice que é feita a pesquisa e não diretamente na Web.

Motores e suas limitações
Apesar de sua eficiência em relação aos catálogos, mesmo os melhores motores de busca são incapazes de arquivar toda a informação existente na Web, o que se torna ainda mais sério quando levamos em conta que a Web não pára de crescer.

Outro problema relacionado aos motores é o fato de que, atualmente, há muito mais na Web do que apenas texto. Fotos, programas de computador, filmes e bancos de dados formam uma riqueza de informação que nem todos os motores estão preparados para localizar e indexar.

Sendo assim, podemos dizer que parte do conteúdo existente na Web está mesmo invisível, mas apenas para os motores que são incapazes de encontrá-lo.  

Felizmente, há ferramentas que permitem acesso a parte desse conteúdo, como o Google, um excelente motor que tem sido continuamente aperfeiçoado para localizar fontes de informação cada vez mais diversificadas.

Invisível ou Oculta?
O termo invisível traz a conotação de que algo pode estar completamente inacessível, mas, como visto, nem toda a informação na Web está de fato fora de alcance. Basta que saibamos qual ferramenta usar para localizá-la.  Melhor seria, portanto, dizer que existe uma significativa parte da Web que está oculta para os motores de busca mais populares.

Mas existe de fato uma Web que poderia ser chamada de Invisível.  Ela é composta principalmente de bancos de dado aos quais o acesso é permitido apenas mediante pagamento e/ou inscrição.  Por serem guardados em diretórios protegidos por senha, eles se encontram fora do alcance dos motores de busca.

Profunda
O termo Web Profunda de certa forma também está relacionado a uma limitação de muitos motores de busca - o fato de eles não varrerem todo o conteúdo de um site.

Como dito anteriormente, os textos da Web costumam estar armazenados em diretórios de modo bastante semelhante à forma como guardamos textos em pastas em nossos PCs.  Uma pasta (diretório) pode conter outras pastas e assim por diante em uma relação de inclusão que pode alcançar vários níveis de profundidade.  O fato relevante é que os motores de busca nem sempre são programados para fazer uma pesquisa em profundidade nos servidores da Web e param em determinado nível.  O que estiver além dele não será encontrado nem indexado e, portanto, estará fora de alcance para o usuário.

Vale o esforço?
Se é tão complexa a organização da Web e se as ferramentas de sites de busca capazes de buscar a informação nela
existente apresentam limitações, será que vale o esforço de procurá-la?  Que valor tem essa informação oculta ou profunda que justifique a criação de ferramentas específicas (como o Invisible Web) e o aperfeiçoamento de outras apenas para localizá-la?

A resposta é fácil: essa informação tem um valor enorme.  E por pelo menos dois motivos:

  • ela é em boa parte gratuita, ou seja, está lá para usarmos quando necessário e sem custo;
  • ela costuma ter mais qualidade e ser mais relevante em relação ao que está disponível na Web Visível ou Superficial.

Boa parte da informação da Web Oculta ou Profunda está em bancos de dados de organizações governamentais, instituições de ensino e pesquisa e constitui fonte utilíssima e de qualidade

para pesquisa bibliográfica.  

Além disso, essa informação geralmente existe em bancos de dados específicos para determinadas áreas do conhecimento (Medicina, Psicologia, Filosofia, Engenharia etc), o que a torna mais relevante para pesquisadores dessas áreas. 

Concluindo
Tendo em vista o volume de informação gratuita, de qualidade e relevante disponível na Web Oculta ou Profunda, podemos concluir que todo pesquisador e estudante deve conhecer as formas que dão acesso a ela.

Fonte:
ARAÚJO, J.P. Invisível, Oculta ou Profunda? - A Web que poucas ferramentas enxergam, Disponível em: <www.comunicar.pro.br/artigos/weboculta.htm






O que é Web Oculta?

* Difícil de definir
* Também conhecido como "web profunda" e "web oculta"
* Conteúdo rico de banco de dados de universidades, bibliotecas, organizações, empresas e governo

Apenas 16 por cento da informação na web pode ser localizada através de um motor de busca em geral. Os outros 84 por cento é o que é referido como o invisível na Web composto de informações armazenadas em bases de dados. Diferentemente das páginas na Web visível, a informação em bases de dados é geralmente inacessível ao software aranhas e indexadores que compilar índices motor de busca. Como a tecnologia melhora a Web, mais e mais informações estão sendo armazenadas em bases de dados que alimentam as páginas da Web geradas dinamicamente

O que está escondido na Web oculta?

   
* Coisas que crawlers e motores de busca não pode alcançar ou não pode indexar ou adicionar normalmente
          Informação que reside em uma Intranet.
          Recursos de domínio ou limitações IP.
          Sites robot.txt usando um arquivo para manter os motores de busca.
          Dados em tempo real (cotações da bolsa, previsão do tempo, esportes, resultados eleitorais, etc)
          Graficos (exceto através da tag ALT).
          Arquivos (jornal).
          O conteúdo de arquivos PDF e outros tipos de arquivo (por exemplo:. Doc,. Xls,. Ppt, flash, streaming media, etc)
          O conteúdo dos sites que exigem o registro ou login.
          Páginas geradas dinamicamente (por exemplo: CGI, ASP, CFM), onde os dados são solicitados por uma forma.


     Dois sites de busca agora Indexão arquivos Adobe PDF
        
 http://www.google.com   http://www.searchtools.com/info/pdf.html


Entendendo melhor a Web Oculta



Não há um verdadeiro acordo entre os especialistas sobre o tamanho da Web Oculta.
    
A Web Oculta é cerca de 500 vezes maior do que a web de normal(superfice) e de crescimento mais rápido.
  
  2-50 vezes maior do que a Web visível

Web Oculta escondida em partes

  
Encontrando Recursos na Internet motores e sites de busca não pode ver a Hidden Web (Web Oculta) em 4 partes
        
 
A web Opaque, A web Privada,
O proprietário da web, O Hidden
Opaque Web

    * Profundidade de rastreamento, índice de todas as páginas web oculta.
    * Freqüência de rastreamento, os indexadores mais poderosos pode vasculhar apenas cerca de 10 milhões de páginas por dia.
    * O número máximo de resultados visíveis.
    * Desligar URLs, URLS invalidas com o erro 404 por exemplo.

Web Privada

    * Protegidas por senha
    * Use "file" robot.txt para evitar o rastreamento
        a cada sub-diretório em um site pode ter um tal arquivo "robot.txt
        Um exemplo: <META NAME="ROBOTS" CONTENTS="NOINDEX,NOFOLLOW">
     * "Noindex" tag meta aranha impede de ler após a seção principal da página web
         
Proprietário da Web

    * Registo obrigatório
         
alguns são gratuitos

                + Http://www.archivescanada.ca/english/index.html
         
alguns são pagos

                + Http://www.britannica.com/

Web verdadeiramente oculta

    * Motivos técnicos, crawlers não conseguem encontrar ou entrar na página web.
    * Motores de busca podem ter optado por omitir a página web.
    * Páginas geradas dinamicamente pela web.

Por que usar a web oculta?

    * Qualidade do conteúdo / nível superior de autoridade
    * Abrangência
    * Foco
    * Oportunidade
    * O material não está disponível em outros lugares na web


Quando usar o Web oculta?

    Quando motores e sites de busca normais(Standard) como o google, yahoo, altavista não estão funcionando.
  
 * A resposta precisa é necessária
   
* Dados e estatísticas são necessários
  
 * Alta qualidade ou resultados de autoridade são necessários


Estratégias de Busca na Web Oculta

   
* Tenha a mentalidade de um caçador, detective ou apaixonado colecionador
  
 * Use os motores de busca para chegar à porta da frente
          o "banco de dados pesquisáveis"
          o banco de dados "interativo"
  
 * Use o mapa do site para ver se bancos de dados ou estatísticas são mencionados
  
 * Use a ferramenta de site de busca interna e busca de "banco de dados"
 
  * Verifique assunto grupos de discussão específicos


Como Pesquisar na Web Oculta


A World Wide Web está crescendo a uma taxa enorme que desafia a compreensão, e esta é apenas a parte que podemos medir. Além de tudo há todo um reino de informação que é impossível catalogar e quantificar. Tudo o que não é catalogada e indexado hoje pelos motores de busca é chamado de web oculta ou, web Äúdeep., AU O que sabemos e podemos encontrar facil é essencialmente uma pequena fração do que está lá fora na World Wide Web.

Há um ditado, águas paradas são profundas. Mas na verdade, estas águas são extremamente profundas. A Web profunda é uma magnitude maior do que a web catalogadas e indexada, está em constante mutação e crescimento.

Para vasculhar a web oculta você pode fazer sozinho com metodos especiais de busca usando strings personalizados nos sites de busca ou
usando softwares um deles que eu conheço é o Mozenda um instrumento notável que é capaz de ir muito além dos limites e capacidades dos motores de busca convencionais para vasculhar a web oculta. Usando vários servidores e state-of-the-art sistemas de software para implantar exércitos simultânea de robôs, e uma tecnologia de patente pendente, o desconhecido se torna conhecido e utilizado para fins comerciais.

Web Mining

Olhe para a infinidade de sites na internet. Você pode supor que os dados recolhendo deles era impossível. técnicas de mineração de Web permitem que as empresas utilitze feeds RSS e outros dados que é público, apenas um pouco difícil de detectar.

Web de mineração, às vezes chamado de web raspagem, raspagem da tela, envolve olhar para os dados que sua empresa precisa para garantir a sua segurança ou para promover seus produtos de forma eficaz. O fluxo de dados pode ser esmagador, sem um serviço web de mineração. A chave é identificar o tipo de informação.


Downloader Web Site Programas

Web site para baixo carregador programas são capazes de copiar sites inteiros ou apenas as informações que você está procurando. Ter uma ferramenta dessa natureza significa que você pode copiar páginas inteiras ou outros diretórios para uso posterior para a sua empresa. Como a criação de ligações, comparações de preços de preços dos concorrentes, ou o desenvolvimento de campos de marketing. Os proprietários do negócio, policiais, hospitais e empresários têm usado site baixar programas para ser capaz de extrair uma grande quantidade de dados de forma rápida e eficiente, com menos erros. Um programa como esse, você economiza tempo e dinheiro.

profunda motores de busca na Web

Buscando através da Deep Web

A World Wide Web cresce quase como se fosse uma criatura viva. À medida que expande e contrai a cada dia uma grande parte da Internet não está actualmente indexado motor de pesquisa. motores de busca Deep web está tentando corrigir isso. Um rastreador de dados, também conhecido como um robô Internet ou bot Web, é capaz de pesquisar na Internet automaticamente. motores de busca da web Deep utilizar esta tecnologia de pesquisa através de sites que de outra forma não seriam vistos pelos olhos humanos, como um ser humano é incapaz fisicamente para ler cada website na Internet. Com este tipo de sistema de motores de busca da web profunda fazem incursões indexação da web.

Web Grabber

Um agarrador web é um grande momento de poupança ferramenta que muitos gerentes de dados não poderia viver sem. Eficiência vai crescer exponencialmente quando um programa de captura de web é usado para recuperar e armazenar dados. Um agarrador web é um software que permite a entrada de um conjunto de parâmetros para enviar um web crawler para fora para procurar um registro páginas web que satisfaçam os critérios. Uma vez que as páginas são encontradas, a informação é puxado a partir do código e colocar em um formato mais útil para o usuário. Os formatos mais comuns são o teste, Excel, CSV, Access e SQL. Usando o grabber web permite que uma pessoa se concentrar no trabalho e não dallying com pesquisas.

Screen Software de desmantelamento

Tela software demolição permite você raspar e extrair dados de múltiplos sites. O programa é capaz de capturar grandes quantidades de dados e informações e compilá-lo em formatos de fácil utilização. Para qualquer empresário que tenha os dados necessários como este e passou horas copiando e colando para fazê-lo, sabe o que é uma ferramenta valiosa tela de demolição software deve ter. agências policiais, empresários, e até mesmo hospitais podem usar grandes quantidades de dados desta natureza e compilá-lo facilmente em arquivos úteis.


Você está olhando para a web profunda invisível?

Você está olhando para a web profunda web invisível?

Você está procurando por motores de busca profunda web web invisível?

Você está procurando profundo escondido invisível?

Você está olhando para a web invisível escondido?

Você está olhando para a web invisível escondido web motores de busca profunda web?

Você está procurando a web escondida invisível?

Você está olhando para a web invisível ou profunda?

Você está olhando para a mineração web invisível?

Você está procurando online pendente invisível ou desconhecida?

    * Mashup Camp ferramenta de geração de leads
    * Geração de Leads Noobpreneur
    * Peer to Peer Web Data Transfer Web
    * Download do Mozenda



http://knowledgediscovery.files.wordpress.com/2009/04/brain_interpreter2.jpg

Localizando sites na Web Oculta

1. Pesquisar (no Google, etc) "procura X" ou "banco de dados X". X é muitas vezes um supercategory do que você está realmente procurando.
2. Motor de busca de motores de busca: E, G, Search Engine Guide. Ru e Horowitz tem uma lista de 24 outros, alguns dos quais não são ainda existentes.

Classificando como páginas web sites invisível,  Pré-consulta: J. Cope, N. Craswell, D. Hawkings "descoberta automática de interfaces de busca na web". Saiba um classificador (árvore de decisão de C4.5) para saber as características de uma página web profunda consulta. Precisão = 87%, lembre-se = 85%.


Passo 1: rastreamento de domínio específico para coletar as formas de consulta candidato.
Comece com 10.000 categorias de nível 5 topo da hierarquia do Google.
Para cada categoria, recolher 200 páginas e 20 palavras-chave relevantes.
Em cada página, faça um rastreamento em largura de páginas HTML no mesmo local: a distância máxima = 8, o número máximo de páginas = 1000.

Passo 2: Para cada rastreado página, verificar se esta é uma forma queryable com entrada de texto usando os recursos do HTML. Em caso afirmativo:

Passo 3: Executar prober consulta. Preencha o texto não-valores (botões, menus drop-down, etc) de forma aleatória. Para campos de texto, tente dois experimentos:
A. Preencha os valores com palavras-chave de domínio.
B. Preencha os valores com a corda absurdo.

Se a página é uma forma de consulta verdade escondida web, então você esperar para ver:

    
* Todas as respostas às cordas têm comprimento semelhante disparate (desvio padrão de menos de 5%).
    
* Pelo menos 80% das respostas às seqüências de domínio são pelo menos 3 vezes mais do que respostas às cordas nonsense
    
* Pelo menos 80% das respostas às seqüências de domínio tem um "sub maior diferença" (presumivelmente com o conteúdo) de pelo menos 1 KByte.

Resultados: Collected 4800 páginas de consulta escondida web.
Categorizar o assunto dos sites invisíveis
Pré-consulta: Usar os recursos da página de consulta.
Pós-consulta: Preencha a página de consulta e utilização dos recursos de respostas.
No entanto, os documentos citados na Ru e Horowitz sobre isso não é realmente muito interessante.
Indexação de sites web invisível conteúdo offline
Gatinha na Web Oculto (Raghavan Sriram, Hector Garcia Molina)

HiWE: Exposer Hidden Web

Analisar a forma em elementos de formulário.
tipo de elemento Form =, etiqueta, de domínio
lista de seleção Tipo =, caixa de texto área de texto, checkbox, ou botão de rádio.
Label = etiqueta elemento por exemplo, "O nome da empresa". "Estado" etc
Domínio = conjunto de valores. Por exemplo, (IBM, Microsoft, Intel ...) ou (Alabama, Alaska ...)
Necessidade de interpretar o layout físico da forma, rótulos associar elementos formam nas proximidades. Metatags ajudaria, só que ninguém usa. LITE (Layout baseado em Extracção de Informação)

Tarefas específicas de banco de dados tem conhecido valores relevantes para a consulta. Estas são (a) determinado pelo usuário, (b) built-in (campos de data, por exemplo, o campo do estado), (c) extraídas com invólucro de fonte de dados (ou tarefa específica (Semiconductor Research Corporation) ou geral (Yahoo)); (d) extraídas de forma (rótulos e valores).

Matcher preenche formulário. Localiza próximo nome da etiqueta padrão para formar o rótulo. Ou enumera valores indicados no formulário, ou enumera os valores associados com etiqueta na base de dados.

analisador de resposta salva respostas (excluindo os fracassos), ajusta os pesos em relação ao valor da etiqueta. (Se uma consulta dá o fracasso, em seguida, reduzir o peso de cada um dos valores usados).

métricas de avaliação
Métrica 1: número de submissões bem sucedidas (resposta obtida) / número total de submissões.
O problema é que esta situação prejudica HiWE se a pergunta era pertinente e adequado, mas o banco de dados simplesmente não acontecer de ter qualquer informação sobre ele. Ou seja, HiWE é suposto ser clarividente.
Metric 2: número de submissões semanticamente correto (consulta de forma significativa) / número de total submissão. Justa medida, mas requer avaliação manual.
Resultados
A taxa de sucesso aumenta em função dos elementos por formulário. Sobre todas as formas com pelo menos 2 elementos, 78,9% das consultas em 1 métricas corretas. Em formulários com pelo menos 5 elementos de 90% em 1 de métricas corretas.
Na extração automática de dados da Web Hidden Stephen W. Liddle, Sai Ho Yau, e David W. Embley

Não tente usar os elementos do texto, apenas elementos finitos com muitos valores (botões, menus, etc) Suponha que, se você deixar elemento de texto em branco, ele irá corresponder a todas ou muitas possibilidades, nem sempre é verdade, claro.

Principais resultados: Para a maioria dos tais sites, desnecessário tentar todas as combinações dos valores finitos. Forma sistemática (amostragem estratificada) para gerar uma seqüência de combinações e uma condição de suspensão de modo que, se um número significativamente menor de consultas receberá todas as informações, seguir esta estratégia é provável obter todas essas informações com muitos menos do que todas as combinações possíveis .
Descoberta Automática de Informação do "Invisible Web" King-Ip Lin e Chen Hui.

breve artigo, alguns detalhes não muito convincente, mas a arquitetura interessante.

    
* Criar um banco de dados mecanismo de busca. Descrição das meta-tags, âncoras inlinks, o conteúdo.
    
* Consulta de pré-processamento. Ampliar a consulta adicionando termos relacionados de pesquisa do Google na web.
    
* Seleção do Search Engine: consulta de partida para pesquisar descrição do motor.
    
* Encaminhar consulta aos motores de busca e fundem.

Outras questões

    
* Aprender a linguagem de consulta (operadores booleanos, etc)
    
* Consulta reformulação

motores Metasearch
Construindo eficiente e eficaz motores de metabusca Weiyi Meng, Clement Yu, e King-Lup Liu, ACM Computing Survey, vol. 34 não. 1 de Março de 2002, pp. 48-89. (Não é um papel muito bom, mas não cobrem os principais pontos e tem uma boa bibliografia.)
Visão global
Um motor de metabusca envia uma consulta de usuário a uma coleção de motores de busca (geral ou especializado motores de busca), combina as respostas e as apresenta ao usuário. Aplica-se principalmente para motor de pesquisa no sentido de um programa que retorna uma lista ordenada de páginas web com trechos.

    
motores de busca * Offline: recolher e classificar.
    
* Com base em uma consulta:
          
Selecione o apropriado motores de busca. Escolha o número de documentos para recuperar a partir de cada motor.
          
consulta Reformular o idioma para corresponder motor de busca
          
° Identificar as duplicatas
          
Ou calcular o ranking fundidos ou cluster (ou ambos).
          
trechos de o marcar ou combinar.
          
o Presente
    
* Server-based vs baseada no cliente (por exemplo, Turbo10). A vantagem baseada no cliente é que você pode começar a apresentar resultados antes de todos os motores de busca têm retornado.
    
* Trabalho a partir de página de resultados contra download dos documentos reais retornados.


Em particular, o estudo afirma que o tamanho da "Web oculta" é de 500 bilhões de páginas, em comparação com 'apenas' dois bilhões de páginas da web comum.






Comments