1 - zoeken op het web

Inleiding

Voor veel vragen is het antwoord op het web te vinden; de vraag is echter, hoe je de relevante en betrouwbare informatie kunt vinden, liefst ook nog op een efficiënte manier. Zoeken op het web kan veel tijd kosten, zowel vanwege het soms moeizame zoekproces, maar ook door de grote afleiding: enkele zoekresultaten zijn misschien niet relevant voor het oorspronkelijke doel, maar wel interessant voor de zoeker.

Enkele manieren om informatie te zoeken op web zijn:

via een encyclopedie of woordenboek, zoals Wikipedia
via een directory, zoals Startpagina;
via een zoekmachine, zoals Google

Er zijn nog meer manieren om informatie te zoeken op het web. Elk van deze manieren heeft zijn specifieke voor- en nadelen.

Soorten zoekproblemen

We kunnen verschillende soorten zoekproblemen onderscheiden, bijvoorbeeld:

Zoeken naar een feit (wat waar is, onafhankelijk van tijd en plaats);
Zoeken naar nieuws – bijvoorbeeld over een nieuwe film;
Zoeken naar de dichtstbijzijnde bioscoop;
Zoeken naar prijzen, producten, winkels; vergelijken van producten en prijzen;
Zoeken naar een specifieke persoon, bedrijf, enz.;
Zoeken naar regelgeving van de overheid die voor jou relevant is;
Zoeken naar geschikte illustraties voor een presentatie;
Zoeken naar de namen van politici die tegen bezuinigingen op het onderwijs zijn;
Zoeken naar een muziekstuk met een bepaalde melodie (die je kunt zingen of fluiten);
…

Deze lijst is verre van uitputtend. De grote verscheidenheid aan zoekproblemen geeft in ieder geval aan dat er waarschijnlijk niet een enkele zoekmethode is die voor al deze verschillende problemen de beste oplossing vormt. Voor al dit soort van zoekproblemen zijn er oplossingen op het web te vinden. Het loont vaak de moeite om na te gaan wat voor het huidige zoekprobleem een goede methode is.

Een belangrijk aspect van een zoekprobleem is wat je met het resultaat gaat doen. In sommige gevallen helpt het zoeken je bij het doen van een keuze, bijvoorbeeld voor een vakantie; in dat soort gevallen willen zoekmachines je soms nog wat extra keuzes aanbieden, bijvoorbeeld in de vorm van advertenties. Wat je uiteindelijk met het resultaat wilt doen bepaalt vaak mede de keuze voor een bepaalde zoekmethode, en, in het geval van zoeken met een zoekmachine, de keuze van de zoekmachine en de formulering van de zoekopdracht.

Hulpmiddelen voor zoeken op het web

Wikipedia: zoeken naar feiten, definities, beschrijvingen

Hoewel in het algemeen de resultaten van Wikipedia erg betrouwbaar zijn, geeft Wikipedia hiervoor absoluut geen garantie: immers, iedereen kan een Wikipedia pagina aanpassen. Het is dus altijd aan te raden om de resultaten van Wikipedia kritisch te bekijken, en waar mogelijk en nodig een tweede bron te raadplegen.

Directories - Startpagina, Open Directory

Een directory bevat verwijzingen naar andere webpagina's, volgens een bepaalde structuur ("per onderwerp"). Een voorbeeld van een directory is Startpagina. Op het internet zijn veel andere directories te vinden; één van de omvangrijker projecten op dit gebied is Open Directory (http://www.dmoz.org/, zie ook http://www.dmoz.org/about.html).

Zoekmachines - Google, Yahoo, Bing, Wolfram|Alpha

Er zijn verschillende zoekmachines beschikbaar, waarvan Google waarschijnlijk wel de bekendste is. Deze zoekmachines verschillen bijvoorbeeld wat hun doel betreft; sommige proberen direct een antwoord op een vraag te geven, andere geven een lijst met webpagina's die mogelijk het relevante antwoord bevatten.

Hieronder gaan we verder in op de verschillende zoekmachines, en op enkele van de onderliggende principes.

Hoe beoordeel je een resultaat op relevantie en betrouwbaarheid?

Bovenstaande methodes geven je soms een direct antwoord, maar in veel gevallen krijg je een lijst met webpagina's die mogelijk een juist antwoord bevatten. Hoe beoordeel je de resultaten? Aan welke eisen moet een resultaat voldoen?Relevantie. In de eerste plaats moet dit relevant zijn: het moet een bruikbaar antwoord op de gestelde vraag vormen, of in ieder geval helpen om een goed antwoord te vinden. Vaak is er nog wat extra werk nodig.Betrouwbaarheid. In de tweede plaats moet het resultaat betrouwbaar zijn: op het web is niet alles wat het lijkt; evenmin overigens als in de niet-digitale wereld: wat in de krant staat, of op de televisie gezegd wordt, is ook niet noodzakelijk waar.In veel gevallen kun je geen absolute maat van relevantie geven; veelal is een website een eerste stap in het spoor naar de informatie die je zoekt, en weet je pas na enkele stappen of het pad de goede kant op gaat. Het is meestal wel mogelijk om de relatieve relevantie van websites te bepalen.(Oefening: voer een zoekopdracht uit met een bepaalde zoekmachine die meerdere sites als antwoord geeft; bepaal voor de eerste 10 sites of deze relevant zijn - geef aan hoe snel kom je tot die conclusie komt, en op grond waarvan? Hoeveel extra "clicks" had je nodig om tot die conclusie te komen?)Soorten websites

Tip - bereid zoeken voor

Een goede voorbereiding kan je veel tijd schelen. Denk daarbij aan de volgende punten.

* Wat wil je weten, en wat wil je met het antwoord doen? Wat voor soort antwoord verwacht je?

* Welke middelen kun je het best gebruiken?

* Hoeveel tijd wil je aan de zoekopdracht besteden?

* Houd bij het zoeken te tijd in de gaten; blijf niet te lang op een interessant zijspoor - kies snel een ander spoor, of gebruik een andere manier om te zoeken.

* Soms is het handiger om iemand anders te vragen - dat kan ook via het internet.

Bij het beoordelen van het resultaat, en eigenlijk al eerder bij het formuleren van de zoekopdracht, is het goed om te weten dat er verschillende soorten websites zijn, die met verschillende doeleinden gemaakt zijn. Dit kan je helpen bij het beoordelen van de relevantie en in het bijzonder, bij het beoordelen van de betrouwbaarheid van het resultaat.Bij het beoordelen van een website kun je onder andere de volgende vragen stellen:

van wie is deze website?
met welk doel is deze website gemaakt?
val ik in de doelgroep van deze website? zo ja, wat wil de maker van deze website van mij?
welke reclames zijn te vinden op de websites? wat is het doel van die reclames?
wat is het taalgebruik op de website?
wat is de vormgeving op de website? wat is de functie van de vormgeving?

Enkele voorbeelden van soorten websites die je tegen kunt komen:

nieuwssites (kranten-sites; nu.nl; ...): het doel is het brengen van actueel nieuws, soms met achtergrondinformatie.
- In principe staat betrouwbaarheid bij nieuwssites hoog in het vaandel; maar dit komt soms onder druk te staan door de drang naar "vers nieuws", in het bijzonder nieuwsprimeurs; en bij sommige sites, door nieuws als een vorm van vermaak te zien;
- dit soort sites kenmerkt zich meestal door een grote hoeveelheid reclame, die niet noodzakelijk een direct verband met het gepresenteerde nieuws vertoont; in dit opzicht lijkt zo'n site op een krant.
verkoopsites (webwinkels, vgl. Amazon en vele andere; eBay en andere veilingsites): het doel is om bepaalde artikelen te verkopen;
- de informatie over deze artikelen is niet altijd objectief, omdat de verkoper ook een belang heeft bij de verkoop; in sommige gevallen probeert de verkoper het oordeel van derden (andere klanten, naar het schijnt) te gebruiken om de waarde van een artikel te beoordelen.
- vaak is er geen andere reclame dan die direct op de aangeboden artikelen betrekking heeft.
vergelijkingssites: meerdere aanbieders van eenzelfde dienst of product worden vergeleken.
organisatiesites: de aanwezigheid van de organisatie of het bedrijf op het internet. Voor sommige bedrijven zijn er meerdere sites, bijvoorbeeld één voor klanten, en één voor mensen die met het bedrijf zelf in contact willen komen - bijvoorbeeld om samen te werken, informatie voor beleggers, enz.
- overheid (geen reclame)
- bedrijven (geen reclame - anders dan voor het bedrijf zelf)
- verenigingen, stichtingen, enz. (soms reclame - om de vereniging
wetenschappelijke sites: sites die wetenschappelijke informatie proberen te bieden, bijvoorbeeld in de vorm van wetenschappelijke publicaties. Dit is ongeveer het equivalent van het wetenschappelijke tijdschrift. Meestal bevat zo'n site geen reclame.
- net zo goed als er populair-wetenschappelijke tijdschriften zijn, zijn er ook populair-wetenschappelijke sites.
websites voor een duidelijke doelgroep of belangengroep (bijvoorbeeld: http://www.ravelry.com)
persoonlijke sites (persoonlijke websites, tegenwoordig vaak persoonlijke blogs)
- deze kunnen vaak erg relevante informatie bevatten, maar deze informatie is niet noodzakelijk objectief en betrouwbaar - zelfs als de aanbieder geen duidelijk belang heeft bij het aanbieden van informatie met een bepaalde kleuring ("bias").

Let wel, dit is geen harde classificatie van websites, zo die al te maken valt; het is een hulpmiddel om een website te beoordelen in relatie tot de eisen van relevantie en betrouwbaarheid.

Soms word je doelbewust misleid, en lijkt een website bijvoorbeeld (populair-) wetenschappelijke informatie te bieden, terwijl deze duidelijk ingegeven is door de belangen van een bepaald product.

(Opgave: zoek voorbeelden van dergelijke doelbewuste misleiding.)

Samenvattingen in het zoekresultaat

Zoekmachines geven naast de links (URLs) van de websites vaak iets meer informatie, in de vorm van een zeer beknopte samenvatting van elke website in het zoekresultaat, waarin onder meer de zoekvraag getoond wordt. Deze samenvatting is vaak een belangrijk hulpmiddel om te bepalen hoe relevant de bewuste website is; pertinent irrelevante resultaten kun je zo vaak direct uitsluiten. In de andere gevallen is het nodig om de website zelf te bezoeken (doorklikken) om deze te beoordelen op hun relevantie voor je doel.

Microformats - door middel van het gebruik van microformats probeert Google in een aantal gevallen deze samenvatting van meer adequate informatie te voorzien. (Zie actualiteit.)

Misleidende samenvatting - soms leidt de samenvatting tot conclusies van de lezer ervan, die niet gerechtvaardigd zijn op grond van de oorspronkelijke website. (Zie actualiteit - spraakmakende rechtzaak.)

Het zoeken van relevante documenten (information retrieval)

Precision en recall

Als je een zoekopdracht geeft in Google, zou je graag willen dat alle relevante web sites (of plaatjes) bovenaan staan, en dat de sites allemaal relevant zijn. De ervaring leert dat deze situatie zich zelden voordoet: de meeste relevante sites zijn niet altijd op de eerste pagina met resultaten te vinden, en de eerste pagina bevat waarschijnlijk ook sites die volstrekt niet relevant zijn.Het zoeken van relevante web-pagina's is een voorbeeld van het zoeken van relevante documenten in een grote verzameling documenten (information retrieval). Hierbij zijn twee aspecten van belang: het resultaat moet zoveel mogelijk, liefst alle, relevante documenten bevatten; Dit heet ook wel recall, gedefinieerd als het aantal gevonden relevante documenten, gedeeld door het totaal aantal relevante documenten (dat gevonden zou moeten worden);
het resultaat moet zo weinig mogelijk, liefst geen irrelevante documenten bevatten. Dit wordt vaak aangeduid als precision, gedefinieerd als het aantal relevante documenten in het resultaat, gedeeld door het totaal aantal documenten in het resultaat.

Het deel links van de streep geeft de relevante documenten weer, rechts van de streep staan de irrelevante documenten. Het ovaal geeft het resultaat van de zoekopdracht weer; de punten in het groene deel van de ovaal zijn terecht gevonden, relevante documenten; het rode deel van de ovaal bevat de onterecht gevonden, irrelevante documenten (de bijvangst).

(figuur ontleend aan Wikipedia)

(Zie ook: http://en.wikipedia.org/wiki/Precision_and_recall ) Precision en recall zijn niet onafhankelijk: je kunt bijvoorbeeld een recall van 1 verkrijgen door alle documenten in het zoekresultaat op te nemen, maar dat gaat ten koste van de precision: het resultaat bevat dan wel erg veel irrelevante documenten. Op een vergelijkbare manier kun je vaak de precision verhogen door veel selectiever te werk te gaan, maar daarmee verlies je waarschijnlijk ook een deel van de relevante documenten, waardoor de recall afneemt.Het zoeken naar relevante documenten kun je vergelijken met vissen: je wilt alle exemplaren vangen die een een bepaalde eis voldoen (bijvoorbeeld: soort, lengte), en geen andere vissen (geen bijvangst). Als je alleen visen van een bepaalde grootte wilt hebben, kun je de mazen vergroten, maar daardoor loop je ook de kans dat vissen die net groot genoeg zijn, kunnen ontsnappen.Verschil tussen zoeken op je computer en zoeken op het web

Bij zoeken op het web is het vaak voldoende als je een website vindt, of een document, dat je verder helpt: je zoekt eerder een antwoord op een vraag, dan een specifiek document. Als je op je eigen computer zoekt, wil je meestal een specifiek document terug zien te vinden. In dit laatste geval is het dus veel vervelender als de "recall" niet volledig is.

Bij het zoeken op je eigen computer, of bij het zoeken in alle documenten van een bedrijf, zijn er heel andere criteria waarmee de relevantie van een document beoordeeld moet worden, dan in het geval van het web. Bij het beoordelen van de relevantie van een website speelt voor Google de populariteit van die website, in de zin van het aantal verwijzingen naar die website, een rol ("pagerank"). Bij het zoeken naar een document op je eigen computer is zo'n criterium niet relevant. (Overigens is het ook niet eenvoudig om dit pagerank-criterium uit te werken voor documenten op je eigen computer, omdat deze documenten niet altijd op een eenduidige manier naar elkaar verwijzen.)

Zoekmachines

Tekstueel (letterlijk) zoeken

Als voorbeeld gebruiken we de zoekopdracht [bakker Piet]: we zoeken een bakker die Piet heet. Hoeveel van de resultaten op de eerste pagina zijn relevant, en hoeveel betreffen een persoon met de naam "Piet Bakker"?

Zoekopdrachten geven we hier weer tussen vierkante haken: de tekst tussen de haken is de letterlijke tekst van de zoekopdracht. Soms gebruiken we in een zoekopdracht quotes ("quotes") om een aantal woorden te groeperen; er is dus een verschil tussen [Piet Bakker] en ["Piet Bakker"].

Een van de problemen waar we hier tegenaan lopen is dat we tekstueel niet eenvoudig het onderscheid kunnen maken tussen een eigennaam en een beroep; in het algemeen hebben we problemen met woorden die een dubbele betekenis hebben. Dit probleem is nog groter als sommige betekenissen in een minder nette categorie thuishoren. Overigens heeft Google voor het negeren van minder nette zoekresultaten een "Safesearch" mode ingesteld.

Als we de betekenis van de verschillende onderdelen preciezer kunnen omschrijven, en bijvoorbeeld het verschil kunnen aangeven tussen een beroep en een eigennaam, kunnen we een groot deel van dit soort problemen voorkomen; bovendien kunnen we dan de interpretatie van gegevens op websites laten interpreteren door andere programma's dan zoekmachines. Dit is een van de doelen van het Semantic Web (zie http://en.wikipedia.org/wiki/Semantic_Web).

De samenvattingen die Google maakt suggereren soms verbanden die er niet zijn. (Zie ook bij Actualiteit: Spraakmakende rechtzaak.)

Om enig gevoel te krijgen voor de sterke en zwakke punten van verschillende zoekmachines verdient het aanbeveling om deze voor een aantal verschillende soorten zoekopdrachten te gebruiken. Enkele voorbeelden van zoekmachines:

Yahoo: www.yahoo.com
Wolfram|Alpha: http://www.wolframalpha.com/
Microsoft Bing: http://www.bing.com
Quintura: http://www.quintura.com/
iSeek: http://www.iseek.com

Sommige van deze zoekmachines, zoals Alpha, iSeek en Quintura, werken op een andere manier dan standaard zoekmachines als Google en Yahoo. Het vraagt enige inspanning om deze zoekmachines handig te gebruiken.

Hoe formuleer je een goede zoekopdracht?

Bij het formuleren van een zoekopdracht is het erg belangrijk om je af te vragen wat je met het resultaat wilt doen: vaak is dit resultaat nodig om een bepaalde beslissing te nemen; maar soms wil je alleen graag meer over een bepaald onderwerp weten.

Enkele tips voor geavanceerd zoeken kun je vinden op bijvoorbeeld de tip-pagina's van Google; zie Basisprincipes van Google zoeken:

http://www.google.nl/support/websearch/bin/answer.py?answer=35889

Problemen met zoeken - spelling, synoniemen, homoniemen

De huidige manier van zoeken is vooral gebaseerd op de letterlijke tekst van zowel de zoekopdracht als de webpagina's. Dit geeft een aantal problemen. Een eerste probleem zijn de verschillende spellingsvarianten, gebruik van meervoud of enkelvoud, enzovoorts. Inmiddels zijn de zoekmachines zover gevorderd dat dit probleem voor een belangrijk deel ondervangen is; dit zie je onder meer ook aan de suggesties die je krijgt als je een verkeerde spelling gebruikt in een zoekopdracht.

Een tweede probleem vormt dat van de synoniemen: verschillende woorden gebruikt voor eenzelfde concept. Dit is een lastiger probleem; dit kan deels opgelost worden door de synoniemen in de zoekvraag te gebruiken; ook aan de kant van de webpagina is het soms handig om synoniemen te gebruiken.

Het lastigste probleem vormen de homoniemen: woorden met verschillende betekenissen. Dit kan ook voorkomen in combinatie met eigennamen, vergelijk de naam Bakker en het beroep bakker. Een radicale oplossing voor dit probleem is het gebruik van woorden die een strikt omschreven betekenis hebben; dit is een van de doelstellingen van het Semantic Web. In een webpagina kun je dan een beschrijving geven met behulp van termen met vaste en eenduidige betekenis.

Uiteindelijk gaat de doelstelling van het Semantic Web nog veel verder: het moet mogelijk worden om een belangrijk deel van de interpretatie van de inhoud ook door computers te laten doen, en niet alleen door mensen, zoals in de huidige situatie.

Problemen met zoeken - zoeken van plaatjes, muziek, films

De huidige manier van zoeken is vooral gebaseerd op het gebruik van de letterlijke tekst van een webpagina. Hoe kun je dan zoeken op andere data, zoals plaatjes, films, of muziek? Als we gebruik willen maken van tekstueel zoeken, moeten we zorgen dat er voor elk plaatje, film, of muziekstuk, een tekst is die iets over dat plaatje, die film, of dat muziekstuk zegt. Dit soort beschrijvende data wordt meta-data genoemd.

Een andere aanpak is om speciale zoekmachines te ontwikkelen voor bijvoorbeeld muziek, die gebruik maken van de muziek zelf. Zo zijn er zoekmachines die aan de hand van een gefloten of geneuried wijsje de bijbehorende muziekstukken terug kunnen vinden.

Meta-data en tagging

We gebruiken vaak data die andere data beschrijft:

op een fotoafdruk schrijven we wie er op de foto staan, en wanneer deze foto gemaakt is; bij digitale foto’s is er informatie beschikbaar over het tijdstip dat de foto gemaakt is, soms over de plaats bijvoorbeeld op basis van GPS), en over de fotocamera en de instellingen daarvan. Deze informatie is vaak in dezelfde file te vinden als de foto zelf.
bij de foto’s op de verschillende foto-webpagina’s worden vaak “tags” geplaatst die iets zeggen over de foto, meestal over het onderwerp.
in een MP3-file worden zogenaamde MP3-tags opgenomen, waarin het betreffende muziekstuk, de componist, de uitvoerenden, enx., beschreven worden.
bij de aftiteling van een film wordt beschreven wie er allemaal een bijdrage geleverd hebben aan de film (soms tot en met de catering).
in de media (kranten, internet) zijn beschrijvingen te vinden van films, tv-programma’s, en dergelijke.

Bovenstaande voorbeelden beschrijven data die iets zeggen over andere data. Dit soort data wordt metadata genoemd. Deze metadata vormen vaak een belangrijk hulpmiddel om de beschreven data terug te kunnen vinden, of om de relevantie van de data in een bepaalde context te kunnen bepalen.Deze metadata worden soms samen met de beschreven data opgeslagen, om te zorgen dat de metadata niet zoekraken. Maar dit is niet essentieel: alles wat er te vertellen is over bijvoorbeeld een foto of een film vormt metadata bij die foto of die film, ook als dat ergens anders bewaard wordt.

Een van de voordelen van URLs is dat altijd duidelijk is om welk object het gaat, ook als dit niet direct voorhanden is; het web voorziet in een mechanisme om het object te identificeren, en vaak (als het informatie betreft) ook om het object terug te vinden. (Zie Wikipedia, URN, URL)

Een deel van de metadata kan uit de data zelf afgeleid worden; zo probeert sommige foto-software de gezichten die op de foto's staan te herkennen, en de namen die daarbij horen als metadata toe te voegen.

Een speciale vorm van meta-data vinden we in de zogenaamde "tagging". De inhoud (bijvoorbeeld een foto) wordt daarbij voorzien van een verzameling trefwoorden. Een van de basisideeën achter tagging zoals je dat tegenkomt bij bijvoorbeeld Flickr, is dat mensen het in grote lijnen wel eenzelfde terminologie gebruiken, zonder dat dit heel precies vastgelegd hoeft te worden. Het mag duidelijk zijn dat dit bij vakantiefoto's minder potentiële problemen geeft dan bij medische beelden als röntgenfoto's; in dat geval hebben we precies gedefinieerde meta-data nodig.

Semantic web P.M.

Het huidige web bestaat voor een belangrijk deel uit pagina's die bedoeld zijn voor een menselijke lezer en dus voor menselijke interpretatie. De manier van representatie leent zich in veel gevallen niet goed voor interpretatie door machines. De meeste zoekmachines verwerken de pagina's op een tekstueel (lexicografisch / syntactisch) niveau (zoals uit het bovenstaande voorbeeld blijkt).

Er zijn verschillende manieren waarop de betekenis van gegevens op het internet meer expliciet gemaakt kan worden.

De aanpak die nagestreefd wordt door Tim Berners-Lee, de uitvinder van HTML, en daarmee de grondlegger van het web, is om de betekenis expliciet vast te leggen aan de hand van goed gedefinieerde begrippen: het Semantic Web.

(Semantic web: definitie van basistermen; beschrijving van relaties (3 tupels); redeneren (reasoning).

Basisprincipes van zoekmachines

Om snel een antwoord op een zoekvraag te kunnen geven, werkt een zoekmachine in twee fasen: in de eerste fase, ter voorbereiding van alle mogelijke zoekvragen, loopt de zoekmachine alle toegankelijke webpagina’s af (crawling), bepaalt per pagina wat de mogelijke zoektermen voor die pagina zijn (indexing), en gebruikt deze vervolgens voor het opbouwen van een globale index. Deze index vormt de invoer voor de tweede fase, het beantwoorden van de zoekvragen. Bij behandelen van een specifieke zoekvraag raadpleegt de zoekmachine deze index , en bepaalt daaruit welke pagina’s mogelijk relevant zijn voor die zoekvraag. Vervolgens plaatst de zoekmachine deze pagina’s in een volgorde met bovenaan (hopelijk) de voor de zoeker de meest relevante pagina’s (presentation). Bij het bepalen van deze volgorde worden vaak slimme oplossingen gebruikt. Een van de bouwstenen van Google is het zogenaamde pagerank algoritme, waarbij de volgorde van de pagina’s (URLs) in het antwoord bepaald wordt door de “populariteit” van de pagina’s, gemeten in het aantal malen dat een pagina vanuit andere pagina’s gerefereerd wordt, waarbij ook de populariteit van de verwijzende pagina’s een rol speelt. Daarnaast speelt soms ook het profiel van de gebruiker een rol: wat relevant is voor de een, is dat niet noodzakelijk voor de ander; als je meer weet over een gebruiker, kun je hem ook een relevanter antwoord geven.

Behalve relevante antwoorden, kun je de gebruiker dan ook gerichte advertenties geven; dit is een belangrijk onderdeel van het businessmodel van Google.

Zie onder andere Google 101: http://www.google.nl/support/webmasters/bin/answer.py?hl=nl&answer=70897

Beinvloeden van zoekresultaten (Search Engine Optimization)

Bij het zoeken op het web zijn drie soorten partijen betrokken: de zoeker, de zoekmachine, en de eigenaars (beheerders) van de verschillende webpagina’s.

De eigenaar van een (commerciële) webpagina heeft er belang bij dat zijn webpagina zo hoog mogelijk eindigt bij veel zoekvragen. Hiervoor heeft hij een aantal middelen tot zijn beschikking, bijvoorbeeld het aanpassen van de inhoud van de webpagina. door het ontwerp van de webpagine aan te passen. Dit wordt aangeduid als “Search Engine Optimization” (SEO); zie bijvoorbeeld http://en.wikipedia.org/wiki/Search_engine_optimization. Sommige van deze middelen zijn volstrekt normaal en toelaatbaar, maar dat is niet voor alle middelen het geval.

De eigenaar van een webpagina heeft er soms ook belang bij dat zijn pagina hoog in de lijst met resultaten terecht komt, ook als die pagina niet helemaal relevant is: wellicht bekijkt de zoeker zijn webpagina toch, bijvoorbeeld om te bepalen of die pagina relevant is, of gewoon uit nieuwsgierigheid. Zo’n “hit” kan dan weer aanleiding zijn tot vervolgacties, bijvoorbeeld een advertentie die aangeklikt wordt. Dit kan ertoe leiden dat op allerlei manieren de relevantie van de webpagina gemanipuleerd wordt, zowel door aanpassingen van de pagina zelf, als door andere (liefst populaire) webpagina’s naar deze pagina te laten verwijzen. Dit laatste wordt soms bereikt door op allerlei pagina’s in te breken, en daar verwijzingen naar de eigen pagina achter te laten. (Dat zegt dan overigens ook iets over de betrouwbaarheid van de pagina waarnaar verwezen wordt.)

Page updated

Google Sites

Report abuse