Voor veel vragen is het antwoord op het web te vinden; de vraag is echter, hoe je de relevante en betrouwbare informatie kunt vinden, liefst ook nog op een efficiënte manier. Zoeken op het web kan veel tijd kosten, zowel vanwege het soms moeizame zoekproces, maar ook door de grote afleiding: enkele zoekresultaten zijn misschien niet relevant voor het oorspronkelijke doel, maar wel interessant voor de zoeker.
Enkele manieren om informatie te zoeken op web zijn:
Er zijn nog meer manieren om informatie te zoeken op het web. Elk van deze manieren heeft zijn specifieke voor- en nadelen.
We kunnen verschillende soorten zoekproblemen onderscheiden, bijvoorbeeld:
Deze lijst is verre van uitputtend. De grote verscheidenheid aan zoekproblemen geeft in ieder geval aan dat er waarschijnlijk niet een enkele zoekmethode is die voor al deze verschillende problemen de beste oplossing vormt. Voor al dit soort van zoekproblemen zijn er oplossingen op het web te vinden. Het loont vaak de moeite om na te gaan wat voor het huidige zoekprobleem een goede methode is.
Een belangrijk aspect van een zoekprobleem is wat je met het resultaat gaat doen. In sommige gevallen helpt het zoeken je bij het doen van een keuze, bijvoorbeeld voor een vakantie; in dat soort gevallen willen zoekmachines je soms nog wat extra keuzes aanbieden, bijvoorbeeld in de vorm van advertenties. Wat je uiteindelijk met het resultaat wilt doen bepaalt vaak mede de keuze voor een bepaalde zoekmethode, en, in het geval van zoeken met een zoekmachine, de keuze van de zoekmachine en de formulering van de zoekopdracht.
Wikipedia: zoeken naar feiten, definities, beschrijvingen
Hoewel in het algemeen de resultaten van Wikipedia erg betrouwbaar zijn, geeft Wikipedia hiervoor absoluut geen garantie: immers, iedereen kan een Wikipedia pagina aanpassen. Het is dus altijd aan te raden om de resultaten van Wikipedia kritisch te bekijken, en waar mogelijk en nodig een tweede bron te raadplegen.
Directories - Startpagina, Open Directory
Een directory bevat verwijzingen naar andere webpagina's, volgens een bepaalde structuur ("per onderwerp"). Een voorbeeld van een directory is Startpagina. Op het internet zijn veel andere directories te vinden; één van de omvangrijker projecten op dit gebied is Open Directory (http://www.dmoz.org/, zie ook http://www.dmoz.org/about.html).
Zoekmachines - Google, Yahoo, Bing, Wolfram|Alpha
Er zijn verschillende zoekmachines beschikbaar, waarvan Google waarschijnlijk wel de bekendste is. Deze zoekmachines verschillen bijvoorbeeld wat hun doel betreft; sommige proberen direct een antwoord op een vraag te geven, andere geven een lijst met webpagina's die mogelijk het relevante antwoord bevatten.
Hieronder gaan we verder in op de verschillende zoekmachines, en op enkele van de onderliggende principes.
Tip - bereid zoeken voor
Een goede voorbereiding kan je veel tijd schelen. Denk daarbij aan de volgende punten.
* Wat wil je weten, en wat wil je met het antwoord doen? Wat voor soort antwoord verwacht je?
* Welke middelen kun je het best gebruiken?
* Hoeveel tijd wil je aan de zoekopdracht besteden?
* Houd bij het zoeken te tijd in de gaten; blijf niet te lang op een interessant zijspoor - kies snel een ander spoor, of gebruik een andere manier om te zoeken.
* Soms is het handiger om iemand anders te vragen - dat kan ook via het internet.
Bij het beoordelen van het resultaat, en eigenlijk al eerder bij het formuleren van de zoekopdracht, is het goed om te weten dat er verschillende soorten websites zijn, die met verschillende doeleinden gemaakt zijn. Dit kan je helpen bij het beoordelen van de relevantie en in het bijzonder, bij het beoordelen van de betrouwbaarheid van het resultaat.Bij het beoordelen van een website kun je onder andere de volgende vragen stellen:
Enkele voorbeelden van soorten websites die je tegen kunt komen:
Let wel, dit is geen harde classificatie van websites, zo die al te maken valt; het is een hulpmiddel om een website te beoordelen in relatie tot de eisen van relevantie en betrouwbaarheid.
Soms word je doelbewust misleid, en lijkt een website bijvoorbeeld (populair-) wetenschappelijke informatie te bieden, terwijl deze duidelijk ingegeven is door de belangen van een bepaald product.
(Opgave: zoek voorbeelden van dergelijke doelbewuste misleiding.)
Zoekmachines geven naast de links (URLs) van de websites vaak iets meer informatie, in de vorm van een zeer beknopte samenvatting van elke website in het zoekresultaat, waarin onder meer de zoekvraag getoond wordt. Deze samenvatting is vaak een belangrijk hulpmiddel om te bepalen hoe relevant de bewuste website is; pertinent irrelevante resultaten kun je zo vaak direct uitsluiten. In de andere gevallen is het nodig om de website zelf te bezoeken (doorklikken) om deze te beoordelen op hun relevantie voor je doel.
Microformats - door middel van het gebruik van microformats probeert Google in een aantal gevallen deze samenvatting van meer adequate informatie te voorzien. (Zie actualiteit.)
Misleidende samenvatting - soms leidt de samenvatting tot conclusies van de lezer ervan, die niet gerechtvaardigd zijn op grond van de oorspronkelijke website. (Zie actualiteit - spraakmakende rechtzaak.)
Precision en recall
Het deel links van de streep geeft de relevante documenten weer, rechts van de streep staan de irrelevante documenten. Het ovaal geeft het resultaat van de zoekopdracht weer; de punten in het groene deel van de ovaal zijn terecht gevonden, relevante documenten; het rode deel van de ovaal bevat de onterecht gevonden, irrelevante documenten (de bijvangst).
(figuur ontleend aan Wikipedia)
Bij zoeken op het web is het vaak voldoende als je een website vindt, of een document, dat je verder helpt: je zoekt eerder een antwoord op een vraag, dan een specifiek document. Als je op je eigen computer zoekt, wil je meestal een specifiek document terug zien te vinden. In dit laatste geval is het dus veel vervelender als de "recall" niet volledig is.
Bij het zoeken op je eigen computer, of bij het zoeken in alle documenten van een bedrijf, zijn er heel andere criteria waarmee de relevantie van een document beoordeeld moet worden, dan in het geval van het web. Bij het beoordelen van de relevantie van een website speelt voor Google de populariteit van die website, in de zin van het aantal verwijzingen naar die website, een rol ("pagerank"). Bij het zoeken naar een document op je eigen computer is zo'n criterium niet relevant. (Overigens is het ook niet eenvoudig om dit pagerank-criterium uit te werken voor documenten op je eigen computer, omdat deze documenten niet altijd op een eenduidige manier naar elkaar verwijzen.)
Als voorbeeld gebruiken we de zoekopdracht [bakker Piet]: we zoeken een bakker die Piet heet. Hoeveel van de resultaten op de eerste pagina zijn relevant, en hoeveel betreffen een persoon met de naam "Piet Bakker"?
Zoekopdrachten geven we hier weer tussen vierkante haken: de tekst tussen de haken is de letterlijke tekst van de zoekopdracht. Soms gebruiken we in een zoekopdracht quotes ("quotes") om een aantal woorden te groeperen; er is dus een verschil tussen [Piet Bakker] en ["Piet Bakker"].
Een van de problemen waar we hier tegenaan lopen is dat we tekstueel niet eenvoudig het onderscheid kunnen maken tussen een eigennaam en een beroep; in het algemeen hebben we problemen met woorden die een dubbele betekenis hebben. Dit probleem is nog groter als sommige betekenissen in een minder nette categorie thuishoren. Overigens heeft Google voor het negeren van minder nette zoekresultaten een "Safesearch" mode ingesteld.
Als we de betekenis van de verschillende onderdelen preciezer kunnen omschrijven, en bijvoorbeeld het verschil kunnen aangeven tussen een beroep en een eigennaam, kunnen we een groot deel van dit soort problemen voorkomen; bovendien kunnen we dan de interpretatie van gegevens op websites laten interpreteren door andere programma's dan zoekmachines. Dit is een van de doelen van het Semantic Web (zie http://en.wikipedia.org/wiki/Semantic_Web).
De samenvattingen die Google maakt suggereren soms verbanden die er niet zijn. (Zie ook bij Actualiteit: Spraakmakende rechtzaak.)
Om enig gevoel te krijgen voor de sterke en zwakke punten van verschillende zoekmachines verdient het aanbeveling om deze voor een aantal verschillende soorten zoekopdrachten te gebruiken. Enkele voorbeelden van zoekmachines:
Sommige van deze zoekmachines, zoals Alpha, iSeek en Quintura, werken op een andere manier dan standaard zoekmachines als Google en Yahoo. Het vraagt enige inspanning om deze zoekmachines handig te gebruiken.
Hoe formuleer je een goede zoekopdracht?
Bij het formuleren van een zoekopdracht is het erg belangrijk om je af te vragen wat je met het resultaat wilt doen: vaak is dit resultaat nodig om een bepaalde beslissing te nemen; maar soms wil je alleen graag meer over een bepaald onderwerp weten.
Enkele tips voor geavanceerd zoeken kun je vinden op bijvoorbeeld de tip-pagina's van Google; zie Basisprincipes van Google zoeken:
http://www.google.nl/support/websearch/bin/answer.py?answer=35889
Problemen met zoeken - spelling, synoniemen, homoniemen
De huidige manier van zoeken is vooral gebaseerd op de letterlijke tekst van zowel de zoekopdracht als de webpagina's. Dit geeft een aantal problemen. Een eerste probleem zijn de verschillende spellingsvarianten, gebruik van meervoud of enkelvoud, enzovoorts. Inmiddels zijn de zoekmachines zover gevorderd dat dit probleem voor een belangrijk deel ondervangen is; dit zie je onder meer ook aan de suggesties die je krijgt als je een verkeerde spelling gebruikt in een zoekopdracht.
Een tweede probleem vormt dat van de synoniemen: verschillende woorden gebruikt voor eenzelfde concept. Dit is een lastiger probleem; dit kan deels opgelost worden door de synoniemen in de zoekvraag te gebruiken; ook aan de kant van de webpagina is het soms handig om synoniemen te gebruiken.
Het lastigste probleem vormen de homoniemen: woorden met verschillende betekenissen. Dit kan ook voorkomen in combinatie met eigennamen, vergelijk de naam Bakker en het beroep bakker. Een radicale oplossing voor dit probleem is het gebruik van woorden die een strikt omschreven betekenis hebben; dit is een van de doelstellingen van het Semantic Web. In een webpagina kun je dan een beschrijving geven met behulp van termen met vaste en eenduidige betekenis.
Uiteindelijk gaat de doelstelling van het Semantic Web nog veel verder: het moet mogelijk worden om een belangrijk deel van de interpretatie van de inhoud ook door computers te laten doen, en niet alleen door mensen, zoals in de huidige situatie.
Problemen met zoeken - zoeken van plaatjes, muziek, films
De huidige manier van zoeken is vooral gebaseerd op het gebruik van de letterlijke tekst van een webpagina. Hoe kun je dan zoeken op andere data, zoals plaatjes, films, of muziek? Als we gebruik willen maken van tekstueel zoeken, moeten we zorgen dat er voor elk plaatje, film, of muziekstuk, een tekst is die iets over dat plaatje, die film, of dat muziekstuk zegt. Dit soort beschrijvende data wordt meta-data genoemd.
Een andere aanpak is om speciale zoekmachines te ontwikkelen voor bijvoorbeeld muziek, die gebruik maken van de muziek zelf. Zo zijn er zoekmachines die aan de hand van een gefloten of geneuried wijsje de bijbehorende muziekstukken terug kunnen vinden.
We gebruiken vaak data die andere data beschrijft:
Bovenstaande voorbeelden beschrijven data die iets zeggen over andere data. Dit soort data wordt metadata genoemd. Deze metadata vormen vaak een belangrijk hulpmiddel om de beschreven data terug te kunnen vinden, of om de relevantie van de data in een bepaalde context te kunnen bepalen.Deze metadata worden soms samen met de beschreven data opgeslagen, om te zorgen dat de metadata niet zoekraken. Maar dit is niet essentieel: alles wat er te vertellen is over bijvoorbeeld een foto of een film vormt metadata bij die foto of die film, ook als dat ergens anders bewaard wordt.
Een van de voordelen van URLs is dat altijd duidelijk is om welk object het gaat, ook als dit niet direct voorhanden is; het web voorziet in een mechanisme om het object te identificeren, en vaak (als het informatie betreft) ook om het object terug te vinden. (Zie Wikipedia, URN, URL)
Een deel van de metadata kan uit de data zelf afgeleid worden; zo probeert sommige foto-software de gezichten die op de foto's staan te herkennen, en de namen die daarbij horen als metadata toe te voegen.
Een speciale vorm van meta-data vinden we in de zogenaamde "tagging". De inhoud (bijvoorbeeld een foto) wordt daarbij voorzien van een verzameling trefwoorden. Een van de basisideeën achter tagging zoals je dat tegenkomt bij bijvoorbeeld Flickr, is dat mensen het in grote lijnen wel eenzelfde terminologie gebruiken, zonder dat dit heel precies vastgelegd hoeft te worden. Het mag duidelijk zijn dat dit bij vakantiefoto's minder potentiële problemen geeft dan bij medische beelden als röntgenfoto's; in dat geval hebben we precies gedefinieerde meta-data nodig.
Het huidige web bestaat voor een belangrijk deel uit pagina's die bedoeld zijn voor een menselijke lezer en dus voor menselijke interpretatie. De manier van representatie leent zich in veel gevallen niet goed voor interpretatie door machines. De meeste zoekmachines verwerken de pagina's op een tekstueel (lexicografisch / syntactisch) niveau (zoals uit het bovenstaande voorbeeld blijkt).
Er zijn verschillende manieren waarop de betekenis van gegevens op het internet meer expliciet gemaakt kan worden.
De aanpak die nagestreefd wordt door Tim Berners-Lee, de uitvinder van HTML, en daarmee de grondlegger van het web, is om de betekenis expliciet vast te leggen aan de hand van goed gedefinieerde begrippen: het Semantic Web.
(Semantic web: definitie van basistermen; beschrijving van relaties (3 tupels); redeneren (reasoning).
Om snel een antwoord op een zoekvraag te kunnen geven, werkt een zoekmachine in twee fasen: in de eerste fase, ter voorbereiding van alle mogelijke zoekvragen, loopt de zoekmachine alle toegankelijke webpagina’s af (crawling), bepaalt per pagina wat de mogelijke zoektermen voor die pagina zijn (indexing), en gebruikt deze vervolgens voor het opbouwen van een globale index. Deze index vormt de invoer voor de tweede fase, het beantwoorden van de zoekvragen. Bij behandelen van een specifieke zoekvraag raadpleegt de zoekmachine deze index , en bepaalt daaruit welke pagina’s mogelijk relevant zijn voor die zoekvraag. Vervolgens plaatst de zoekmachine deze pagina’s in een volgorde met bovenaan (hopelijk) de voor de zoeker de meest relevante pagina’s (presentation). Bij het bepalen van deze volgorde worden vaak slimme oplossingen gebruikt. Een van de bouwstenen van Google is het zogenaamde pagerank algoritme, waarbij de volgorde van de pagina’s (URLs) in het antwoord bepaald wordt door de “populariteit” van de pagina’s, gemeten in het aantal malen dat een pagina vanuit andere pagina’s gerefereerd wordt, waarbij ook de populariteit van de verwijzende pagina’s een rol speelt. Daarnaast speelt soms ook het profiel van de gebruiker een rol: wat relevant is voor de een, is dat niet noodzakelijk voor de ander; als je meer weet over een gebruiker, kun je hem ook een relevanter antwoord geven.
Behalve relevante antwoorden, kun je de gebruiker dan ook gerichte advertenties geven; dit is een belangrijk onderdeel van het businessmodel van Google.
Zie onder andere Google 101: http://www.google.nl/support/webmasters/bin/answer.py?hl=nl&answer=70897
Bij het zoeken op het web zijn drie soorten partijen betrokken: de zoeker, de zoekmachine, en de eigenaars (beheerders) van de verschillende webpagina’s.
De eigenaar van een (commerciële) webpagina heeft er belang bij dat zijn webpagina zo hoog mogelijk eindigt bij veel zoekvragen. Hiervoor heeft hij een aantal middelen tot zijn beschikking, bijvoorbeeld het aanpassen van de inhoud van de webpagina. door het ontwerp van de webpagine aan te passen. Dit wordt aangeduid als “Search Engine Optimization” (SEO); zie bijvoorbeeld http://en.wikipedia.org/wiki/Search_engine_optimization. Sommige van deze middelen zijn volstrekt normaal en toelaatbaar, maar dat is niet voor alle middelen het geval.
De eigenaar van een webpagina heeft er soms ook belang bij dat zijn pagina hoog in de lijst met resultaten terecht komt, ook als die pagina niet helemaal relevant is: wellicht bekijkt de zoeker zijn webpagina toch, bijvoorbeeld om te bepalen of die pagina relevant is, of gewoon uit nieuwsgierigheid. Zo’n “hit” kan dan weer aanleiding zijn tot vervolgacties, bijvoorbeeld een advertentie die aangeklikt wordt. Dit kan ertoe leiden dat op allerlei manieren de relevantie van de webpagina gemanipuleerd wordt, zowel door aanpassingen van de pagina zelf, als door andere (liefst populaire) webpagina’s naar deze pagina te laten verwijzen. Dit laatste wordt soms bereikt door op allerlei pagina’s in te breken, en daar verwijzingen naar de eigen pagina achter te laten. (Dat zegt dan overigens ook iets over de betrouwbaarheid van de pagina waarnaar verwezen wordt.)