The gadget spec URL could not be found


Google (moteur de recherche)

Page d'aide sur l'homonymie Cet article concerne le moteur de recherche. Pour l'entreprise Google Inc, voir Google. Pour les autres significations, voir Google (homonymie).
Google
Logo de Google (moteur de recherche)
Page d’accueil [archive] de Google Search FR

Adressegoogle.com [archive]
SloganDo the right thing (littéralement, « Faites les bonnes choses »)
CommercialOui
Écrit enPythonCC++
PublicitéOui (Lien sponsorisé appelé annonce)
Type de siteMoteur de recherche
LangueMultilingue
InscriptionGratuite et optionnelle
PropriétaireGoogle Inc.
Créé parLawrence E. PageSergueï Brin
Lancement27 septembre 19981
Revenus16 000 000 000 $
État actuelEn activité
modifier Consultez la documentation du modèle

Le moteur de recherche Google, qui a donné le nom à la société Google, est le moteur de recherche sur le Web le plus utilisé au monde. En 2016, 92 % des internautes l'utilisaient dans le monde2. Le nom Google vient du mot Gogol, nom donné au nombre 1010010^{100}. Ce nombre a été choisi pour évoquer la capacité de Google à traiter une très grande quantité de données.

Sommaire

  [masquer

Principes et caractéristiques[modifier | modifier le code]

Système de classement PageRank[modifier | modifier le code]

Le principe de fonctionnement de Google, qui a fait son succès, est fondé sur une invention de ses créateurs, le PageRank : lorsqu'un document est pointé par de nombreux hyperliens (popularité de liens), son PageRank augmente. Plus son PageRank est élevé, plus il aura de chance d'être affiché dans les premiers résultats d'une recherche. Ce système donne une indication de la « popularité » du document parmi les autres documents du web.

Ce principe a immédiatement été un succès, car il a permis des résultats plus pertinents que les autres moteurs de recherche qui se contentaient de comptabiliser les mots-clés insérés dans les pages des sites. Il a également permis ce que l'on appelle le bombardement Google.

Sobriété et valorisation des mots[modifier | modifier le code]

En outre, ce moteur de recherche est aussi apprécié pour sa rapidité de recherche et sa sobriété : pas de Flash, pas de bandeau publicitaire clignotant, etc. Son interface a inspiré celle d'autres moteurs, comme Yahoo!.

Cette sobriété, loin d'être anecdotique, est au moins en partie à l'origine du succès du site. À l'époque de son lancement en effet, la mode était aux moteurs de recherche insérés sur des pages très chargées en contenu et en publicité. Ces pages étaient souvent longues à s'afficher et difficiles à lire.

Il utilise tout de même un système d'AdWords (« publicité de mots ») comme une de ses sources de revenus. Ce système est fondé sur une valeur par mot selon sa demande. Plus le mot sera demandé, plus il sera payé cher par clic. Mais il est toujours possible pour l'utilisateur de bloquer l'affichage de ces publicités grâce à des plugins, le plus populaire étant Adblock Plus avec qui Google a passé un accord financier pour qu'il ne filtre plus ses publicités.

Selon Optify, 94 % des clics vont aux dix premiers résultats et Google génère à lui seul 36,4 % des clics3.

Infrastructure[modifier | modifier le code]

Vers 2002, Google affirmait distribuer la charge sur plus de 10 000 PC fonctionnant avec un noyau Linux modifié. Le chiffre de 1 000 requêtes simultanées en pointe a aussi été souvent évoqué. Les chiffres réels semblent 10 fois plus élevés. Ils sont cependant secrets, notamment pour ne pas permettre de calculer facilement l'investissement nécessaire pour concurrencer Google4.

Google utilise des robots nommés Googlebot qui visitent à intervalle régulier l'ensemble des sites web n'ayant pas explicitement demandé à ne pas être référencés afin de maintenir à jour la base de données qui fournit les réponses aux requêtes des internautes.

Article détaillé : Plateforme Google.

Logos[modifier | modifier le code]

Hormis le logo officiel5, le site adopte des logos particuliers pour certaines fêtes et évènements : les Google Doodles. Réalisés par Dennis Hwang, un designer américain d'origine coréenne de 23 ans, ils apparaissent régulièrement dès qu'une fête locale ou internationale (nouvelle année, fêtes nationales, etc.) ou un évènement marquant (Jeux Olympiques, commémoration d'une personne illustre, Coupe du Monde, etc.) le permet.

Tous les logos de fêtes et d'évènements de www.google.com mis en ligne depuis 1999 sont disponibles en ligne6 et, également, ceux qui sont apparus en France7.

Le 1er septembre 2015, Google décide de changer son logo qui a été critiqué plusieurs fois d'être non convenable à une grande et importante société telle que Google Inc.

Version bêta[modifier | modifier le code]

Une version bêta est habituellement une mention signifiant qu'un programme est en phase de finition. Chez Google c'est devenu une marque de fabrique apposée sur la plupart des services et logiciels à l'exception du moteur de recherche et des services publicitaires.

L'intérêt qui réside dans l'appellation « version bêta » est que, du point de vue de la qualité du service, elle n'engage à aucune obligation de résultat, étant donné que c'est une phase de développement. Cela peut également signifier que les services Google sont en perpétuelle phase d'amélioration.

Cette particularité propre à Google devient une mode qui se traduit chez ses concurrents par un usage plus ostensible de cette mention.

Services[modifier | modifier le code]

Ce moteur de recherche est disponible dans 35 pays8 et propose son interface en plus de 100 langues.

Google est à l'origine un moteur de recherche de pages web, il s'est étendu progressivement à divers types de documents (PDFWordFlash…), aux images (Google Images), aux vidéos (Google Vidéos), ainsi qu'aux forums Usenet(Google Groupes) depuis le rachat de Deja News.

Il possède une section répertoire qui permet de trouver des sites par catégorie (répertoire dmoz classé par PageRank), et un portail d'actualités (Google Actualités) regroupant les sites des journaux à grand tirage et des plus grandes agences de presse.

Depuis septembre 2010, l'entreprise a lancé Google Instant. Ce service est pour l'instant seulement disponible dans un nombre restreint de pays (dont la France). Dès la première lettre tapée dans la barre de saisie, Google envoie un résultat qui s'affine au fur et à mesure de la saisie. Cette fonction propose des résultats qui sont susceptibles de convenir car habituellement recherchés. Le moteur de recherche anticipe donc les requêtes des internautes. Cette fonctionnalité est désactivable. Les ingénieurs de l'entreprise annoncent qu'elle permettrait de faire gagner du temps de l'ordre de 40 %.

Le 2 octobre 2010, un petit triangle bleu de sélection à gauche du premier résultat proposé par la version américaine du moteur de recherche est apparu. Il est possible de sélectionner le résultat de son choix par les touches  et du clavier, et d'appuyer sur la touche Entrée pour accéder au site.

le 9 octobre 2010, la prévisualisation des pages web est disponible (en cliquant sur la loupe, une image du site voulu apparaît à la droite de l'écran) et le pointage du curseur sur un résultat colorise le fond de celui-ci en bleu.

Utilisation[modifier | modifier le code]

Google propose un formulaire simple et un formulaire de recherche avancée permettant d'exclure des mots ou de rechercher des expressions complètes9

Termes à chercher[modifier | modifier le code]

La documentation de Google sur son interprétation des requêtes est assez spartiate. L’évolution du fonctionnement observé montre que ceci est sans doute à dessein pour garder une liberté de changement maximale. Ce qui suit doit être continuellement validé et remanié pour suivre les modifications.

  • H2O est cherché comme un seul mot et Google ne trouve alors pas les documents avec H 2 O ou H2O dans leur texte. Ceux-ci sont retrouvés en demandant "H 2 O". H-2-O (voir plus loin le rôle du tiret) trouve aussi bien H2O que H 2 O et H2O. Malheureusement, l’opérateur « tiret » ne cherche que les deux combinaisons extrêmes (tous les mots collés ou tous les mots séparés: il ne trouve pas H2 O).
  • mot : Un mot et ses variantes singulier/pluriel - masculin/féminin – avec/sans accents. Par exemple, chevaux d’arçon retrouve cheval d’arçon. La variante que vous spécifiez est favorisée dans le tri des documents présentés.
  • "mot" : Un mot exact. Google ne tient pas compte de l’accentuation pour la recherche mais favorise la forme spécifiée lors du tri des documents présentés.
  • ~mot : Un mot et ses synonymes. Fonctionne avec un dictionnaire anglais même sur les recherches en français et néerlandais ! Essayer la requête ~automobile -automobile pour voir les mots trouvés en dehors du terme strict automobile. ~arabic retourne EgyptLebanonArab et… Hindu ! On ne connaît pas la source des synonymes.
  • "-mot" : exclure un mot; exclut les résultats qui incluent ce terme (utile pour les synonymes, par exemple "jaguar -voiture"). Il est possible aussi d'exclure un site (par ex. "télévision -site:www.tf1.fr")10
  • "mot… mot" : une suite de mots spécifiques, une expression
  • "mot * mot" : dans une suite de mots entre guillemets (et seulement là), une étoile peut être mise à la place d’un ou plusieurs mots complets qu’on ne désire pas spécifier. Par exemple : « ministère du * et du commerce »
  • site:www… : un domaine d’origine. On demande à google de fouiller le contenu du site en question. On peut être plus ou moins général et même indiquer des domaines de premier niveau. Par exemple : site:org OR site:com
  • intitle : « mot… mot » : une suite de mots spécifiquement dans le titre du document (balise <title>…</title> et/ou première balise <h1>…</h1>). Le mot clé doit apparaître dans le titre de la page et les suivants dans le texte.
  • allintitle : tous les mots doivent apparaitre dans le titre de la page
  • +mot : chercher ce mot même si c’est un mot vide dans la langue de l’utilisateur ( +de en français par exemple) et le chercher en tenant compte des accents ( +dés par exemple). Un « + » est assumé si un seul mot est cherché : thé seul est cherché comme si on avait tapé +thé (Cette forme a donc une signification très différente de celle de Altavista où le "+" indiquait des mots obligatoires). Lors du tri des documents, Google donne la préférence à la forme tapée : l’opérateur « + » n’a donc plus beaucoup d’intérêt.
  • mot-mot : chercher un terme composé de plusieurs mots, qu’il soit écrit avec des tirets, des espaces ou même sans espace du tout : gratte-ciel trouve gratte cielgratte-ciel et gratteciel . gratte-ciel ne signifie pas du tout la même chose que gratte -ciel (voir l’opérateur "-"). Attention : va-nu-pied trouve va nu pied et vanupied mais pas vas nupied.
  • define:mot : donne des définitions du mot trouvées sur internet.
  • mot AROUND(x) mot : permet d’effectuer une recherche en intégrant une notion de proximité entre deux mots. Plus "x" est grand, plus la proximité entre les mots est large.

Opérateurs logiques (booléens)[modifier | modifier le code]

  • espace : les documents doivent contenir ce qui est à droite ET ce qui est à gauche. Le tri de Google favorise les documents où les différents mots spécifiés sont proches l’un de l’autre (voir plus bas).
  • OR ou | : les documents peuvent contenir ce qui est à droite OU ce qui est à gauche OU les deux. Attention : OR doit être écrit en majuscules !
  • espace- (signe moins) : exclure les documents contenant le mot qui suit (SAUF)
  • (… ) : sous-expression à évaluer avant de faire les opérations avoisinantes
  • # : permet d'afficher les résultats les plus populaires du moment concernant votre recherche quand le hastag est placé devant celle-ci11
  • @ : permet d'afficher les résultats relatifs aux réseaux sociaux en prenant en compte l'arobase comme social tag

Limites[modifier | modifier le code]

  • Les requêtes sont limitées à 32 mots.
  • Seuls les 1 000 premiers résultats pertinents pour une requête sont accessibles, et ce même si les correspondances sont plus nombreuses. Les résultats peuvent même parfois être moins de 1 000 en raison de la suppression des pages provenant d’un même site. D’après Google, obtenir plus de 1 000 résultats entraînerait une lourde charge supplémentaire pour une demande finalement assez rare.

En théorie, le tri assure que les références les plus utiles sont en premier (difficile à valider).

Dates[modifier | modifier le code]

  • Lors d’une recherche par dates, la date est celle de l’indexation dans la banque de données (c.-à-d. la visite du « spider » Google) et non celle de la publication effective de la page (telle que fournie par le serveur http://)
  • Dans le formulaire de recherche avancée, vous pouvez faire une recherche sur les derniers 3, 6 et 12 mois.
  • L’opérateur daterange:date julienne-date julienne permet de spécifier un autre intervalle de dates. Une date julienne est une date dans le calendrier julien.

Tri du résultat[modifier | modifier le code]

La qualité de Google vient de sa capacité à montrer en premier les pages jugées les plus pertinentes en général et les plus pertinentes à une recherche en particulier. Google trie les documents trouvés en fonction :

  • de mesures de qualité du site en général et aussi de chacune des pages (cohérence des méta-informations avec le texte visible de la page par exemple). Ces mesures ne sont pas ou peu documentées.
  • une mesure du poids de chacune des pages indexées : Il s’agit de l’algorithme PageRank dont voici un extrait cité de Google :

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one. PageRank or PR(A) can be calculated using a simple iterative algorithm, and corresponds to the principal eigenvector of the normalized link matrix of the web.

  • d’un calcul de la pertinence de la page vis-à-vis de la recherche effectuée. Ceci se fait en tenant compte :
    • de la présence dans la page des mots de la recherche (éventuellement élargis à leurs synonymes ou à leurs variantes singulier/pluriel)
    • de l’emplacement de ces mots dans la page (titre, méta-données, texte) ou dans les liens vers cette page : ce dernier point cause parfois des problèmes éthiques car une page se retrouve indexée par les mots que d’autres personnes que ses auteurs utilisent pour la désigner.
    • Du tf-idf de chaque mot, formule qui prend en compte le nombre d’occurrences du mot dans la page pondéré par l’inverse de la fréquence relative de ce mot dans la partie du web indexée par Google:
      • tfi = fréquence du terme i dans la page
      • dfi = nombre de pages dans le web contenant le terme i
      • D = nombre de documents dans le Web
      • Cette formule a été mise au point par Gerard Salton (1927-1995), Université Cornell, sur base de la Théorie de l'information de Claude Shannon.
    • de la distance dans la page entre les mots cherchés : plus ils sont proches l’un de l’autre, plus la page est jugée pertinente vis-à-vis de la recherche effectuée12.
  • du pays indiqué par l’URL d’accès à Google : google.be accorde une nette préférence aux sites belges, google.fr aux sites français, google.com aux sites américains et google.co.uk aux sites anglais, etc. Il est réellement important de choisir la « localisation » de ses recherches.
  • de la langue de l’utilisateur qui est aussi celle des mots cherchés.

Il est essentiel de faire ses recherches en changeant sa langue d’utilisateur en fonction de la langue des mots cherchés. Google trie alors les documents en favorisant cette langue (et utilisera peut-être un jour le bon dictionnaire de synonymes). Il utilise alors l’algorithme adéquat pour rendre équivalents le singulier et le pluriel, le féminin et le masculin (rappel : le néerlandais semble mal supporté pour l’instant).


Timeline

Herbert Hoover
August 10, 1962

May I say to the boys and girls of America that the doors of opportunity are still open to you. Today the durability of freedom is more secure in America than in any place in the world.

Lou Henry Hoover likes this.



Herbert Hoover
July 8, 1952

The situation in Korea was born at Yalta, and nourished by American support of so-called "agrarian liberals" in China.

We joined with more than two-score of non-Communist members of the United Nations to defeat this Communist aggression. But we find ourselves furnishing 90% of the military forces sent there and taking 90% of the losses.

America's price so far is 120,000 dead, wounded and sick with 300,000 of our youth still fighting.

General MacArthur well said that in war there is no substitute for victory. Instead of victory, the Administration substituted appeasement on the 38th Parallel, just where we started from. After 12 months of negotiation, the Communists so far do not seem to want to be appeased. In the meantime they have so increased their forces that the military initiative is now in their hands. The end is not yet.

But can anyone say these policies in Korea have been a great success?

Gen. Douglas MacArthur likes this.