Compte rendu
"Web sémantique"

"Web sémantique

Indexation automatique/Sémantisation des médias classiques"

C'était notre première conférence/débat dans les murs du Centre Culturel Bellegarde, nous avions à cœur de la réussir !

Pierre Sauvage, Directeur du Centre, n'a pas manqué de venir conforter notre installation. Nous le remercions encore de la qualité de son écoute et l'attention dont il fait preuve à notre égard.

Nous remercions également Gérard Coulon, Directeur du Service de l’Animation Socioculturelle à la Mairie de Toulouse et ami de notre club dont il suit les activités de longue date pour sa présence dans l'auditorium lors de notre première conférence à Bellegarde.

Le plateau était parfaitement équilibré grâce aux efforts de tous et tout particulièrement à l'action d'Isabelle Cargol qui a introduit, après la présentation du Club par notre Président, les intervenants.

Sandrine Bertrand, professeur au Lycée Saliège, expert en référencement, chef de projet 'Référencement naturel' a introduit le débat en brossant les grandes caractéristiques du problème : référencer des milliards de pages du web et permettre à chacun de retrouver, par une logique de recherche naturelle, ses centres d'intérêt. Très vite le discours converge vers Google, leader incontesté (du moins en Europe) de l'indexation des pages du web.

On estime à 200 x 10 puissance 9 le nombre de pages et à 120 ou 130 x 10 puissance 9. On estime à environ 500 millions le nombre de visites par mois. Google met à jour l'index 1 fois par mois (vérification des pages, ajout des nouvelles, et mise à jour des data-centers). On appelle cette opération la "Google dance" ! Aujourd'hui Google est en temps réel et la fréquence des visites sur un site dépend de la fréquence des mises à jour par les utilisateurs.

Chaque page indexée reçoit une note entre 0 et 1 (page rank) sachant que le Sigma des pages ranks est égal à 1. Lorsque l'on lance une recherche, Google vous propose quelquefois un nombre de pages désarmants; il faut savoir qu'à partir de la 3ème page les indications deviennent non-pertinentes rapidement. Sandrine Bertrand poursuit ensuite son exposé sur l'utilisation évoluée de Google.

Sandrine Bertrand

Jean-Philippe Horard, responsable Marketing & Développement, Société Hoyado poursuit l'exposé et l'oriente sur la notion de référencement payant en soulignant le fait qu'internet est un média de masse et prend une ampleur sans précédent. Les ventes sur internet atteindront 40% des transactions dans peu de temps et aujourd'hui, 21 millions de personnes en France pratiquent des achats en ligne.

En 2008, le référencement correspond à 2 milliards d'euros de chiffre d'affaires pour Google qui est très confiant face à la crise. Pour mémoire le chiffre d'affaire de eBay est de l'ordre de 180 millions d'euros.

Il nous explique que les pages de recherches Google sont partitionnées en zones de référencement naturel et en zones de référencement payant. L'annonceur dans cette dernière zone n'est facturé qu'en cas de "clic" de la part de l'internaute. L'énorme avantage pour les annonceurs est de connaître le nombre de personnes qui ont vu, qui ont lu, qui ont cliqué ou acheté. Le retour sur investissement est clair et facile à quantifier et ceci pratiquement en temps réel. Les positionnements dans ces zones payantes sont aux enchères !

Les pages affichées aujourd'hui sont adaptées à la localisation du pc de l'utilisateur (Géolocalisation par l'adresse IP). De plus, on peut planifier les annonces et gérer ainsi au quotidien le marketing. On a donc, grâce à Jean-Philippe Horard, un éclairage beaucoup plus business que l'image de la gratuité que Google cherche à donner au public.

Jean-Philippe Horard

Éric Castex, Chef de service ADIM (Atelier de Développement Informatique Multimédia) à l'Université Toulouse Le Mirail, poursuit la présentation en parlant des aspects de la recherche et des langages qui se développent. En observant que lors d'une recherche, on ne dépasse que très rarement la 3ème page. Il est donc important de mieux formuler sa requête et considérant :

- l'aspect communicationnel

- l'aspect informationnel

- l'aspect fonctionnel

La création systématique de langages standards (se voulant universels) permet de rassembler plus facilement les informations. Rappelons l'utilisation du langage XML, puis HTML indépendant de la machine, suivi du XML puis le W.S. s'appuyant sur des métadonnées.

Notre plateau d'invités

Maître Alexandrine Panz poursuit en orientant son propos sur les limites de ce que l'on peut publier sur le net et sur la protection des données personnelles sur le web.

Notre loi sur la presse, bien qu'ancienne, s'applique bien entendu aux écrits sur le net comme pour un journal. Le loi (CNIL) de 2004 est censée nous protéger et interdit l'identification des personnes à l'aide des données enregistrées directement ou indirectement. Mais il faut être très méfiant vis à vis de toute collecte cachée de données (jeux, loteries où l'on vous demande constamment de donner votre adresse). Ces données collectées constituent des fichiers qui sont négociés et voyagent allègrement de par le monde.

Une directive européenne établit :

- un droit de rectification

- un droit d'opposition

- un droit d'effacement

- un droit de réactualisation

Maître Panz nous suggère de faire activer notre droit pour les mails non souhaités et demandant leur suppression et en actionnant la CNIL si nécessaire. La CNIL est très vigilante et doit faire respecter la loi. Elle veille à protéger les personnes des intrus et des personnes malveillantes.

Pour le contenu, les auteurs entre sous le contrôle de la loi sur la presse de 1881. L'hébergeur, n'est responsable que si on lui indique la présence d'un problème, il est alors obligé d'agir. Le F.A.I. lui n'a pas de responsabilité pour ce qui concerne le contenu.

Les données de connexion ne doivent pas être stockées plus d'un an. Mais pourtant, Google garde ses données ... très longtemps. Il peut cependant effacer sa mémoire cache.

Maître AlexandrinePantz

De gauche à droite : J.P. Horard, S. Bertrand, Maître Pantz, E. Castex


La Déléguée générale du Comité Technique de notre Club, Martine Blaquière, a apporté la conclusion en évoquant l'INA et le vaste problème d'indexation des productions audiovisuelles des chaînes nationales et l'évolution des techniques d'indexation dans cette organisation.

Le débat s'est poursuivi dans la salle par les questions du public très intéressé par ces aspects souvent peu pris en compte par les utilisateurs. On a noté le souci constant de la protection des données personnelles de la vie privée par le public.

André Bourricaud, Président du Club Audiovisuel, a apporté sa conclusion à cette première réunion en remerciant les intervenants, les félicitant pour la qualité de leur présentation. Il a remercié également le Centre Culturel Bellegarde, son directeur Pierre Sauvage pour la qualité de son accueil et le personnel technique pour le bon fonctionnement de l'auditorium et a donné rendez-vous au public pour la conférence suivante : "l'avenir de la presse quotidienne régionale" qui se tiendra le jeudi 28 mai à 18 heures, à l'auditorium du Centre Culturel de Bellegarde.