Les données

Cette page présente quatre sources de données provenant de produits Google ou de Twitter. Ces sources sont documentées et mises en avant sur ce site car elles sont en bonne adéquation avec le thème de ce concours.
De nombreuses autres sources de données (API ou dataset) peuvent être utilisées à la place des quatre ici présentées, ou en complément de celles-ci. La seule consigne est d'utiliser au minimum une source de données provenant d'un produit Google ou Twitter.

Google Insight For Search

Google Insight For Search est probablement la ressource de données la plus intéressante dans le cadre de ce concours. IFS ne posséde pas d’API à proprement parler, mais voici la description de l’architecture que propose le service :

En partant de l’exemple d’une requête observant les insights sur les 30 derniers jours en France sur les mots clés “Francois Hollande”, “Ségolène Royal”, “Martine Aubry”, “Arnaud Montebourg”, voici l’URL que l’on obtient.

Explication des variables contenues dans l’URL :
- La variable q représente les termes recherchés (%20 représente un espace, les termes ayant subit un mécanisme d’encodage URL (URL encoding)) ;
- La variable geo représente la localisation des requêtes prises en compte (ici geo=FR) ;
- La variable date concerne l’aspect temporel (ici : les derniers 30 jours = today%201-m, autres exemples : les derniers 90 jours = today%203-m, les derniers 90 jours = today%207-d) ;

Attention, les variables peuvent être très précises. Par exemple, il est possible de rechercher “Francois Hollande” + “François Hollande” du 12 septembre au 24 septembre.

Enfin il est permis d’exporter les résultats au format CSV. On peut ensuite scrapper le fichier obtenu dans n’importe quel langage de programmation, effectuer des traitements sur les données, des croisements, etc, et enfin visualiser.

Pour cela il faut ajouter 2 choses :
- overviewReport? remplace le # avant le q ;
- Il faut ajouter la variable export et la mettre à 1 (en opposition à l’absence de variable export ou export=0)

Voir l'url

Concernant le fichier CSV en lui-même, on obtient alors :
- le nombre de requêtes sur chaque candidat, par jour ;
- le nombre de requêtes sur chaque candidat, par région ;
- le top des villes pour chaque candidat ;
- le top des requêtes liées à chaque candidat (liées par l’historique des requêtes faites juste avant et/ou juste après) ;
- les progressions de ces requêtes liées (c’est la variable temporelle qui sert d’étalon, ici c’est donc par rapport aux 30 jours d’avant), exemple : +180% pour François Hollande sur la requête Martine Aubry ses 30 derniers jours, par rapport aux 30 jours précédents.


Remarque : Le fait d'être connecté comme utilisateur google (via gmail par exemple) augmente le quota de requêtes autorisées.

YouTube

La documentation de l’API YouTube est très complète. L’utilisation de la Data API est sans doute l’usage le plus commun dans le cadre de ce concours. En effet, il est intéressant de montrer des vidéos liées au changement de tendances, afin d’apporter du contexte et de venir illustrer la visualisation, par exemple.


Google News

Google News ne possède pas d’API, mais les flux RSS (XML formaté possédant les titres, la description et la catégorie des derniers articles) peuvent être utilisés afin d’effectuer un traitement. Il est par exemple possible :
- d'écouter les flux d’actualités ;
- à chaque citation d’un candidat, d'incrémenter un compteur ;
- d'effectuer un traitement sémantique


Twitter

La documentation de l’API twitter est très complète, de nombreuses possibilités sont proposées, du traitement quantitatif à la sémantique. Il est possible d'utiliser Twitter pour enrichir des résultats, comparer, illustrer un changement de tendance, etc.


Les participants ne sont pas obligés d'utiliser ces quatre jeux de données.
Vous trouverez plus de ressources de données ici (n’hésitez pas à les utiliser, soyez inventif !) :


Liste des APIs Google : https://code.google.com/more/
Une liste d’APIs disponibles sur la toile : http://www.programmableweb.com/apis/directory
Comments