Description du cours :
Au cours de la dernière décennie, nous avons assisté à l’émergence d’applications numériques nécessitant de faire face à de gigantesques quantités de données, générées de plus en plus rapidement. Ces applications (surveillance de réseaux, biologie et médecine, applications financières, réseaux sociaux, etc.) nécessitent un besoin grandissant de techniques capables d’analyser et de traiter ces grandes masses d’information, avec précision et efficacité. La statistique rejoint ici les sciences du numérique, et plus précisément l’informatique répartie, pour proposer de nouvelles approches, relatives au Big Data. Les techniques et les modèles doivent prendre en compte le volume pléthorique de ces données, mais également leur géné- ration rapide en continu (vélocité) ainsi que la diversité de leur format (variété) et la qualité de l’information (véracité), appelés communément les 4V du Big Data.
Que se cache-t-il derrière l’expression marketing « Big Data » ?
• La volumétrie : un problème de performance
• La vélocité : un problème d’efficacité
• La variété : un problème d’hétérogénéité
• La véracité : un problème de qualité
Une mise en pratique avec le cadriciel Apache Storm sera proposé en séance de travaux pratiques.
Supports du cours :
(A venir au fur et à mesure de l'avancement du cours)