Forum

ATELIER DU FORUM STIC 2014

Challenges : Crowdsourcing Big Data Problems

Rencontrez des organisateurs de challenge. Apprenez à exploiter de nouvel outil pour résoudre vos problèmes de Big Data.

ENSTA ParisTech Palaiseau
2 Décembre 2014, 16h00-17h30

Pour participer, vous devez vous INSCRIRE avant le 27 Novembre (inscription gratuite mais obligatoire).

In the big data era, there is an increasing need for efficient and effective data analysis techniques and skilled data scientists. Machine Learning offers a wide range or predictive analytics with application (among others) in biology and medicine, ecology, energy and sustainability management, image, text, audio, speech, video and other sensor data processing, Internet social media management and advertising, market analysis and financial prediction. Challenges in Data Science have proven to be efficient and cost-effective ways to quickly bring to industry solutions that may have been confined to research. In addition, the playful nature of challenges naturally attracts students, making challenge a great teaching resource. Challenge participants range from undergraduate students to retirees, joining forces in a rewarding environment allowing them to learn, perform research, and demonstrate excellence. Therefore challenges can be used as a means of directing research, advancing the state-of-the-art or venturing in completely new domains. 

Les "challenges" ou défis en Science des Données se sont révélés être des méthodes puissantes et rentables pour apporter rapidement des solutions dans des domaines d'application variés, mettant en oeuvre des outils informatiques de pointe. Typiquement, un problème est posé au public sous la forme suivante:
- Les organisateurs fournissent : 
  • Un ensemble de données dites "d'apprentissage" constitué d'exemples de paires entrée/sortie. 
  • Un ensemble de test avec seulement des exemples des entrées pour lesquelles les sorties sont à prédire.
- Les participants sont jugés sur la precision de leurs predictions des sorties sur l'ensemble de test.

Les problèmes qui peuvent se formuler de la sorte sont nombreux et incluent:
- La reconnaissance des formes: à partir de photos ou de signaux audio et/ou video reconnaitre l'écriturela parole, les visages, des objects, des gestes, des actions, etc. Par exemple on peut reconnaitre des codes postaux a partir d'images d'envelopes.
- La classification de textes: à partir des fichiers texte tels que des emails, des pages de web, ou de tout document, obtenir un classement. Par exemple les emails peuvent être classés en "spam" (mauvais) ou "ham" (bon).
- Le diagnostique médical: à partir d'analyses de laboratoire ou d'imagerie médicale prédire les risques de développer des maladies, détecter des conditions rares ou congénitales, effectuer des diagnostiques précis à partir de vastes quantités de données hétérogènes.
- Le marketing: à partir du profil des acheteurs, prédire la retention des clients, cibler les publicités, proposer des crédits.
- La chimie: à partir des formules chimiques, prédire l'affinité des molécules, avec des applications pharmaceutiques entre autre.
- La physiqueà partir de mesures, faire détecter des phénomènes. Par exemple, détecter l'apparition du boson de Higgs à partir de mesures de physique des particules.
- La biologie: faire avancer les connaissances en physiologie ou anatomie. Par exemple, reconstruire la connectivité du cerveau à partir de l'enregistrement de l'activité des neurones.

Le public attiré par les défis est varié:
Le caractère ludique des défis attire naturellement les étudiants, faisant des défis une ressource pédagogique. Néophytes et ingénieurs chevronnés,  jeunes et retraités, unissent leurs forces dans un environnement enrichissant leur permettant d'apprendre, effectuent des recherches et faire preuve d'excellence. Par conséquent défis peuvent être utilisées comme un moyen d'orienter la recherche, de pousser l'état-de l'art, ou de débroussailler des problèmes complètement nouveaux.