Extraction et validation de tweets dans le temps et l'espace. Application au cas de la santé
Membres : S. Amer-Yahia (DR CNRS LIG), M.R. Amini (PR-LIG), M. Clausel (PR-IECL), S.T. Mai (post-doctorant LIG), A. Mtiibaa (étudiant ENSTA), L. Navarro (C.R. EMSE), M. Rebai (étudiant ENSTA), S. Sidana (doctorant LIG).
Objectifs
Notre projet se situe dans la continuité de deux projets précédents, Crowdhealth et TrueTweets, à l'issue duquel nous avons proposé une chaîne d’acquisition et de préparation des tweets géo-taggués. Nous avons collecté de manière continue des tweets depuis Octobre 2014. A l'heure actuelle, nous avons plus de 4 millions de tweets geotaggués. Nous les avons tout d'abord filtrés en considérant qu'un tweet est relatif à la santé s'il contient un mot relié à ce thème. La classification est automatisée à l'aide d'un classifieur SVM qui a été entrainé sur plus de 5000 exemples positifs et négatifs. Sur les 1.36 millions de tweets collectés, 698 000 étaient relatifs au thème de la santé. L'objectif est de détecter d'éventuels changement de régimes et des zones géographiques plus ou moins liées à certaines affections ou pathologies. Plus précisément, nous souhaitons
- comprendre ce qui influence l'évolution du corpus et ainsi identifier un certain nombre de facteurs de risque (alimentation, environnement...) sur la santé des individus.
- détecter les différentes communautés de twitters et comprendre leur évolution dans le temps, et ce à différents niveaux de granularité. Une question naturelle serait alors de détecter si dans chaque communauté il y existe des nœuds plus actifs et surtout plus connectés que d'autres. Une question naturelle serait alors de savoir si l'on est capable de détecter d'éventuels hubs dans le réseau assurant une diffusion de l'information concernant les questions de santé
- par ailleurs l'intérêt des données twitter est qu'elles sont abondantes ce qui n'est pas le cas d'autres données qui peuvent être difficiles à collecter. Une question essentielle est de savoir à quel point les informations que nous fournissent les tweets sont fiables, et si cela pourrait constituer une source alternative à d'autres données institutionelles. L'enjeu sociétal est bien évidemment très important car si l'hypothèse s'avérait vérifiée on disposerait d'indicateurs en temps réel d'un certain nombre de phénomènes comme les épidémies par exemple. D'autre part, ceci ouvrirait des perspectives intéressantes en ce qui concerne la prédiction des arrivées aux urgences, thème crucial dans la gestion des ressources hospitalières.
Approche
Notre approche est basée sur l'utilisationde modèles probabilistes. Nous analysons le contenu de nos tweets en modélisant notre corpus, comme le résultat d'un procédé de génération aléatoire qui consiste tout d'abord à associer à chaque document les thèmes sous jacents relatiifs à son contenu, puis ses mots. Nous nous basons sur des approches de type topic modeling étendant en cela des modèles classiques, le plus populaire étant le Latent Dirichlet Allocation (LDA) [1].
Résultats actuels
Dans [SIG16] nous avons proposé et implémenté une extension du modèle LDA (Latent Dirichlet Allocation)[1], afin de permettre le suivi de la santé des individus dans le temps et l’espace. Afin de tenir compte à la fois de cet aspect temporel et du vocabulaire spécifique de nos tweets de santé, nous avons combiné deux modèles existants : ATAM [2] et TM-LDA [3]. Nous avons ainsi proposé le modèle temporel TM-ATAM, dans lequel l’évolution de la santé des individus est représentée comme une matrice de transition entre périodes de temps consécutives. Nous avons ensuite amélioré ce modèle dans [TKDE18] par l’intégration des instants de transitions comme paramètres du modèle ce qui nous a permis de proposer le modèle T-ATAM. Nous avons alors proposé une procédure d’estimation et montré la forte corrélation entre le contenu de nos tweets et des données épidémiologiques, ce qui a mis en évidence la validité de notre approche visant à considérer les tweets comme des capteurs humains.
Nous avons aussi mis au point une interface de visualisation permettant notamment de sélectionner un niveau de granularité spatio-temporel (région, intervalle de temps) et de s’attacher plus particulièrement à l’étude d’une ou plusieurs maladies précises (ailment-tracker). Plusieurs informations sont disponibles sur chaque maladie, notamment les mots clés relatifs à chaque affection ce qui permet à la fois de la décrire et de l’identifier. On peut aussi visualiser sur une carte les lieux où l’on parle de cette maladie ainsi que le nombre de tweets associé à chaque lieu. L’interface permet aussi de visualiser les transitions en utilisant le modèle TM-ATAM
Une présentation générale de notre projet pourra être trouvée dans [BDD17]
Références
[1] Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
[2] Paul, M. J., & Dredze, M. (2011). You are what you Tweet: Analyzing Twitter for public health. Icwsm, 20, 265-272.
[3] Wang, Y., Agichtein, E., & Benzi, M. (2012, August). TM-LDA: efficient online modeling of latent topic transitions in social media. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 123-131). ACM.
Publications associées au projet
[SIG16] S. Sidana, S. Mishra, S. Amer-Yahia, M. Clausel, M. R. Amini, Health Monitoring on Social Media over Time. SIGIR (2016).
[BDD17] S. Amer-Yahia, M. Clausel, P.A. Davoine, Les tweets, des capteurs humains In "Les Big Data à découvert", pp 272-273, CNRS Editions (2017)
[TKDE18] S. Sidana, S. Amer-Yahia, M. Clausel, M. Rebai, M.R. Amini, S. T. Mai, Health Monitoring on Social Media over Time. To appear in IEEE Transactions on Knowledge and Data Engineering (2018).