Proposition de stage

Génération automatique d'exercices à partir des révisions de Wikipédia

La masse d'informations présentes dans l'encyclopédie collaborative Wikipedia est actuellement l'objet de nombreux travaux visant à acquérir des connaissances pour des applications du Traitement Automatique des Langues telles que la recherche d'informations précises ou la traduction automatique. L'aspect dynamique et contributif de l'encyclopédie la rend également très intéressante du fait des traces de révision des articles qu'elle contient et qui sont ainsi librement accessibles.

En particulier, les révisions proposées par les contributeurs visent régulièrement à corriger différents types d'erreurs :

  • orthographiques

Ces trois parties se rejoingnent pour former une épaisse masse musculaire qui se termine sous forme d'un tendon s'insérant sur l'olécrâne de l'os ulna.
--> Ces trois parties se rejoignent pour former une épaisse masse musculaire qui se termine sous forme d'un tendon s'insérant sur l'olécrâne de l'os ulna.

  • grammaticales

La levure est un champignon unicellulaire apte à la fermentation des matières organiques, animales ou végétales, utilisée pour la fermentation alcoolique des solutions sucrées, ou pour faire lever la pâte du pain.
--> La levure est un champignon unicellulaire apte à la fermentation des matières organiques, animales ou végétales, utilisé pour la fermentation alcoolique des solutions sucrées, ou pour faire lever la pâte du pain.

Ces erreurs sont révélatrices d'un certain nombre de difficultés de la langue française. L'objectif de ce stage sera d'utiliser les erreurs présentes dans les révisions pour générer de manière automatique des exercices du type "textes à trou" avec ou sans choix multiples :

(se) rejoindre
Ces trois parties ______________ pour former une épaisse masse musculaire qui se termine sous forme d'un tendon s'insérant sur l'olécrâne de l'os ulna.

utiliser
La levure est un champignon unicellulaire apte à la fermentation des matières organiques, animales ou végétales, _______________ pour la fermentation alcoolique des solutions sucrées, ou pour faire lever la pâte du pain.
(a) utilisée
(b) utilisés
(c) utilisé
(d) utiliser

D'autres types d'exercices pourront être imaginés, comme la détection d'erreurs dans des textes et leur correction. Il sera pour ce faire nécessaire d'établir une typologie détaillée des erreurs présentes dans les révisions de Wikipédia et de sélectionner celles qui se prêtent au mieux à ce type d'exercices. Un système sur le web permettant ce type de pratique pourrait être utile à la fois pour l'entraînement des apprenants d'une langue étrangère et pour la validation des acquis pour des locuteurs d'une langue.

Le stage aura lieu au LIMSI-CNRS dans le groupe ILES et exploitera les données issues du corpus WiCoPaCo.


Tâches

  • Etude d'un corpus d'erreurs extraites des révisions de Wikipédia et définition d'une typologie d'erreurs.
  • Identification et extraction des indices textuels utiles
  • Développement d'un système pour la génération automatique d'exercices
  • Évaluation du système

Compétences souhaitées

  • Capacité d'analyse et créativité
  • Programmation en Python, Perl ou Java

Références


Contact

Delphine Bernhard, Gabriel Illouz et Aurélien Max (prenom.nom@limsi.fr)