M1 TAL: Introduction au traitement des langues
Institut Galilée
Syllabus
Syllabus
Introduction au traitement du texte et à la Recherche d’Information
Techniques d’indexation: bag of words, tf.idf
Moteurs de recherche
Classification des documents (méthode Naïve Bayes)
Modèles de langue n-gramme / entropie / perplexité / smoothing /
sampling
Tagging HMM / étiquetage / viterbi / n-gramme
entités /morphosyntaxique
Parsing avec grammaires
algorithme CKY
Théorie de la traduction automatique:
modèle noisy channel / traduction “IBM” / problèmes d’alignement
Quelques concepts de sémantique distributionnelle
word2vec