Flemm calcule le lemme de chaque mot fléchie (en fonction de l'étiquette) et fournit également les traits flexionnels principaux :
genre et nombre pour les adjectifs, déterminants, participes
nombre pour les noms
genre, nombre, personne et cas pour les pronoms
nombre, personne, temps, mode and groupe de conjugaison pour les verbes
Les traits sont codés en fonction des spécifications lexicales recommandées pour le français par le consortium Multext sous leur forme compacte. En plus des traits standards, un champ a été ajouté pour les verbes, de manière à coder leur famille flexionnelle (1er, 2e ou 3e groupe).
De plus, Flemm vérifie et corrige un certain nombre d'erreurs de segmentation ou d'étiquetage. Quand cela est demandé par l'utilisateur, les erreurs détectées, ainsi que leurs corrections correspondantes sont reportées dans des fichiers spéciaux.
Quel que soit le résultat de la vérification de l'étiquetage, Flemm renvoie l'étiquette d'origine, telle qu'elle avait été produite par l'étiqueteur.
Les modules et sous-répertoires suivants sont inclus dans l'arborescence Flemmv3.1 :
Flemmv31: /Modules principaux, et programmes de test/
Flemm.pm flemm.pl flem_ex1.pl flem_ex2.pl flem_ex3.pl flem_ex4.pl flem_ex5.pl LICENCE.txt README.txt
Flemmv31/Flemm: /packages requis pour exécuter Flemm.pm/
Analyse.pm Analyses.pm Brill.pm Exceptions.pm Feature.pm Features.pm Lemmatizer.pm Result.pm TreeTagger.pm
Flemmv31/Flemm/Utils: /packages utilitaires/
List.pm
Flemmv31/tests: /échantillons de fichiers d'input, a éxécuter
avec les programmes test : test_bll_1.input et agatha.bll sont étiquetés par Brill, test_tt_1.input et pls.tt sont étiquetés par Treetagger/ test_bll_1.input test_tt_1.input agatha.bll pls.tt
Flemmv31/EXCEP: /L'ensemble des listes d'exception/
adjectifs_finissant_par_CCe adjectifs_finissant_par_Ve adjectifs_finissant_par_aOUos adjectifs_finissant_par_an_e adjectifs_finissant_par_ane adjectifs_finissant_par_ere adjectifs_finissant_par_ine adjectifs_finissant_par_is adjectifs_finissant_par_man_e adjectifs_finissant_par_oOUil adjectifs_finissant_par_ol adjectifs_finissant_par_sOUte adjectifs_finissant_par_sse_s adjectifs_finissant_par_ure adjectifs_finissant_par_us noms_finissant_par_AEus noms_finissant_par_Cs noms_finissant_par_ail_x noms_finissant_par_as noms_finissant_par_au_x noms_finissant_par_aux noms_finissant_par_e_ee noms_finissant_par_euse noms_finissant_par_eux noms_finissant_par_i_s noms_finissant_par_ier_e noms_finissant_par_os noms_finissant_par_ou_x noms_finissant_par_ous noms_finissant_par_u_s noms_finissant_par_ys verbes_finissant_par_ERer verbes_finissant_par_FPHer verbes_finissant_par_ayer verbes_finissant_par_ier verbes_finissant_par_eCer_naccent verbes_finissant_par_eLer_aigu verbes_finissant_par_eNTer_aigu verbes_finissant_par_igner verbes_finissant_par_eMer_naccent verbes_finissant_par_irer verbes_finissant_par_eRer_naccent verbes_finissant_par_ller verbes_finissant_par_eSer_naccent verbes_finissant_par_eVer_aigu verbes_finissant_par_ePer_naccent verbes_finissant_par_isser verbes_finissant_par_tter
S'assurer que l'adresse du répertoire d'installation de Flemmv3.1 est ajoutée à la variable d'environnement PER5LIB, e.g.:
export PERL5LIB=~/Flemmv31
Exécuter :
perl flemm.pl --entree ~/Flemmv31/tests/agatha.input --log --logname test_bll_1 --progress --format normal --tagger brill perl flemm.pl --entree ~/Flemmv31/tests/test_tt_1.input --sortie ~/Flemmv31/tests/test_tt_1.xml --format xml --tagger treetagger
Il faut fournir à Flemm en entrée une forme fléchie munie d'une catégorie grammaticale. A ce jour, les deux seuls étiqueteurs acceptés par Flemm sont Brill entraîné pour le français et Treetagger.
Flemm est distribué sous la Licence Publique Générale GNU publiée par la Free Software Foundation (version 2 ou bien toute autre version ultérieure choisie par vous).
mise à jour par rapport au nouveau jeu d'étiquettes de TreeTagger (3.1)
résultats conçus sous forme d'APIs en Perl
modules entièrement documentés (voir fonction perldoc)
traits flexionnels formatés selon les recommandations de Multext
les deux modes d'affichage possibles des résultats sont le mode linéaire, et le format XML.