La reconnaissance optique de caractères (OCR) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou sur un autre support exploitable par un système informatique.
La reconnaissance de caractère est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, on pensait qu'il s'agissait d'un problème facile, mais il apparut qu'il s'agissait d'un sujet beaucoup plus intéressant. Il faudra encore de nombreuses décennies aux ordinateurs, s'ils y parviennent un jour, pour lire tous les documents avec la même précision que les êtres humains.
Medhi AMRANI
Alexy LEVILLAIN
Jean-Jules SUN
Sadio SYLLA
LA PREMIERE SOUTENANCE :
Binarisation de l'image
Lissage de la longueur de ligne horizontale dans la partie détection de texte
Réseau de neurones
Vérification orthographique de résultat
LA DEUXIEME SOUTENANCE :
Interface du logiciel
Détection et découpage des caractères
Entraînement de Réseau de neurones sur les caractères
LA SOUTENANCE FINALE:
Interface du logiciel (amélioré avec glade)
Prétraitement (amélioré avec Tesseract et Leptonica)
Détection de texte et segmentation de l'image (amélioré avec Tesseract et Leptonica)
Reconnaissance des caractères (amélioré avec Tesseract et Leptonica)
Requête HTTP et recherche sur Internet (développé avec cURL)
Groupe formé aléatoirement : Difficulté de s'organiser pour travailler en groupe au début
Le départ d'un membre : Alourdir le travail et forcer à refaire la répartition de travail