Titre de la nouvelle équipe de recherche proposée Laboratoire LCPTS
Equipe :
Exploration de Données Textuelles
pour des Applications Audio et Multimédia
Membres de l’équipe :
1. Pr Sayoud Halim LCPTS Professeur [chef d’équipe]
Fac. d’électronique et d’informatique USTHB
2. Dr Ouamour Siham LCPTS Maître de Conférences de classe A
Fac. d’électronique et d’informatique USTHB
3. Mr Khennouf Salah LCPTS Maître Assistant de classe A, Université de Msila et inscrit avec Pr Sayoud, FEI USTHB
4. Mlle Bourib Samira LCPTS Maître Assistante de classe A, Fac FEI USTHB
et inscrite avec le Pr Sayoud, Fac FEI USTHB
5. Mlle Fodil Leila LCPTS Doctorante de Pr Sayoud et enseignante vacat.
Fac. d’électronique et d’informatique USTHB
6. Mlle Hadjadj Hassina LCPTS Doctorante de Pr Sayoud
Fac. d’électronique et d’informatique USTHB
7. Mr Abainia Kheiredine LCPTS Doctorant de Dr Ouamour
Fac. d’électronique et d’informatique USTHB
8. Mlle Kenai Wassila LCPTS Doctorante de Dr Ouamour
Fac. d’électronique et d’informatique USTHB
9. Mlle Hamadache Zhor LCPTS Doctorante de Pr Sayoud et enseignante vacat.
Fac. d’électronique et d’informatique USTHB
Cette équipe aura pour but de compléter les tâches du laboratoire par l’ouverture sur de nouvelles spécialités proches du thème de notre laboratoire de communication parlée et traitement du signal.
Notre équipe proposée est intitulée : Exploration de Données Textuelles pour des Applications Audio et Multimédia (abreviation : TDE ou Textual Data Exploration for Audio and Multimedia Applications). Elle a pour objectif l’exploration et la classification automatique, basées sur des concepts de linguistique computationnelle et de traitement de l’information, de documents textuels qui généralement sont issus de flux audio ou de documents multimedia. Les principales applications ciblées sont l’exploration de parole transcrite, l’indexation de données multimédia (sous-titrage TV audio-visuel, Analyse de contenu de sites web, etc.) et les données mobiles (tels que SMS, Télétexte, Emails, etc.)
Les techniques proposées sont détaillées dans le cahier de charge ci-dessous.
Notre équipe comprend, pour le moment, quatre Enseignants chercheurs permanents et cinq autres doctorants, ce qui fait un effectif de 9 chercheurs. En voici la description :
Objectif interne de l’équipe
Compléter le Laboratoire « Communication Parlée et Traitement du Signal» par notre équipe (TDE) et le renforcer par l’introduction de trois nouvelles disciplines : la linguistique computationnelle, le traitement de l’information (audio et textuelle) et le Data Mining, qui ne cessent d’émerger durant ces dernières années dans les grands laboratoires de traitement de la parole, d’informatique et de linguistique. Une forte collaboration est souhaitable pour les échanges scientifiques entre les membres du laboratoire et voir quels sont les besoins généraux du Labo où l’on peut apporter un "plus".
Objectif externe de l’équipe
Participer à des conférences pour exposer et critiquer nos résultats, Organiser des conférences conjointement avec les autres équipes du laboratoire, Proposer des projets de recherche d’impact pratique, Former des magister et des doctorants, Réaliser des applications utiles aux entreprises et à l’humanité en général, Rechercher des accords programmes internationaux (nous avons déjà été sollicités par l’ IRIT de Toulouse, le LIA d’Avignon et l’ENST de Paris), etc…
Thématiques générales de l’équipe
- Linguistique Computationnelle et Traitement automatique du langage naturel
- Exploration de parole transcrite
- Indexation de documents enrichis (multimédia)
- Catégorisation de données textuelles avec classification automatique
- Traitement d’information multimédia cachée/cryptée
- Intelligence artificielle appliquée au TALN
- Télécommunications modernes par texte
Projets de Recherche en cours
Titre : Classification et Exploration Linguistique de Données Textuelles.
Début du projet : 1er Janvier 2014.
Publications Scientifiques
Conférences
1-TIR-2015 – Spain, 12th International Workshop on Text-based Information Retrieval (TIR-15), Spain September 1-4, 2015. Accepted.
Topic Identification of Noisy Arabic Texts Using Graph Approaches.
To appear (accepted) in the IEEE proceedings of the 12th International Workshop on Text-based Information Retrieval (TIR-15), Spain. http://tir.webis.de/
2-ICTRC-2015 - Abu-Dhabi, UAE, May 17-19, 2015.
Title: Topic Identification of Arabic Noisy Texts Based on KNN. International Conference on Information and Communication Technology Research (ICTRC'2015), May 17-19, 2015, pp 89-92. http://events.kustar.ac.ae/ictrc2015/
3-NCENT-2015 – Msila, May 19-20, 2015.
Title: SMO-SVM Classifier and Manhattan Distance for authorship attribution of Arabic texts. National Conference on Electronics and New Technologies (NCENT’2015), M'Sila, Algeria. http://www.univ-msila.dz/umvfr/documents/pdf/First%20Call.pdf
4-NCENT-2015 – Msila, May 19-20, 2015.
Title: Theme Classification: A Statistical Approach. National Conference on Electronics and New Technologies (NCENT’2015), M'Sila, Algeria. http://www.univ-msila.dz/umvfr/documents/pdf/First%20Call.pdf
5-NCENT-2015 – Msila, May 19-20, 2015.
Title: Automatic Author Identification Using Different Document Sizes. National Conference on Electronics and New Technologies (NCENT’2015), M'Sila, Algeria. http://www.univ-msila.dz/umvfr/documents/pdf/First%20Call.pdf
6-IVAPP-2015 - Berlin, Germany, March 11-14, 2015.
Title: A Visual Analytics based Investigation on the Authorship of the Holy Quran. The 6th International Conference on Information Visualization Theory and Applications (IVAPP'2015), March 11-14, 2015, pp 177-181. http://www.ivapp.visigrapp.org/?y=2015
7-AICCSA-2014 - Doha, Qatar, November 10-13, 2014.
Title: Automatic Authorship Classification of Two Ancient Books: Quran and Hadith. The 11th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA'2014), November 10-13, 2014. pp 666-671. http://cse.qu.edu.qa/aiccsa2014/
8-AICCSA-2014 - Doha, Qatar, November 10-13, 2014.
Title: SPEAKER BASED CLUSTERING USING THE DIFFERENTIAL ENERGY. The 11th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA'2014), November 10-13, 2014. pp 672-677. http://cse.qu.edu.qa/aiccsa2014/
9-TIR-2014 - Munich, Germany (with DEXA-2014), September 4 (1-4), 2014.
Robust language identification of noisy texts: Proposal of hybrid approaches. International Workshop on Text-based Information Retrieval TIR2014. Authors: Sayoud et al. http://tir.webis.de or www.dexa.org, pp 228-232.
10-TKE-2014 - Berlin, Germany, June 24-26, 2014.
Theme classification of Arabic text: A statistical approach. International Conference on Terminology and Knowledge Engineering TKE-2014. Authors: Sayoud et al. https://tke2014.coreon.com/ or for the paper: http://hal.archives-ouvertes.fr/hal-01005873.
11-ICTA-2013 - Hammamet, Tunisia, October 24-26, 2013.
Automatic Speaker Localization based on Speaker Identification -A Smart Room Application. International Conference on ICT & Accessibility ICTA2013. Authors: Sayoud et al. http://www.icta.rnu.tn/index.php?picta=1. IEEE Xplore.
12-CYBERC-2013 - Beijing, China, October 10-12, 2013.
Authorship Attribution of Short Historical Arabic Texts Based on Lexical Features. CyberC – International Conference on Cyber-enabled distributed computing and knowledge discovery CyberC conference - 2013. Authors: Sayoud et al. http://www.cyberc.org/cyberc2013/. IEEE Xplore.
13-CYBERC-2013 - Beijing, China, October 10-12, 2013.
Speaker Detection on Telephone Calls Using Fusion between SVMs and Statistical Measures. CyberC – International Conference on Cyber-enabled distributed computing and knowledge discovery CyberC conference - 2013. Authors: Sayoud et al. http://www.cyberc.org/cyberc2013/. IEEE Xplore.
14-CITS-2013 - Athens, Greece, May 7-8, 2013.
Authorship Attribution of Ancient Texts Written by Ten Arabic Travelers Using Character N-Grams. International Conference on Computer, Information and Telecommunication
Systems, CITS 2013. Authors: Sayoud et al. http://atc.udg.edu/CITS2013/. IEEE Xplore.
15-STA-2012 - Monastir, Tunisia, December 17-19, 2012.
Automatic Speaker Detection Using Support Vector Machines and an Interlaced Segmentation -Application on Telephonic Talks-.
Accepted in the 11th International conference on Sciences and Techniques of Automatic control & computer engineering. Authors: Sayoud et al. http://www.sta-tn.com, pp 1517-1525.
16-ICCSE 2012 - London, UK, July 4-6, 2012,
Virtual System of Speaker Tracking by Camera Using an Audio-Based Source Localization. Conference ICCSE, July 4-6, 2012, London, UK. pp 819-822.
17-ICCIT 2012- Hammamet, Tunisia, June 26-28, 2012.
Authorship Attribution of Ancient Texts Written by Ten Arabic Travelers Using a SMO-SVM Classifier. ICCIT 2012, Hammamet, Tunisia, June 26-28, 2012, pp 37-40.
18-LREC 2012- Istanbul, 22 May 2012.
Authorship Classification of two Old Arabic Religious Books Based on a Hierarchical Clustering. LRE-Rel: Language Resources and Evaluation for Religious Texts. 22 May, Lütfi Kirdar Convention & Exhibition Centre Istanbul, Turkey, pp 65-70.
Le Responsable de
l’équipe proposée
Motivation
Aborder les spécialités les plus récentes et les plus pointues en exploration de données textuelles en rapport avec les applications audio, multimédia et mobiles en essayant d’apporter des solutions et des innovations aux problèmes pratiques actuels, ou au moins être au diapason de ce qui se fait dans les meilleurs laboratoires mondiaux, dans le domaine de la linguistique computationnelle. A titre d’indication, les pays membres de la communauté Européenne, les état unis, le Japon et le Canada ont déjà établi un puissant réseau de laboratoires de grande renommée pour une collaboration scientifique mutuelle : appelé ACL ou « Association for Computational Linguistics », auquel nous nous referons souvent pour évaluer nos travaux de recherche. Site web : https://www.aclweb.org/
Objectif principal de l’équipe
Nous proposons de faire des travaux dans le domaine de l’exploration de données textuelles en rapport avec les applications audio, multimédia et mobiles dans un but de classification par auteur, par thème, par genre etc…. Nous nous intéressons à l’information véhiculée par le texte, par le son ou par tout autre type de mode, susceptible de permettre une fouille intelligente de l’information.
L’axe principal de l’équipe aura pour objectif l’exploration et la classification automatique, basées sur des concepts de linguistique computationnelle et de traitement de l’information, de données textuelles.
Par ailleurs, les principales applications ciblées sont l’exploration de données audio (tels que l’exploration de parole transcrite, sous-titrage TV audio-visuel, Analyse de contenu de sites web, etc.) et l’exploration de données mobiles (tels que SMS, Transmissions de Télétexte par satellite, Emails, etc.)
Les techniques utilisées sont basées (non exclusivement) sur l’Apprentissage Artificiel, le TALN (traitement automatique du language naturel), le Data Mining, le traitement de l’information multimédia et les moyens modernes de télécommunication.