Proiectul: DarkWebIdentity
Identificarea autorului, coreland texte provenind din Web și DarkWeb, cu scopul asigurarea securității cibernetice
Identificarea autorului, coreland texte provenind din Web și DarkWeb, cu scopul asigurarea securității cibernetice
În prima etapă a proiectului “Identificarea autorului unui text în DarkWeb” au fost analizate lucrări reprezentative din domeniul analizei autorului, atât trimise în cadrul competiției PAN, cât și publicate la conferințe de Procesarea Limbajului Natural. În cadrul studiului am observat că există în continuare o pondere mare a soluțiilor de top ce folosesc tehnici clasice de învățare automată, însă metodele cu învățare adâncă devin din ce în ce mai utilizate. Totodată, seturile de date din ultimii doi ani reflectă această tendință, competiția PAN având chiar evaluări separate pentru regimuri cu date puține și cu date mai multe. De asemenea observăm o varietate mare de arhitecturi pentru analiza autorului. O parte din ele sunt bazate pe arhitecturi siameze, însă spre deosebire de propunerea noastră, învață spații metrice induse de identitatea autorilor, nu spații induse de funcții kernel pe șiruri, dovedite utile în surprinderea particularităților stilistice.
În următoarea etapă vom colecta corpusurile din cadrul competițiilor PAN descrise în acest raport, la care vom adăuga corpusuri colectate din platforme de social media și DarkWeb. Acestea sunt cruciale pentru etapa ce va urma, în care vom antrena modele siameze ce surprind reprezentări ale textului potrivite pentru analiza autorului, modele ce reprezintă o piatră de temelie a proiectului nostru.
Activitatea 1.1 Analiză a Contextului Științific.
Status implementare: 100%
Rezultat: Raportul științific și tehnic
____________________________________________________________
Activitatea 2.1 Colectare corpus din PAN@CLEF.
Status implementare: 90%
Rezultat: Colectarea și agregarea datelor 2013-2020
____________________________________________________________
Activitatea 2.2 Construire corpus din platforme de socializare/forumuri
Status implementare: 50%
Rezultat: Extragere corpus din forumuri CleanWeb
____________________________________________________________
Activitatea 2.3 Construire corpus din DarkWeb
Status implementare: 30%
Rezultat: Extragere corpus din forumuri DarkWeb
____________________________________________________________