Proiectul: DarkWebIdentity
Identificarea autorului, coreland texte provenind din Web și DarkWeb, cu scopul asigurarea securității cibernetice
Identificarea autorului, coreland texte provenind din Web și DarkWeb, cu scopul asigurarea securității cibernetice
În această etapă a proiectului ne-am concentrat pe activităţi corespunzătoare etapelor doi, trei, patru şi cinci din
diagrama Gantt. Acestea au implicat trei mari direcţii i) construirea unor seturi mari de date pentru problema
identificării şi verificării autorului, axate pe securitate cibernetică ii) dezvoltarea de modele pentru sarcini de
verificare, identificare şi profilare a autorului şi antrenarea acestora atât pe seturi clasice de analiza autorului, cât şi pe seturile iii) dezvoltarea unui pagini web demonstrative în care să poată fi testate module de analiza autorului, cât şi dezvoltarea şi integrarea modulelor de analiza autorului într-o platforma integrată internă folosită de analiştii Bitdefender.
În ceea ce priveşte primele două direcţii, am pregătit trei lucrări ştiinţifice (2A, 2B, 2C) care sunt în curs de revizuire la conferinţe de rang A/A* (EMNLP, NeurIPS). De asemenea, am dezvoltat o pagină web (3A) care să măsoare progresul ultimelor metode publicate pe analiza autorului în context de securitate cibernetică. În ceea ce priveşte a treia direcţie, am validat platforma în cadrul Bitdefender (3B) şi am raportat rezultate bune din punct de vedere al vitezei şi acurateţii.
De asemenea, ne aflăm într-o fază preliminară de a patenta platforma integrată pentru analiza autorilor în cadrul Biroului Statelor Unite pentru Brevete şi Mărci.
Activitatea 3.1 Distilare funcții kernel în rețele
siameze
Status implementare: 100%
Rezultat: Model siamez de tip Transformer, antrenat cu scopul de a aproxima similaritatea unor nuclee (kernel) pe şiruri de caractere
____________________________________________________________
Activitatea 3.2 Căutare în spațiul rețelelor
siameze (și a altor arhitecturi)
Status implementare: 100%
Rezultat: Modele siameze testate peste PAN (2B), cu rezultate mai slabe decât modelele bazate pe BERT
____________________________________________________________
Activitatea 4.3 Implementare modele pentru
profilarea autorului
Status implementare: 100%
Rezultat: Model de regresie Ridge bazate pe funcție kernel pe şiruri de caractere, pentru identificarea limbii native a unui autor
____________________________________________________________
Activitatea 5.1 Document de specificare a funcționalității și
documentație platformă
Status implementare: 100%
Rezultat:
- demo pentru verificarea şi profilarea autorului
- site de benchmark pentru compararea metodelor de verificare
şi identificare pe VeriDark
- platformă de verificare a autorilor din DarkWeb
integrată cu modulele dezvoltate de noi şi validată de analişti
____________________________________________________________
Activitatea 5.2 Raportul validării tehnologiei în cadrul Bitdefender
Status implementare: 100%
Rezultat:
- US Patent Application 2021 ( Anomaly Detection Systems And M)
- US Patent Application 2022 ongoing (Sistem de verificare şi profilare a actorilor peste DarkWeb)
____________________________________________________________
Activitatea 6.3 Diseminarea rezultatelor prin articole științifice care detaliază elementele inovative din cadrul proiectului
Status implementare: 100%
Rezultat:
- 1 articol publicat la NAACL (rang A) și workshop ICML (rang
A*)
- 3 articole în curs de recenzie la conferinţe de rang A
(EMNLP) și A* ( NeurIPS)
- 2 premii de cel mai bun paper/poster
- https://veridark.github.io/
- Participarea la școli de vară, grupuri de lectura, sesiuni de
comunicari stiintifice, grupul de deep learning meetup
- rezultate validate în urma discuţiilor cu laborator din
Maastricht care lucrează în acelaşi domeniu de analiza
autorului în DarkNet.
____________________________________________________________