Protokol originality

Protokol o kontrole originality (ďalej len protokol - bližšie informácie nájdete tu) je výstupom zo Systému na odhaľovanie plagiátov pre potreby slovenských akademických a výskumných inštitúcií (ďalej ANTIPLAG), ktorý beží nad Centrálnym registrom záverečných a kvalifikačných prác (ďalej CRZP). Protokol je elektronický dokument generovaný algoritmom na odhaľovanie plagiátov.

Systém ANTIPLAG je systém pre podporu rozhodovania. Jeho výstupom je protokol, elektronický dokument, ktorý upozorňuje na dokumenty, v ktorých bolo identifikované podozrenie na plagiátorstvo. Je nástrojom, ktorý upozorňuje na zhodné alebo identické dokumenty z internetu alebo práce z iných pracovísk, ktoré mohli uniknúť pozornosti školiteľa alebo oponenta pri posudzovaní záverečných prác.

Cieľom algoritmu je pomáhať identifikovať podozrenia a potláčať rôzne formy plagiátorstva. Vďaka plošnému nasadeniu a premyslenému indexovaniu „živého“ internetu je možné zachytiť mnohé pokusy kopírovať práce z iných škôl, predchádzajúcich rokov alebo z internetu. Systém v sebe integruje niekoľko prvkov, akými sú vyhľadávanie vo vlastnej databáze, distribuovanú architektúru dátových úložísk, indexáciu dát, aktívne vyhľadávanie (web crawler), algoritmy pre porovnávanie textu, a iné. Použitá technológia využíva viacstupňový mechanizmus kontroly práce voči korpusu (indexu) prác.

V základných bodoch je možné algoritmus charakterizovať takto:

  • Vytvorenie digitálneho odtlačku dokumentu pomocou špecializovaných nástrojov so zapojením stromu pojmov.

  • Porovnanie odtlačku voči dokumentom v korpuse.

  • Korpus je pravidelne dopĺňaný dátami, ktoré dodávajú vysoké školy, ale aj pomocou automatizovaných webových prehľadávačov z internetu.

  • Vo finálnej fáze sa produkuje protokol s vyznačením bibliografických citácií a liniek na podozrivé dokumenty s informáciami o zhode a pravdepodobnosti zachytenej podobnosti.

Strany protokolu sú očíslované. Protokol je chránený heslom proti manipulácii. V päte dokumentu je jednoznačný identifikátor protokolu (PID) vo forme textu aj čiarového kódu (Code39), dátum vytvorenia protokolu a identifikácia portálu.

V záhlaví protokolu je identifikácia testovanej práce. Vychádza z dát dodaných lokálnym úložiskom Záverečných a kvalifikačných prác (ZP) v procese výmeny dát. Zároveň obsahuje údaj o globálnom percente prekryvu textu (označené ako GP). Globálne percento podobnosti nie je jednoduchým súčtom podobností testovaného dokumentu s jednotlivými dokumentmi, ktoré boli vyhodnotené ako zaujímavé z pohľadu množstva podobností. Dôvodom je fakt, že časť textov môže byť podobná viacerým dokumentom (rovnaký odsek cituje alebo kopíruje viac prác). Celkové percento podobnosti je teda menšie, alebo rovné súčtu parciálnych podobností v jednotlivých dokumentoch (P1, P2, ..., PN).