A plágiumkeresés dilemmái és megoldásai
Nagy István Monguz Kft. Networkshop 2016
Qulto - Monguz Kft.
● Monguz Kft. ○ szakterületek ■ közgyűjteményi informatika ■ tudás-menedzsment ■ kulturális turizmus ○ ~50 fő ● Qulto platform ○ A közgyűjteményi informatika és a tudásmenedzsment területén szerzett két évtizedes szakértelmünk esszenciája ● Qulto companies ○ Monguz Kft., Magyarország (Bp, Szeged) ○ Cultware SRL, Románia (Kolozsvár) ○ Cultware Sp. z o.o., Lengyelország (Varsó, Lodz)
Mit nevezünk plágiumnak?
● Szótár ○ plágium: “szellemi alkotás eltulajdonítása”* ○ plagizál: “(idegen szellemi alkotást) a magáénak tüntet fel”* ● Vizsgált kontextus ○ Szakdolgozatok, disszertációk plágium vizsgálata ○ Emberi kiértékelés ○ Nagy méretű digitális dokumentumtárak ○ Informatikai asszisztáló eszközök
©
* Magyar értelmező kéziszótár
Idézet vagy plágium?
● Szabályos idézés nem plágium ○ Csak nyilvános mű idézhető ○ Tartalom nem változtatható ○ Idézett szakasz jól láthatóan elkülönül ○ Befogadó szöveg terjedelmével arányos ○ Befogadó szöveg is önálló mű kell hogy legyen ● Idézési módok ○ Pontos idézés, idézőjelek között, forrás hivatkozással ○ Más szerzőtől származó tartalom újrafogalmazása, forrás megjelöléssel
Hivatkozások
● Hivatkozási módok ○ Zárójelezett alak az idézett szöveg után ○ Lábjegyzetben, felső indexszel összekötve ○ A szövegkörnyezet által hordozva ○ Kiegészítő hivatkozás az irodalomjegyzékben ● Hordozott információk a forrás műről ○ a mű szerzője/szerzői ○ pontos cím ○ megjelenési dátum ○ megjelenési hely ○ forrás oldalszám(ok)
Plágiumkereső működése
● Nem plágiumot keres, csak gyanús hasonlóságokat ● A döntést továbbra is a felhasználó hozza ● Lépések ○ Forrásdokumentum elemzése és feldolgozása ○ Összevetés a céladatbázissal ○ Talált hasonlóságokról interaktív és nyomtatható riport készítése ● Célok ○ Fals pozitívek redukálása ○ Minél több tényleges plágium észrevétele ○ Hasznos riport generálás
Példa (TurnItIn)
Forrás dokumentum kezelés
● Szükséges funkciók ○ Elterjedt dokumentum formátumok támogatása ○ Nyelv detekció ○ Egységes szövegformátumra konvertálás ■ Dokumentum “felrobbanthatósága” ■ Reprodukálható pozícionálás ■ Könnyű megjelenítés ○ Repozitóriumi szoftver integráció (pl. OAI-ORE) ○ Internetes források kezelése ○ Hozzáférhetőség kezelés (dokumentum szövege)
Dokumentum elemzés
● Hasonlóságkereső algoritmusok ○ Elemzési fázis ■ Dokumentumjellemzők kinyerése ■ Forrásnyelvfüggő konfiguráció ■ Köztes reprezentáció tárolása ■ Számítási gyorsítótár építés ○ Összevetési fázis ■ Dokumentum jellemzők összevetése ■ Találatok generálása (mű és pozíció adatok, pontszám)
Algoritmus követelmények
● Technikai követelmények ○ Reális kiszámítási idő ○ Reális erőforrásigény (processzor- és tárhelyigény) ● Működésbeli követelmények ○ Következetes működés ○ Adatvédelem (nem reverzibilis tárolás) ○ Kijátszhatatlanságra törekvés
Feldolgozó algoritmusok
Átfedő szöveg keresés (substring matching) ● A dokumentum egészének vagy részének egzakt előfordulását vizsgálja ● Előnyök ○ Felismeri a direkt másolásokat ○ Egyszerű implementáció ● Hátrányok ○ Nagy tárhelyigény ○ Számításnál nagy IO igény ○ Rugalmatlan ○ Gyenge adatvédelem
Feldolgozó algoritmusok
Bag of words (szózsák) ● Dokumentumot feldolgozási egységekre bontja és jellemző vektorokat generál, majd összevetésnél koszinuszos hasonlóságot számol ● Előnyök ○ Könnyen indexelhető ○ Hatékony összevetés ○ Irreverzibilis tárolás ● Hátrányok ○ Zaj érzékeny ○ Felbontási határokon átívelő plágiumok
Feldolgozó algoritmusok
Citációs összevetés ● A dokumentum szövege helyett a szabványosan elhelyezett hivatkozásokat keressük és ezek között keres hasonlóságokat és egyezéseket ● Előny ○ Több nyelv között is működik ● Hátrány ○ Természetes nyelvi elemzést igényel ○ Tanulóadatbázis tartalmától és minőségétől függ ○ Kevés tapasztalat ○ Nem egyértelmű hasznosság
Feldolgozó algoritmusok
Stylometry (stílus metrika) ● Statisztikai módszereket felhasználva meghatározza az író jellegzetes stílusjegyeit és azon szakaszokat keresi, amelyek elütnek ettől. ● Előnyök ○ Észreveszi a rejtett plágiumot ● Hátrányok ○ Nehezen megvalósítható ○ Alacsony felismerési arány
Feldolgozó algoritmusok
Forrás: Wikipedia
Összehasonlító adatbázis
● Kulcsfontosságú a minősége ● Gyakori másolási forrásokkal kell feltölteni ○ Felsőoktatási repozitóriumok dokumentumai (adat védelem) ○ Cikkek ○ Könyvek ○ Internetes források ● Legitimitás vizsgálat ● Struktúrált metaadat elérhetősége
Célközönség, hasznosíthatóság
● Szakdolgozat írója ○ Önellenőrzés ○ Irodalomjegyzék készítés segítése ● Felsőoktatási intézmény ○ Automatikus vizsgálat beadáskor ○ Döntéstámogatás dokumentumok elbírálásakor ○ Oktatási rendszer integráció (LTI)
Piacon lévő megoldások
Forrás: http://plagiat.htw-berlin.de/software-en/test2013/report-2013/
Qulto plágiumkereső
● Pilot partnerek számára elérhető és tesztelhető ● Források ○ Partnerek repozitóriumai ○ Internetes források ● Jogi problémák feloldása ○ Intézményi és központi modulok ○ Teljes szöveg az intézménynél marad ○ Repozitóriumi szoftver integráció ● Bővíthetőség (algoritmusok, források) ● Webes alkalmazás a kiértékeléshez ○ Interaktív eredmény feldolgozás ○ Riport készítés
Köszönöm a figyelmet! Nagy István
[email protected]
A Qulto Plágiumkeresővel kapcsolatban keressék Czoboly Miklóst:
[email protected]