Systémy na odhalování plagiátů Mgr. Ľuboš Lunter doc. Ing. Michal Brandejs, CSc. Ing. Jitka Brandejsová
studijní materiál ke kurzu Odborné publikování, citační etika a autorské právo s podporou ICT
Fakulta informatiky a managementu Univerzity Hradec Králové
Projekt Informační, kognitivní a interdisciplinární podpora výzkumu je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
1. Úvod Informatizace a rozšíření IT do všech oblastí života se sebou přineslo i výrazné zvýšení dostupnosti odborné literatury, závěrečných prací a dalších relevantních odborných zdrojů. Lehká dostupnost zdrojů však přináší i negativní jevy v podobě přivlastnění si textů (ať už vědomé nebo nevědomé, díky nezvládnutí práce s literaturou a nezvládnutí citování) jiných autorů. V roce 2004 spustila Masarykova univerzita elektronický Archiv závěrečných prací v Informačním systému Masarykovy univerzity (IS MU), ve kterém byly závěrečné práce studentů přístupné všem autentizovaným uživatelům systému. Tím se výrazně zvýšila dostupnost závěrečných prací na MU. Aby nedocházelo ke zneužívání prací studentů, byl v roce 2006 v IS MU nasazený systém na odhalování plagiátů. V roce 2006 úpravou legislativy, umožňující závěrečné práce studentů zveřejňovat prostřednictvím databáze, se začaly všechny závěrečné práce na MU zveřejňovat a služby vyhledávání plagiátů poptávaly i další školy. To vedlo ke společné iniciativě vysokých škol, které v roce 2008 v rámci centralizovaného rozvojového projektu MŠMT C1/2008 'Národní registr VŠKP a systém na odhalování plagiátů' spolupracovaly na vývoji a nasazení systému na odhalování plagiátů Theses.cz. Na základě pozitivních zkušenosti s odhalováním plagiátů v závěrečných pracích začali uživatelé, zejm. humanitních oborů, poptávat možnost využít služby odhalování plagiátů nejen u závěrečných prací, ale také u prací seminárních aj. To opět vedlo ke společnému projektu veřejných vysokých škol Odhalování plagiátů v seminárních pracích v roce 2009, v rámci kterého vznikl systém Odevzdej.cz. V roce 2010 byly systémy zdokonaleny a obohaceny např. o algoritmus vyhledávání plagiátů na internetu. V roce 2011 byly systémy na odhalování plagiátů v závěrečných pracích a seminárních pracích obohaceny o další systém – Repozitar.cz zaměřený na sběr a kontrolu zaměstnaneckých děl. 2. Terminologie Plagiát Definice slova plagiát je v souvislosti se systémy na odhalování plagiátů problematická. Česká terminologická databáze knihovnictví a informační vědy (TDKIV) na stránkách Databáze Národní knihovny ČR [1] uvádí definici: „Plagiát je nedovolená napodobenina (přesná nebo částečná) uměleckého nebo vědeckého díla jiné osoby, která je bez uvedení předlohy vydávána za originál; její původce tak porušuje autorská práva autora původní předlohy.“ ČSN ISO 5127-2003 definuje plagiát jako „představení duševního díla jiného autora půjčeného nebo napodobeného v celku nebo z části, jako svého vlastního“. Kompilace
Odborný text, který vznikl sestavením poznatků z jiných děl. Na rozdíl od plagiátu však nepřebírá celé hotové pasáže bez citování původního zdroje ani nepředstírá svou původnost. [1] Plagiátorství Vydávání cizího literárního nebo jiného uměleckého nebo vědeckého díla za vlastní, popř. převzetí části cizí práce, bez uvedení použitých zdrojů. [1] Autoplagiátorství Publikování, resp. kopírování vlastních dřívějších uměleckých nebo vědeckých prací bez uvedení jejich citací včetně autorství. [1] Citační etika Etické normy týkající se citování ve vědecké komunikaci. Všeobecně uznávaným principem citační etiky je morální povinnost autora publikované vědecké práce uvést v této práci ty výsledky svých myšlenkových předchůdců, na které ve své práci bezprostředně a vědomě navázal, a odlišit zřetelně své vlastní výsledky od výsledků jiných autorů. Za tímto účelem má autor práce těchto svých předchůdců citovat, zejména pak ty práce, jejichž výsledků využil (konstruktivní citace). Na druhé straně není správné spekulativně zatěžovat vědecké práce prestižními citacemi, jako jsou některé nekonstruktivní autoritativní citace a nekonstruktivní autocitace. [1] Citace/citát Doslovné uvedení cizího výroku nebo textu v rámci vlastního dokumentu doprovázené obvykle přesnou identifikací pramene, ze kterého daný výrok nebo text pochází, tedy bibliografickou citací. V textu je obvykle uvedena uvozovkami, odsazením anebo typem písma. [1] Bezúplatná zákonná licence Zákonem stanovená výjimka nahrazující svolení autora k užití díla a nepřiznávající autorovi za tento způsob užití díla žádnou odměnu (nejde o licenci ve smyslu smlouvy). Jedná se např. o citace, půjčování originálů či rozmnoženin vydaných děl (s výjimkou počítačových programů a zvukového či zvukově obrazového záznamu), zpravodajskou licenci, katalogovou licenci, užití díla při občanských či náboženských obřadech, při školních představeních a pro archivní a konzervační účely apod. [1] Školní dílo dle AZ Dílo žáka nebo studenta vytvořené v rámci plnění školních povinností. Škola je oprávněna v rámci bezúplatné zákonné licence školní dílo užít ke své vnitřní potřebě. Při jiném užití má škola právo na uzavření licenční smlouvy za obvyklých podmínek. [1]
3. O systémech na odhalování plagiátů Výsledkem porovnávání podobností jsou procenta podobností ke každému nalezenému podobnému dokumentu. Výsledkem není rozhodnutí, že práce je plagiát.
Obr. 1: Ukázka výsledků porovnávání podobností
Každou z nalezených podobností je potřeba prozkoumat. Z výpisu lze zjistit, z jakého úložiště práce pochází (např. Theses.cz, Odevzdej.cz, IS MU, …), kdo podobný soubor do systému vložil a další informace. Pro podrobné prozkoumání slouží odkaz „Podobnosti“, kterým se ke každému podobnému souboru zobrazí dokument s červeně zvýrazněnými shodnými pasáži textu. Díky tomu lze často prozkoumat podobnost i bez nutnosti přístupu k nalezenému podobnému dokumentu.
Obr. 2: Ukázka nalezených podobností
Na obrázku 2 znázorňujícím nalezené podobnosti lze vidět červeně zvýrazněnou hlavičku práce včetně autora, názvu práce, vedoucího apod. Lze tedy rychle vyhodnotit, že se pravděpodobně jedná o pracovní verzi práce stejného autora.
Obr. 3: Ukázka PDF podobností s nalezeným podobným dokumentem
2 směry podobností Pokud je dokument A podobný vůči dokumentu B např. ze 7 %, dokument B může být vůči dokumentu A podobný ze 100 %. Proto systém na odhalování plagiátů uvádí oba směry podobností. Pomůže tak učiteli odhalit podezřelý dokument, který mohl být zdrojem opisování.
Obr. 4: Příklad na vysvětlení dvou směrů podobností
[1] adresa informuje o umístění zkoumaného souboru [2] procentuální podobnosti zkoumaného souboru vůči dokumentům v databázi (zobrazují se podobnosti nad 5 %) [3] kliknutím na 'Podobnosti' se zobrazí červeně zvýrazněné shodné pasáže textu s daným souborem [4] kliknutím na 'Informace o souboru' se zobrazí informace pro správce systému o umístění podobného souboru [5] procentuální podobnost souborů v databázi vůči zkoumané práci (zobrazují se podobnosti nad 5 %) Obsah zkoumaného souboru je z X % podobný souboru níže znamená, že Vámi vložený soubor je z X % podobný jinému souboru. Např. z Vaší práce o rozsahu 100 stran A4 opíšete celou seminární práci o rozsahu 7 stran A4. Systém najde 7 % podobnost Vaší práce se seminární prací v systému Odevzdej.cz. Obsah souborů níže je z X % podobný zkoumanému souboru říká, že jiný soubor je z X % podobný Vašemu souboru, tj. v našem příkladě, že seminární práce v Odevzdej.cz je 100% podobná Vaší 100 stránkové práci. S jakými dokumenty se v databázích porovnává? Databáze porovnávaných dokumentů aktuálně zahrnuje více než 3,7 milionů dokumentů tvořených zejména: Závěrečnými pracemi 36 škol zapojených v projektu vysokoškolskými kvalifikačními pracemi (více než 235 000).
Theses.cz
-
Seminárními a jinými studentskými pracemi 30 škol zapojených v Odevzdej.cz (referáty, esejemi, zpracovávanými úlohami, projekty, laboratorními cvičeními, protokoly, zprávami, slohovými cvičeními, ...). Dalšími dokumenty vloženými do systémů Theses.cz a Odevzdej.cz (seminárními pracemi, publikacemi, pracemi vloženými z Internetu) a do dalších systémů provozovaných MU (výukové/studijní materiály, publikace učitelů, prezentace, příklady, zákony, zápisy, zprávy, příručky, manuály, …). Zdroji z internetu – v systémech je implementován a neustále optimalizován algoritmus pro vyhledávání podobných dokumentů na internetu. Jaké jsou podporovány formáty dokumentů a jazyky? Systémy zpracovávají dokumenty vložené ve formátu pdf, doc, open office formátech a dalších formátech Microsoft Office (excel, ppt), v textovém formátu nebo formátu TeX. Systémy na odhalování plagiátů vyhledávají podobnosti ve všech textech jazyků psaných latinkou, je však dokonale optimalizován na český a slovenský jazyk, protože zpracovává velké množství dokumentů v češtině, slovenštině (zapojeny jsou české a slovenské univerzity, vysoké školy). Zkušenosti se systémy na odhalování plagiátů Zkušenosti ukázaly, že nelze určit univerzální akceptovatelné procento podobnosti. Uživatelé se nás často ptají, jak se rozhoduje, zda práce je nebo není plagiátem. Rozhodnutí, zda práce je či není plagiát však nezávisí pouze na procentě nalezených podobností, ale je potřeba citlivě vyhodnocovat další souvislosti: Citoval autor správně? Jaký je rozsah převzatých (i citovaných) pasáží? (Nejde o kompilát?) Specifické zadání práce (součástí příloh práce mohou být zákony, běžně dostupné statistiky, studie). Každou nalezenou podobnost prozkoumat individuálně s ohledem na výše uvedené. Je důležité, aby rozhodnutí, zda je práce plagiátem či nikoliv udělala osoba v tomto směru u dané práce kompetentní. Pokud vedoucí práce nebo oponent odhalí nedostatky práce před obhajobou, může svůj nález zohlednit v posudku a zejm. navržené známce. Vedoucí práce, příp. oponent, jakožto odborní garanti práce mohou nejlépe vyhodnotit, co je u dané konkrétní práce přípustné a co už není. Ideální je samozřejmě průběžná práce se studentem, kdy může v průběhu tvorby práce vedoucí odhalit nedostatky v citování, rozsahu převzatých pasáží apod. Další zajímavou zkušeností je, že studenti často opisují nevědomě, resp. si neuvědomují, že na převzetí částí textů z jiných zdrojů (ctr+c, ctrl+v) nemají bez správného citování nárok. Ukázalo se, že je potřeba studenty průběžně vést během studia k tomu, že v odborném textu je potřeba korektně citovat např. tím, že budou mít učitelé v tomto směru vyšší nároky na práce seminární. Systémy na odhalování plagiátů je potřeba vnímat a používat jako pomocníka pro nalezení podezřelých dokumentů, nikoliv jako rozhodce, zda práce je plagiátem.
4. Theses.cz – systém na odhalování plagiátů v závěrečných pracích Cílem systému Theses.cz je umožnit zapojeným školám vyhledávat v systému ke svým pracím potenciální plagiáty. Zkušenosti ukazují, že vedoucí i oponenti závěrečných prací nutně potřebují efektivní nástroje na zkoumání původnosti předkládaných závěrečných prací. Souvisí to v úvodě zmíněnou dostupností elektronických informačních zdrojů, která láká studenty vydávat cizí myšlenky za své. Theses.cz nejen pomáhá učitelům nalézt podezřelé pasáže textu, ale zároveň má nezanedbatelné preventivní účinky mezi studenty. Systém slouží současně jako archiv závěrečných prací, s možností vkládat práce do systému individuálně studenty, nebo automatizovaně napojením na existující lokální úložiště školy. Jaké funkce systém poskytuje? Vyhledávání prací fulltextovým vyhledáváním nebo katalogově v metadatových záznamech nebo plných textech prací (dle volby školy). Vyhledávání podobných souborů (potenciálních plagiátů) ve společné databázi porovnávaných dokumentů hromadně (např. za celou fakultu) nebo jednotlivě. Zpřístupňování závěrečných prací dle pravidel školy. Každá škola se sama rozhoduje, zda a komu bude v Theses.cz zpřístupňovat metadata (záznamy o práci) a plný text práce. Napojení na lokální systémy školy – služby porovnávání dokumentů na podobnosti mohou vzdáleně využívat jiné systémy (pomocí webových služeb). Díky automatizovanému propojení s lokálním systémem školy nemusí uživatele pracovat v Theses.cz, ale přistupují pouze do svého školního systému, kam práce odevzdávají. Automatický převod dokumentů do formátů PDF a TXT, díky kterému nemusí mít uživatel pro čtení vloženého dokumentu licenci placeného SW, např. MS Word. Zálohování, archivace a antivirová ochrana dokumentů uložených v databázi. Rozpoznávání skenovaných dokumentů (OCR). Další služby uživatelům (osobní prostor pro kontrolu práce, diskusní fórum, vývěska aj.).
Obr. 5: Katalogové vyhledávání v Theses.cz
Obr. 6: Zobrazení metadatového záznamu vyhledané práce
Zveřejňování závěrečných prací Povinnost zveřejnění závěrečné práce je dána zákonem č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách). Plné znění zákona je k dispozici: http://aplikace.msmt.cz/vysokeskoly/legislativa/Zakon111_uplne_zneni_552.htm
§ 47b Zveřejňování závěrečných prací (1) Vysoká škola nevýdělečně zveřejňuje disertační, diplomové, bakalářské a rigorózní práce, u kterých proběhla obhajoba, včetně posudků oponentů a výsledku obhajoby prostřednictvím databáze kvalifikačních prací, kterou spravuje. Způsob zveřejnění stanoví vnitřní předpis vysoké školy. (2) Disertační, diplomové, bakalářské a rigorózní práce odevzdané uchazečem k obhajobě musí být též nejméně pět pracovních dnů před konáním obhajoby zveřejněny k nahlížení veřejnosti v místě určeném vnitřním předpisem vysoké školy nebo není-li tak určeno, v místě pracoviště vysoké školy, kde se má konat obhajoba práce. Každý si může ze zveřejněné práce pořizovat na své náklady výpisy, opisy nebo rozmnoženiny. (3) Platí, že odevzdáním práce autor souhlasí se zveřejněním své práce podle tohoto zákona, bez ohledu na výsledek obhajoby. Aktuální stav zveřejňování závěrečných prácí v ČR je, že školy se nestaví ke zveřejňování jednotně. Může za to nejednoznačnost věty: Vysoká škola nevýdělečně zveřejňuje disertační, diplomové, bakalářské a rigorózní práce, u kterých proběhla obhajoba, včetně posudků oponentů a výsledku obhajoby prostřednictvím databáze kvalifikačních prací, kterou spravuje. Výklad zákona některých právníků vysokých škol je, že univerzitní knihovna je forma databáze kvalifikačních prací, a tak jsou práce dle zákona zveřejněny prezenčně v knihovně.
5. Odevzdej.cz – systém na odhalování plagiátů v seminárních pracích Systém Odevzdej.cz poskytuje zapojeným školám kromě možnosti vyhledávání plagiátů (podezřelých souborů) také e-learningové řešení pro přehledný sběr seminárních a jiných prací od studentů. Učitelé v systému otevírají studentům odevzdávárny – složky, kam studenti své práce sami vkládají. Pro učitele tak odpadá administrativa spojená se sběrem prací, např. osobní komunikace emailem a ukládání příloh nebo následné třídění a archivace prací. V odevzdávárně je k dispozici vždy aktuální seznam odevzdaných prací. Pokud se učitel rozhodne, lze dle didaktického záměru odevzdávárnu nastavit tak, aby si studenti navzájem své práce viděli. Systém kontroluje datum, do kdy lze práce odevzdávat, a po vypršení tohoto data odevzdávárnu automaticky uzavře, aby nebylo možné práce odevzdat po termínu. Pro učitele už stačí přímo v odevzdavárně zkontrolovat soubor na podobnosti a studenta ohodnotit. Hodnocení zapíše studentovi přímo v systému, student ho vidí, a tak opět odpadá učiteli následná diskuse, co student udělal dobře a co nesprávně v odevzdané práci. Každý učitel si může založit neomezený počet odevzdáváren a tyto opatřit tzv. štítky pro usnadnění vyhledávání.
Obr. 7: Titulní stránka systému Odevzdej.cz
Služby systému Odevzdej.cz Sběr a kontrola prací pro učitele i další uživatele, kteří si mohou založit tolik odevzdáváren, kolik potřebují (např. dle počtu předmětů nebo skupin studentů). E-learningový nástroj pro elektronické odevzdávání studentských prací do učitelem/školou založených odevzdáváren (složky pro odevzdávání prací) s možnostmi nastavení, kdy lze práce odevzdávat, automatického vkládání jména studenta do názvu odevzdaného souboru a hodnocení práce. Kontrolu odevzdaných prací na podobnosti potenciálních plagiátů – práce mohou kontrolovat jak učitelé, tak správce systému za každou školu a existuje i možnost přebíraní výsledků kontroly automatizovaně. Možnost napojení na lokální úložiště a automatizovaný import dat. Zálohování, archivaci a kontrolu dokumentů antivirovým programem nebo automatizované rozpoznávání „netextového“ souboru do textu (OCR) aj. Výhodou systému Odevzdej.cz je, že jej mohou využít pro svou vlastní kontrolu i uživatelé z veřejnosti. V Odevzdej.cz lze neautentizovaně z titulní stránky http://odevzdej.cz/ porovnat libovolný textový dokument se soubory v systému. Výsledek porovnání se zasílá na e-mail, který uživatel při vkládání práce zadá. Takto vložený soubor se automaticky po 5 dnech z databáze vymaže, nebo jej může uživatel smazat i dřív. Jiným uživatelům se podobnosti s takto vloženými pracemi
nezobrazují, aby nevznikla situace, že student si práci zkontroluje v Odevzdej.cz a následně by škola našla s touto prací podobnosti. Nahrávat lze libovolný soubor ve formátu převoditelném na holý text (např. doc, docx, odt, xls, ppt, txt, pdf, csv, html,...) nebo zadat URL souboru (např. stránky na internetu). E-mail s výsledky podobností je zasílán automaticky, jakmile je dokončeno porovnání souborů. Uživatel má v e-mailu souhrn nalezených podobností a má možnost po přihlášení se do systému přistupovat k podrobným výpisům „Podobností“ (shodných pasáží textu).
Obr. 8:Ukázka e-mailu s vyhodnocením podobností
6. Repozitar.cz – systém na odhalování plagiátů v odborných publikacích zaměstnanců Repozitar.cz (http://repozitar.cz/) je systém pro evidenci publikační činnosti s možností sběru a prezentování plných textů publikací. Nabízí řadu užitečných nástrojů pro zadávání, správu, vyhledávání a zveřejňování publikací. Repozitar.cz je také vhodným nástrojem pro trvalé uskladnění publikovaných výsledků budoucím generacím jak pro univerzitu, tak pro veřejnost, a nabízí zpřístupnění
veřejnosti často velice cenných děl vědeckých pracovníků a jejich studentů na základě dodržení práv autorů. Tím dochází ke zvýšení citovanosti autorů a jejich profesního renomé. Služby systému Repozitář: Evidence publikací a plných textů zaměstnaneckých publikací s možností automatizovaného importování publikačních záznamů z lokálního systému nabízí nástroje pro tvorbu fondu zaměstnanecké publikační produkce. Vyhledávání plagiátů a zvýšení autorskoprávní ochrany díky propojení s databázemi porovnávaných dokumentů systémů na odhalování plagiátů Theses.cz i Odevzdej.cz. Pokročilé vyhledávací nástroje umožňují metadatech i plných textech publikací.
uživatelům
vyhledávat
v
Přenos záznamů do RIV ze systému Repozitář včetně implementovaných kontrol pro RIV povinně vyplněných záznamů. Zaznamenávání citací umožňuje autorům evidovat si u každé publikace citace. Hromadné operace se záznamy a statistiky pro manažery a správce. Podpora Open Access a zpřístupňování dle pravidel instituce nebo dle vůle autorů, díky čemuž jsou vědecké publikace dostupnější odborné veřejnosti (nebo definovaným skupinám uživatelů s přístupem do Repozitar.cz) a instituce se tak stává viditelnější. Open Access a využití licencí Creative Commons Systém Repozitar.cz podporuje zveřejňování intelektuálních výsledků akademických a vědecko-výzkumných pracovníků v režimu otevřeného přístupu (Open Access), tedy volně a bezplatně komukoliv na Internetu nebo přístup omezit dle smluvního vztahu s vydavatelem. Uživatelé systému mají navíc možnost k plnému textu práce přidělit licenci Creative Commons (soubor veřejných licencí, které posilují pozici autora při rozhodování, za jakých podmínek bude dílo veřejně zpřístupněno). Autor uzavírá prostřednictvím licence Creative Commons plošně se všemi potencionálními uživateli díla smlouvu, čímž určuje, která práva k dílu jim poskytuje, a která svá práva k dílu si naopak vyhrazuje. Licence se vzájemně liší dle různě odstupňovaných převedených a vyhrazených práv autora k jeho dílu. Díky licencím Creative Commons tak dává autor všem uživatelům díla jasné podmínky, za kterých lze dílo použít. Dochází tím k posílení autorskoprávní ochrany samotného autora i instituce. Typy Creative Commons licencí: Uveďte autora Uveďte autora – Zachovejte licenci
Uveďte autora – Nezasahujte do díla Uveďte autora – Nevyužívejte komerčně Uveďte autora – Nevyužívejte komerčně – Zachovejte licenci Uveďte autora – Nevyužívejte komerčně – Nezasahujte do díla Další informace k licencím Creative Commons lze čerpat z: http://www.creativecommons.cz/
Obr. 9: Titulní stránka systému Repozitar.cz
Další zdroje informací Články vývojového týmu http://is.muni.cz/clanky/
systémů
na
odhalování
Systém Theses.cz http://theses.cz/ Systém Odevzdej.cz http://odevzdej.cz/ Systém Repozitar.cz http://repozitar.cz/ Novinky a zajímavosti ze světa IS MU https://is.muni.cz/info/
plagiátů
Literatura [1] KTD: Česká terminologická databáze knihovnictví a informační vědy (TDKIV) [online]. Praha: Národní knihovna ČR, 2003- [cit. 2012-04-22]. Dostupné z:
. [2] BRANDEJS, M.,J. BRANDEJSOVÁ,Ľ. LUNTER,D. JAKUBÍK,M. STANČÍK. Institucionální repozitář vědeckých a odborných článků s napojením na systém odhalování plagiátů. In UNINFOS 2010. Trnava: CIS TU v Trnave, EUNIS Slovensko, 2010. od s. "nestránkováno", 5 s. ISBN 978-80-8082-407-5. Mgr. Ľuboš Lunter Masarykova univerzita, Fakulta informatiky Botanická 68a, 602 00 Brno, Česká republika e-mail: [email protected] doc. Ing. Michal Brandejs, CSc. Masarykova univerzita, Fakulta informatiky Botanická 68a, 602 00 Brno, Česká republika e-mail: [email protected] Ing. Jitka Brandejsová Masarykova univerzita, Fakulta informatiky Botanická 68a, 602 00 Brno, Česká republika e-mail: [email protected]