2012. február 22.

Fordítási plágiumok

Plagizálni nem szép dolog, ezért mi rögtön leszögezzük hogy posztunk Pataki Máté Fordítási plágiumok keresés című tanulmányán alapul ami a VIII. Magyar Számítógépes Nyelvészeti Konferencia kötetében jelent meg (és szerencsére szabadon letölthető!). Egyre bevettebb dolog a fordítási plágium, az egységesülő Európában szerencsére nem ritka hogy valaki hazáján kívül végzi felsőfokú tanulmányait részben vagy egészben. A szemfüles diákok pedig rájöttek hogy otthon is akadnak okos kutatók, az ő műveiket részben vagy egészben lefordítani pedig költséghatékony módja egy dolgozat vagy akár egy diplomamunka letudásának. Ez a nyugati tudományosságban azonban nem comme il faut, a plágium szoftvereket alkotó kollégák keresik a megoldást az ilyen trükkökre is. (Persze tudjuk, néha egy szemfüles újságíró is megteszi...)


Dr. Debora Webber-Wulff kétévente teszi közzé Plagiarism Detection Software Test jelentését (nem mellesleg Copy, Shake, and Paste címmel egy remek blogot is ír a témában) ami rendre kiemeli a fordítási plágiumok problémájának megoldatlanságát. Ez nem véletlen, hiszen egy pontatlan idézet megtalálása viszonylag könnyű feladat, egy hivatkozás nélküli parafrázis keményebb dió de nem minden esetben lehetetlen. A fordítás ténye viszont nehezen érhető tetten! A nyelvről B nyelvre fordítani nem egy mechanikus folyamat, a szavak száma, a mondathatárok, de akár még a központozás is jelentősen eltérhet. Vegyük ehhez hozzá a nyelvtani eltéréseket (egy agglutináló nyelv fordítása egy flektálóra már ránézésre is más kell hogy legyen...).

Pataki megoldása a következő. Tekintsük a szóba kerülő mondatokat szóláncoknak és definiáljuk két ilyen lánc hasonlóságát mint a közös elemek halmaza (metszete)

Finomítsuk ezt úgy hogy legyen tekintettel az eltérő hosszúságú mondatokra (azaz ha S1 hosszabb mint S2 és S2 minden eleme jelen van S1-ben akkor hasonlóságuk mértéke ugyan az mintha S2-t önmagához hasonlítottam volna), továbbá maradjon a reláció szimmetrikus. Így kapjuk a következő metrikát:

Ahol alpha és beta (ellen)súlyozza az eltérő hosszból adódó különbségeket. Ami innét hátra van, az hogy a mondatok elemeit egy nyelvre hozzuk valamilyen módszerrel. A SZTAKI kopi rendszerén kipróbálhatjuk milyen jól is sikerült és egyben gratulálhatunk az Elosztott Rendszerek Osztály tagjainak.

Nincsenek megjegyzések: