Az Orosz Nyelv Nemzeti Korpusza

Mielőtt belevágnék a világ egyhatodán beszélt nyelvet feldolgozó korpusz ismertetésébe, talán érdemes átgondolni, mi az a korpusz. Sok szöveg összegyűjtve magában még nem az, bár rengetegféle vizsgálatot így is lehet rajtuk végezni. Korpusszá az teszi őket, hogy a szövegek beválogatásának vannak valamiféle kritériumai, illetve a szövegek maguk is el vannak látva őket jellemző adatokkal.

A beválogatás elvei sokfélék lehetnek; a legkézenfekvőbb az időbeli felosztás; lehet egy korpusz csak a "jelen" nyelvállapotot tükröző, ám ha különböző korú szövegeket válogatunk össze, akkor vizsgálhatjuk a nyelv diakrón változásait is. A másik kézenfekvő szempont a szöveg "műfaja": szépirodalmi, szakirodalmi, publicisztikai, és "egyéb" fajta szövegekkel lehet biztosítani, hogy az adatok kellőképpen reprezentatívak legyenek, és szokás bevenni nem írott (vagyis szóbeli) anyagot is (ez persze elég problémás, egyrészt mert elég nehéz kellő mennyiségű leírt beszélgetést beszerezni, másrészt pedig komoly kérdés az is, mi az elsődleges: az írott vagy a beszélt nyelv?), illetve meg lehet jeleníteni a nyelv különféle dialektikus változatait is. A lényeg tehát az, hogy szemben egy elektronikus könyvtárral vagy akár az egész internettel, a korpusz tartalma elvileg kiegyensúlyozott és reprezentatív. Elvileg, mert az arányokat a készítők határozzák meg, így ezek korpuszonként különbözőek.

Az Orosz Nemzeti Korpusz a fentiek közül mindegyik típusú szöveget tartalmaz (ezek külön al-korpuszokat képeznek), időben pedig a XVIII. század végétől a XXI. század elejéig terjed. Közel 50.000 dokumentumot és kb. 180 millió szót tartalmaz (ez nagyságrendileg ugyanannyi, mint a Magyar Nemzeti Szövegtár, a British National Corpus vagy a Cseh Nemzeti Korpusz egyes, önálló részei)

Minden dokumentum rendelkezik egy ID-vel, melyben többek közt szerepel létrejöttének dátuma, műfaja, szerzője, szerzőjének neme, forrása, az olvasóközönség típusa. A korpusz összes szava morfológiailag elemezve van, így nem csak konkrét szóalakra, de tövekre is kereshetünk (ismeretes, hogy az orosz alapvetően flektáló nyelv, kiterjedt ige-, főnév- és melléknév ragozással). A kereső, miután rákerestünk egy alakra, visszaadja az összes előfordulást kontextussal és forrással együtt, a szavakra kattintva pedig további nyelvtani információt kapunk. Itt érdemes megemlíteni a szintén kereshető szemantikai információkat is -- egy előre kidolgozott rendszer alapján minden szóhoz szemantikai adatok is tartoznak (pl. az "év" szóhoz: "r:abstr, t:time:age, t:time:period")

A kereső ezen túl arra is képes, hogy egy bizonyos tőnek csak bizonyos nyelvtani alakjait keresi ki (például, egy ige múlt idejű, befejezett alakjait vagy egy főnév többes szám részes eseteit). Lehetséges az üres keresés is, elvileg rá tudunk keresni az korpusz összes igéjére is. Ennek mondjuk túl sok értelme nincs, annak azonban már igen, hogy a ritka alakokra keressünk rá. Például, az oroszban nyelvben létezik egy nagyon ritka ún. "második genitivus" eset, és most végre bárki megnézheti, milyen szavakkal és mikor fordul elő. Vagy: listázni lehet az összes előforduló indulatszót.

A kereső szókombinációkat is tud keresni (az összes fenti lehetőséget kihasználva mind a két szóra), és nem is csak egymás mellet, hanem egymástól tetszőleges távolságra. És ugyanezt 3,4,5... szavas kombinációkra is. Az eredmények rendezhetők, átalakíthatók egymás alá rendezett KWIC (key word in kontext) formátumba, letölthetők excelben, XMLben...

Nagyon okos tehát az Orosz Nemzeti Korpusz, de mire lehet használni? A nyelvészek vizsgálhatják a nyelv kicsi vagy éppen óriási változásait, esetleg eddig nem észrevett sajátosságait. A nyelvtanárok eldönthetik, mennyire fontos egy szó, segíthet élővé tenni a tananyagokat. A tanuló: megtudhatja, "hogyan használják az oroszok" a szavakat. Segíthet eldönteni rengeteg "így nem is lehet mondani" vitát. Megmutathat sok különbséget különböző műfajok, az írott és a beszélt nyelv között...

(Az Orosz Nyelv Nemzeti Korpusza természetesen angol nyelven is elérhető.)

NLP Meetup - Számítógépes Nyelvészet

2011. április 10.

Az Orosz Nyelv Nemzeti Korpusza

Nincsenek megjegyzések: