2010. november 12.

Bohumil Hrabal szótára

Tempfli Péter vendégposztja

František Čermák, Václav Cvrček (eds.)
Nakladatelství  Lidové Noviny / Ústav Českého Národního Korpusu 2009. 

A prágai Károly Egyetem Cseh Nemzeti Korpusz Intézete 2009-ben jelentette meg a tizenhárom éve elhunyt, de már életében legendává vált  Bohumil Hrabal írói nyelvének szótárát (a magyar olvasók a legjobban Hrabal Sörgyári capriccio és A szigorúan ellenőrzött vonatok című könyveit, és Jiří Menzel filmadaptációit ismerik). E kiadvány annak a sorozatnak a második része, mely 2007-ben Karel Čapek nyelvének feldolgozásával indult meg.





Az írói szótár a szótáraknak egy különös válfaja, a bennük feldolgozott lexikai anyag egy író teljes munkásságára, életműve egy részére vagy akár egyetlen művére korlátozódik. A műfaj viszonylag fiatal, a XIX. században jelent meg először az igény egyes kiemelkedő alkotók szókincsének feltérképezésére – ezekre a kiadványokra elsősorban (mint ahogy ma is) filológiai szempontok miatt volt szükség. Az írói szótárak készítésének nincsen általánosan elfogadott módszertana, azt mindig a kitűzött cél határozza meg – így léteznek szómagyarázó, szómutató és különböző statisztikai szempontok alapján készülő szótárak, ill. ezek a kombinációi. Sokszor, ahogy azt például a XX. század ötvenes-hatvanas éveiben készült Puskin-szótár is kimondja, az általános cél nem feltétlenül csak a szerző, hanem egy adott irodalomtörténeti korszak nyelvének általános feltérképezése – Puskin esetében ez kiemelten érvényes, hiszen az ő nyelve lett az orosz szépirodalmi sztenderd alapja.

Hrabal szótára az írói szótárak legújabb generációjának képviselője, ezért nem tartalmaz sem szómagyarázatokat (illetve csupán elvétve), sem szómutatókat, sem az összes lehetséges kontextust. Ennek módszertani indoklása, hogy nyelve kortárs szerzőként átlátható kell hogy legyen, minden további magyarázat már az irodalomtudomány, nem pedig a szótárkészítők feladata. A szómutató és a szavak összes lehetséges kontextusának közlése is okafogyottá vált, mivel az elektronikus formájú szövegek számítógépes feldolgozása viszonylag egyszerűvé tette e műveleteket. A nyomtatott szótár a Hrabal összes szövegeiből álló korpusz olyan tulajdonságainak kivonata, melyeket célszerűnek véltek a szerzők nyomtatott formában közreadni, hogy kézikönyvként kényelmesen használható legyen – míg a mellékelt CD számos egyéb statisztikai adat kinyerését is lehetővé teszi. A Hrabal szótár tehát elsősorban az író teljes műveiből összeállított korpusz statisztikai feldolgozásának eredményeit tartalmazza. Felmerül a kérdés: mire használhatók az ilyen eredmények? A munka első hozadéka, hogy anyagot biztosít egyetlen személy (Bohumil Hrabal) nyelvének általános vizsgálatához, ami számos tanulsággal szolgálhat a nyelvészetnek, még inkább pedig az irodalomtudománynak. Fontos, hogy a statisztikai eredmények általában relatív mutatók, így azokat valamilyen kontextusban lehet csak értelmezni. Vizsgálhatóvá válik a korpusz nyelve esetleg más írói korpuszokkal összehasonlítva (ezt meg is tették a készítők, amikor a Čapek-korpusszal vetették össze), mind pedig a cseh nyelv általános korpuszához képest (ez alatt a készítők a cseh nyelv SYN2005 nevű, 122 millió szavas korpuszát értik). Az ilyen vizsgálatok sok objektív adattal szolgálhatnak az irodalmi nyelv természetét illetően is.

Nagyon fontos módszertani kérdés a korpusz összeállításának mikéntje. Az adatbázis Bohumil Hrabal összes művei (megjelent 1991-97-ig) alapján lett összeállítva, így tartalmazza Hrabal összes prózai, költői és publicisztikai művét, azonban utólag el lettek távolítva belőle az előszavak, beszélgetések és interjúk, illetve a szerző levelezése. Kényes kérdés az ismétlődő szövegrészek státusza – az összegyűjtött művekben bár a „végleges” változatok szerepelnek, de a szerző alkotóművészetére igen jellemző saját szövegeinek újrafelhasználása, akár egyes részek gyakorlatilag változatlan átemelésével is. Az ilyen szövegrészek bent maradtak a korpuszban, azonban a gyakoriság-szótár külön indexben jelöli az egyes szavak előfordulását a duplikált szövegekben. A korpusz létrehozása után a szöveg ún. lemmatizálása és tagelése következik. Az első folyamat a szöveg szavainak visszavezetését jelenti a kiinduló szótári alakra (lemmára), a tagelés (címkézés) folyamata pedig a szöveg ellátása a nyelvtani jelentéseket jelölő címkékkel. Ezek természetesen gépesített folyamatok, de a természetes nyelv nem teljesen logikus és átlátható felépítése miatt szükséges volt utólagos emberi beavatkozásra is. Külön problémát jelent Hrabal műveiben a cseh beszélt nyelvi réteg kiemelkedő szerepe, mely természeténél fogva kevésbé sztenderdizált, mint az irodalmi nyelv, ezért gépi feldolgozása is nagyobb nehézségekbe ütközik. Az így létrehozott, lemmatizált és felcímkézett korpusz már alkalmas volt arra, hogy segítségével megalkossák a szótárat.

A kiadvány legterjedelmesebb része az egyszerűen Szótár néven szereplő szógyakoriság-lista, amely Hrabal műveinek 5000 leggyakoribb szavának szótári alakját sorolja fel ábécé-rendbe szedve. A szólista az egyes szavak össz-előfordulásán túl megadja a „hosszabb próza”, „rövid próza”, költészet és publicisztika műfajokhoz sorolt szövegekben is az előfordulás gyakoriságát, melyekből következtetés vonható le az egyes témák műfajonkénti megoszlását illetően. Szerepelnek a szóösszetételekben gyakran előforduló szavak tipikus kollokációi, illetve az is, ha egy szó kizárólag szóösszetételekben fordul elő. A szótár csillaggal jelöli azokat a szavakat, melyek a SYN2005 korpuszhoz képest kifejezetten gyakrabban fordulnak elő Hrabal nyelvében (ne felejtsük el, hogy itt arányokról van szó, hisz a SYN2005 százszor nagyobb méretű a Hrabal-korpusznál). Ezek azok a „hrabali szavak”, melyek egyaránt kiemelten fontos információként szolgálhatnak a szövegek nyelvi és tartalmi jellemzőivel kapcsolatban. A Szótárnak kiegészítője a Frekvencia-szótár, mely előfordulásuk száma alapján rendezi sorba a szavakat. Kiderül például, hogy a Hrabal nyelvében olyan erősen túlreprezentált a  pivo (sör) szó (ezt a Szótár állítja), hogy Hrabal legszorosabban vett bázis-lexikájához tartozik, csak 9 főnév előzi meg (úr, kéz, ember, szem, év, nap, fej, idő, ablak).

A Hapax-szótár című rész azokat a szavakat sorolja fel, melyek Hrabal nyelvében csupán egyszer fordulnak elő, és ezért semmiféle statisztikai következtetést nem lehet levonni velük kapcsolatban. Ez azért fontos, mert viszonylag jelentős mennyiségről van szó, a 12.700 szavas lista a teljes korpusz szavainak több mint fél százalékát teszi ki. Fontos különválasztani a Hrabalra vonatkoztatható hapaxokat az abszolút hapaxoktól: az előbbiek csak Hrabal nyelvében fordulnak elő elszigetelten (aritmetika, nikotin), míg az utóbbiak az általános korpuszban sem találhatók meg (neusměv - nemmosoly, tygrovatý – tigrises). A Tulajdonnevek szótára elsősorban azt segít feltérképezni, miről/kiről írt a szerző, míg a Rövidítések szótára az alkotó korának reáliáiról tájékoztat.

A szótár másik, terjedelmében sokkal kisebb, de hasonlóan nagy munkát igénylő  része a frazémák, hasonlatok, metaforák és káromkodások gyűjteménye – az ilyen adatok kinyerését ugyanis sokkal bonyolultabb gépesíteni, mint az előzőekben bemutatott, statisztikai módszerekkel létrehozott részeket. A frazémák teljes listáját közlik a szerkesztők, ami 1917 különböző igei, és 1361 nem-igei frazémát jelent. Hasonlatokból összesen 102 különböző fajtát használ a szerző. A metaforák listája ennél is rövidebb, de a szerkesztők kiemelik: ez csupán válogatás. Ez valószínűleg azzal indokolható, hogy a metaforák felismerése és feldolgozása gépi módszerekkel gyakorlatilag megoldhatatlan feladatnak tűnik. A káromkodások listája azokat a főneveket tartalmazza, melyek Hrabal szövegeiben előforduló szidalmazások alapját képezik, illetve közli az erősen pejoratív felhangú és az explicit módon vulgáris szavakat is.

A kiadvány tartalmaz egy általános összefoglalást Hrabal nyelvének statisztikai jellemzőiről. A viszonyítási pontokat a SYN2005 korpusz illetve a Čapek-korpusz jelenti, ezek alapján von le bizonyos következtetéseket Hraballal kapcsolatban. Néhány figyelemreméltó adat: míg Hrabal átlagos szókincse egymillió szóra vetítve 23.000 szó, addig a cseh nyelvben ez az adat átlagosan csak (a SYN2005 alapján) 6700 szó. Szintén ugyanennyivel gazdagabb Čapek szókincse (23.000 szó), de az időbeli különbség miatt ez az adat kevésbé reprezentatív. Az elszigetelt, ritka szóalakok (hapaxok) előfordulásának aránya Hrabalnál majdnem ötször olyan magas, mint a nemzeti korpuszban. Hrabal mondatainak átlagos hossza 23 szó, a Nemzeti korpuszban ez a szám 12, míg Čapeknél 11 (ezt az adatot az olvasó intuitív megfigyelései is alátámasztják). Rendkívül érdekes statisztikai jellemző Hrabal szókincsének változása: 1937-től 1970-ig folyamatosan nőtt, 1970-85 között elérte csúcspontját kb. 33.000 szó magasságában, majd a nyolcvanas évek végén-kilencvenes évek elején ismét visszaesett kb. 20.000 szóra. Szintén érdekes adat, hogy bár a szövegek hosszukkal arányosan egyre nagyobb szókinccsel dolgoznak (ez teljesen érthető), ha a szavak előfordulását visszavetítjük ezer szavas mintákra, a hosszú próza nyelve bizonyul a leglakonikusabbnak, azt követi a publicisztika és a rövid próza, a költészet pedig toronymagasan vezet a nyelvi differenciáltság tekintetében. Szintén a statisztikai adatok közé tartoznak a duplikált szövegek fontos kérdését érintő kimutatások – innen csak a legáltalánosabb adatot közöljük: Hrabal összes szövegének 7,5 százaléka duplum.
A fentieken túl a kiadvány tartalmaz még egy rövid pályaképet Hrabal munkásságáról, válogatást gondolataiból (a kulcsszavak szerint ábécé-rendbe rendezve), a szerző összes műveinek listáját, válogatott, elsősorban nyelvészeti bibliográfiát, és a pivo szó konkordanciáinak véletlenszerű bemutatását.

Bohumil Hrabal szótára kiváló irodalomtudományi segédeszköz lehet, és bizton állíthatjuk, hogy a nyelvtudomány is számos következtetést vonhat le belőle a művészi nyelv természetét illetően.

Hasznos információk

A szótár online nincsen fent sajnos, az adatai itt érhetők el: http://www.korpus.cz/publikace.php#hrabal   (azonban elérhető az Országos Idegenyelvű Könyvtárban www.oik.hu).

A korpusz honlapja itt található, http://www.korpus.cz/english/index.php . Publikusan a 2000-res korpusz kereshető (25 előfordulásig), de kutatók, diákok, stb. igényelhetnek teljes hozzáférést, amihez saját fejlesztésű szoftver is jár.

A szerzőről

Tempfli Péter az MTA Irodalomtudományi Intézet Közép- és kelet-európai osztályának segédmunkatársa, ahol összehasonlító irodalomtudománnyal foglalkozik; szabad idejében blogot ír, amin az orosz nyelv tanulását népszerűsíti. (link: orosz-blog.blogspot.com)

Nincsenek megjegyzések: