NLP Meetup - Számítógépes Nyelvészet: Így gondozd a nyelvészedet, avagy a metodológiai opportunizmus gyönyörei

Volt szerencsém interneten keresztül előadni a fenti címen a Budapest Science Meetup novemberi összejövetelén. Szeretném megköszönni Sebestyén Endre és a többi szervező abszolút pozitív, segítőkész hozzáállását. Már régóta keresek egy sztorit, amiben elmesélhetem miért szeretem a (számítógépes) nyelvészetet, miért tartom értelmetlennek a generativisták és statisztikusok közötti “hitvitákat” valamint az alkalmazott és tiszta tudomány közötti megkülönböztetést. A Meetup felkérése remek alkalom volt arra hogy ráncba szedjem gondolataimat, most pedig egy rövid sorozatban kicsit hosszabban, írásban is megkísérelem ezt. Szeretném hangsúlyozni hogy részben nagyon személyes, részben pedig spekulatív gondolatokat teszek közzé most Feyerabend “Anything goes!” jelmondatának szellemében.

Személyes háttér

Manapság nem olyan egyszerű válaszolni a mivel foglalkozol kérdésre. Mivel foglalkozik a könyvelő? Könyvel... De hogy a könyvelés mit is jelent igazán, azt csak a könyvelők tudják. Persze azt se tudjuk hogy mit csinál egy informatikus, de jelentőségteljesen bólogatunk amikor magyaráz – hisz szakmája szinte életünk minden mozzanatában meghatározó. De mit csinál egy nyelvész? Erre sajnos bölcsész-jogász politikusaink jelentős része sem tud válaszolni, ezért bőszen nyesegetnék a BTK-n az államilag finanszírozott helyeket... Mit csinál egy számítógépes nyelvész? Köze van a számítógépekhez, a nyelvhez is, de ha akad valaki a kollégák közül aki el tudta magyarázni a nagymamájának rendesen hogy mit csinál amikor számítógépes nyelvészkedik az kérem írjon nekem! A szakma egyik poénja hogy mi egyszerre több dologhoz nem értünk ezért igazából se nem számítógépes, se nem nyelvészet a szakma igazi neve.

Habár egyre több helyen indul számítógépes nyelvészeti képzés, a területre általában valahonnét érkeznek az emberek. Informatikusok, matematikusok, pszichológusok, filozófusok és igen nyelvészek keverednek valahogy ide. Hogy tovább bonyolítsuk a dolgot, a nyelvészetre is igaz ez! A legtöbb ember nem nyelvészetet kezd tanulni, hanem valami mást (l. fent).

Nagyon emberi dolgok indulnak be ilyen vegyes társaságon. A “nyelvészek” szeretik az “infósok” gyakran tényleg gyermeteg, naiv nyelvelméletein köszörülni a torkukat. Az “infósok” pedig különbséget tesznek – sokszor joggal - “az igazi számítógépes nyelvészet” és “a számítógépes nyelvészet amire ti gondoltok” között. Van azonban egy másik törésvonal is a csoporton belül. A “klasszikus” iskola hívei akik általában nyelvészek és logikusok (megint egy olyan csoport ami csak úgy összegyűlt mindenhonnét) élesen szemben állnak az “új empirizmus” (leánykori nevén statisztikai megközelítés) már-már fanatikus propagálóival. Ezt egy kicsit megkapargatva előjön egy harmadik szembenállás is, ami az elméleti megközelítés (“mindent a tudományért”, “engem igazából nem érdekel ennek a gyakorlati haszna”) és az alkalmazott tudomány (“nlp és nem compling”) között áll fenn.

Én úgy gondolom hogy ezek a törésvonalak egyrészt természetes velejárói a tudománynak. Ez a business ezzel jár és kész. Másrészt nagyon szeretem a vitákat végigkövetni mert szórakoztatnak. Viszont nagyon is komolyan gondolom hogy gyakran értelmetlen és terméketlen a kihegyezni ezeket a szembenállásokat mivel semmi mást nem bizonyít vele az illető mint saját csőlátását. “Lent a mélyben”, a racionalizmus és empirizmus vitája épp a számítógépes nyelvészetben oldódik fel, ezt teszi lehetővé a metodológiai sokszínűséget és teremt alkalmat az alkalmazott kutatónak arra hogy megélje a módszertani opportunizmus gyönyöreit.

Kell-e nekünk paradigma

Thomas Kuhn paradigma fogalma mára már a köznyelvbe is beszivárgott. Alapvetően Kuhn a természettudományok, kiváltképp a fizika, érett szakaszának jellemzésére használta a fogalmat. Nagyon röviden (és kicsit slendrián fogalmazva) a paradigma a normál tudományos tevékenység határait jelöli ki. Normál vagy érett szakaszban egy tudomány nem vitatkozik az alapokról, hanem módszeresen fejti meg az eléje kerülő kérdéseket (ezt fejezi ki Kuhn rejtvényfejtés metaforája). A kérdések körét és megfejtésük módját a paradigma jelöli ki, ami nem csak a bevett eljárásokat foglalja magában hanem olyan “externális” dolgokat is mint pl. a bevett tankönyvek és képzési praktikák, a kutatói csoportok önképének szociológiája stb.

A szó klasszikus értelmében a nyelvészet, és általában a nyelvvel kapcsolatba kerülő tudományok nem rendelkeznek paradigmával. Ha nem szeretnénk elhagyni a kuhniánus fogalmi keretet, akkor egy pre-paradigmatikus állapottal jellemezhetnénk a területet. Több megközelítés szó szerint harcol azért hogy őt érje a megtiszteltetés hogy a “rendes” tudományok közé vezethesse be a nyelvtudományt.

De melyik tudományt tekintjük példaképnek? Ez nagyon nagy kérdés! Vannak akik a fizikai irigység felé húznak (erről egy nagyon jó vendégposzt volt a blogon kb egy éve). Ebben az irányban nagy előrelépések történtek. Nem csak az ún. probabilisztikus nyelvészet körébe tartozó publikációk száma gyarapszik egyre gyorsabban, hanem már elkezdtek megjelenni tankönyvek és felsőoktatásban is standardizálódnak a tantervek (l. a 2000-ben megjelent Probabilistic Linguistics kötet, majd az utóbbi három évben kijött rengeteg R-el és korpusznyelvészettel/nyelvészeti statisztikával foglalkozó könyvet). Az ezen a téren mozgó kollégák nagy örömére ez egybevág a számítógépes nyelvészetben Charniak Statistical Language Learning kötetével fémjelzett fordulattal.

A nyelvészetnek azonban van egy másik öröksége, mégpedig a matematika és a logika. Ezek is kemény tudományok ám! A physics envy egy másik lehetséges értelmezése szerint ahogy a matematika nyújtott egy nyelvet a fizika számára a világ leírására, úgy a logika egy eszközt ad nekünk saját magunk és nyelvünk megismeréséhez.

A matematika és a logika viszont nem írható le a kuhni tudományfejlődési modellel. A matematikai megismerést nem tarkítják forradalmak, egy-egy újabb felfedezés nem hordozza magában az egész elméleti keret átértelmzését, sokkal inkább felhalmozódik az ilyen tudás, azaz akkumulálódik.

Végezetül pedig nem mehetünk el amellett hogy a nyelvészet a bölcsészettudományok része. Ezen a területen megszokott hogy nincsenek paradigmák, minden probléma egy kicsit más megközelítést kíván meg és a konszenzus hiánya inkább kívánatos mint kerülendő. A megismerés ezen módjai közelebb állnak a művészetekhez, amennyiben szerves részük a szubjektivitás, ugyanakkor a “tudományos közösség” implicit módon kijelöli a játékszabályokat és nagyon komolyan veszi “ellenőrző” funkcióját.

Az egyszerre jelenlévő paradigmák nem csak közösségeket választanak el, hanem gyakran egy emberen életén belül keverednek! A számítógépes nyelvészet nagy erénye hogy ezzel együtt kell élni. Előnye ennek a skizoid állapotnak hogy probléma centrikusak lehetünk, az adott feladatra koncentrálva több megközelítés közül is választhatunk – hátránya hogy szépen cizellált, konzisztens elméletek nem tudunk ilyen alapokra építeni. De hát a hosszú elbeszélések kora amúgy is lejárt!

Egy égető kérdés azonban hátra maradt, az inkommenzurábilitás problémája. Ti. a különböző paradigmák látszólag egy dologról beszélnek és ugyanazt a nyelvet használják, ám ez elméletek jelentéstartalma igen különböző. A newtoni fizika és a relativitáselmélet szinte ugyanazokkal a szavakkal operál, mégis értelmezésük sokaban különbözik. A newton előtti, skolasztikus, arisztoteliánus fizika is használta a mai terminus technikusokat, azonban valami teljesen mást értett alattuk. A tudományos paradigmák, ahogy láthattuk, összemérhetetlenek, inkommenzurábilisak a természettudományok esetében. A bevezetőben említett sztori azt mutatná be hogy a nyelvészet esetében egy gyenge összemérhetőség áll fent, ezért elfogadható, sőt sikeressége miatt támogatandó hogy több iskola létezik egymás mellett.

NLP Meetup - Számítógépes Nyelvészet

2011. december 8.

Így gondozd a nyelvészedet, avagy a metodológiai opportunizmus gyönyörei - 1.

Nincsenek megjegyzések: