2011. augusztus 19.

Bábel helyett kábel - avagy pár zavaró hiba a Figyelőben

A print Figyelőben Bábel helyett kábel címmel jelent meg egy írás. Sajna kommentelni csak előfizetőknek lehet. Akinek van papír Figyelője, vagy akad hozzáférése, erről a cikkről van szó.

1) "A kezdetek" című keretes írásban Chomskyra hivatkoznak mint a formális nyelvtanok úttörőjére. Ez rendben is van, viszont a gépi fordításhoz és az ún. probabilisztikus nyelvészethez neki nem sok köze van. Nem is beszélve arról hogy a korpuszok nyelvészeti felhasználhatóságával kapcsolatban is komoly kételyei vannak. Nagy hatású Syntactic Structures című könyvében pont az ötvenes-hatvanas években elterjedt nézetek ellen foglalt állást, a legtöbb korpusznyelvészeti bevezető tankönyvben az ő (amúgy szinte csak szájhagyomány útján terjedő) ellenérveit szokás sorra venni. Bővebben:

Az "alapító atyák" kezdetben nagy lelkesedéssel fordultak a szotchasztikus módszerek felé, majd a szabályalapú megközelítés terjedt el. Egészen a nyolcvanas évekig ez is maradt az uralkodó paradigma, mind a nyelvészet, mind a számítástudomány terén. Persze ez nem jelenti azt hogy a sztochasztikus kutatások teljesen leálltak volna, az egyik legjelentősebb kutatás épp a hatvanas években folyt, ennek összegzése a klasszikus "Applied Bayesian and Classical Inference: The Case of the Federalist Papers " kötet.

A statisztikai módszerek előretörését általában Eugene Charniak Statistical Language Learning könyvéhez szoktuk kötni ami 1993-ban jelent meg, ekkortól erősödtek ismét fel az ilyen irányú kutatások. Ezzel párhuzamosan a számítástudományban lezajlott az "adatok forradalma" és a nyelvészetben is megjelentek új irányzatok (pl. probabilistic linguistics, data-intensive linguistics, ill a korpusznyelvészet iránt is megerősödött az érdeklődés).

2) A "Valószínűség alapján" keretes írás majdnem pontos, azonban kihagy pár lépést, nyilván célja az ismeretterjesztés nem a szakmázás de a gépi fordítás több mint a párhuzamos korpuszokon végzett összehasonlítás. Gondoljunk bele hogy tetszőleges szöveget akarunk lefordítani egy adott nyelvre, nagy valószínűséggel olyat amit még nem fordítottak le. Ehhez azért egy kicsit szofisztikáltabb modellre van szükségünk. Erről bővebben:

3) A "Nehéz magyarul" keretes írásban megakadt a szemem a "digitális nyelvészet" kifejezésen. Nevezzük nevén a gyereket! Számítógépes nyelvészet, esetleg természetes nyelvfeldolgozás (computational linguistics/natural language processing) a neve a tudományterületnek, van olyan hogy linguistic computing (azaz a számítástudomány eszközeinek használata a nyelvészeti kutatásokban - pl. adatbázisok használata a korpusznyelvészetben) ill van olyan hogy digitális bölcsészet (digital humanities) aminek egy jelentős része alkalmazott számítógépes nyelvészet.

4) Szerencsére a főszöveg rendben van. Érthető és világos, csak örülni tudunk ha kedvenc tudományunk teret kap egy szinvonalas hetilapban.

2 megjegyzés:

Kalcsó Gyula írta...

Teljesen egyetértek, nem jó a terminológiai zűrzavar. A "digitális nyelvészet" furcsa kontamináció. Egyébként személyes véleményem, hogy a "digitális bölcsészet" kifejezés se túl szerencsés (annak ellenére, hogy kezd bevetté válni), mert a "digital humanities" jelentése szerintem tágabb, benne van ugyebár a hazai terminológiában társadalomtudományoknak nevezett terület is.

Unknown írta...

Nem vagyok a meghatározások híve, de ha van neve, akkor nevezzük nevén a gyereket. A digitális nyelvészet lehet hogy bevett formula bizonyos körökben, de én nem hallottam és amiről a cikk szólt az számítógépes nyelvészetnek nevezik.

A DH esetében - amennyire én ismerem, és az bizony behatárolt - nekem nem ugrik be a társadalomtudományok köre. Mostanában viszont divatos a "computational social science" címke.