2011. április 29.

Lapszemle

Ismét eltelt egy hét, lássuk mi történt a világban! Ha akad valami amit szeretnél megosztani velünk és olvasóinkkal akkor a szamitogepes.nyelveszet(kukac)gmail.com címre küld el a linket (pár szó kíséretében). Ha pedig rendszeresen szeretnétek informálódni, akkor kövessétek Twitter fiókunkat (@sznyelveszet), olvassátok a szamitogepesnyelveszet.tumblr.com oldalunkat és lájkoljatok minket a Facebook-on.

Pár szó a blogról

Sűrű hetünk volt, szinte minden napra jutott egy poszt, de ez nem lesz mindig így, kellett hozzá a csillagok különleges együttállása, egy hosszú hétvége és egy-két korábban megkezdett munka beérése is. Sokan kérték hogy mutassunk be egy-egy területet ami mostanság felkapottabb. Mindenhez mi sem érthetünk, de megtettük a megfelelő lépéseket és megkörnyékeztünk pár szakértőt a sentiment analysis és az adatbányászat területén, így a megszokott vendégposztok is visszatérnek hamarosan. De ha a kedves olvasó kedvet érez magában ahhoz hogy bemutasson egy problémát, egy könyvet, vagy saját kutatási területét, ragadjon klaviatúrát és írjon egy posztot és küldje le a szamitogepes.nyelveszet(kukac)gmail.com címre!

2011. április 28.

Natural Language Processing for the Working Programmer - interview with the authors

These days we are the eyewitnesses of the data boom. More and more linguists turn to statistical and probabilistic methods and start using the quasi-standard tools of data analysis like R, Python and databases (SQL and those noSQL stuffs). It wasn’t easier to get into natural language processing, the nltk toolkit and the book is freely available and there are other great books on the market that teach you the basics and more advanced techniques. Although this huge success, more and more nlp company choose a functional programming language as a tool of development and the Natural Language Processing for the Working Programmer book (which is presenting the basic ideas of nlp in Haskell, and it is in draft version) got a lot of attention in the community. We interviewed the authors of the book; Daniël de Kok and Harm Brouwer.

2011. április 27.

A szöveg-osztályozás néhány kérdése

A szöveg-kategorizálás olyan terület, melynek rengeteg igen hasznos gyakorlati felhasználása lehet: internetes keresés, ügyfélszolgálati munka gyorsítása, könyvtári munka hatékonyabbá tétele, nyelvoktatás, egyetemi szféra, orvosi és jogi szövegekből új adatok kinyerése... Az ilyen programok megalkotása során a fő kérdés, hogyan lehet lehetőleg minél egyszerűbb, gép által hatékonyan feldolgozható szövegértelmezési elveket alkotni. Ebben az írásban egyszerűbb példák megoldása során alkalmazható módszerekről lesz szó.

2011. április 26.

On NLTK and Python - an interview with Jacob Perkins

Getting into natural language processing has never been easier these days thanks to the popular natural language toolkit (nltk). Python, nltk and even the book that teaches you nlp are free! Although nltk was designed by its creators with pedagogical considerations, Jacob Perkins (@japerk) showed with his nltk demos that it can serve as a serious API. His blog http://streamhacker.com has become a standard source of tips and hacks for nltk users, and his "Python Text Procesing with NLTK 2.0 Cookbook" is the natural choice for everyone who wants to be a pro nlp guy.


Webes szövegek megtisztítása és az Ajánlások előnye

A szövegek megtisztítása, a lényeges információk szétválasztása a lényegtelen elemektől minden számítógépes szövegfeldolgozás alapja. Ezt a folyamatot hívjuk előfeldolgozásnak. Mostani írásomban ennek két konkrét esetet, esettanulmányokat közlök, továbbá végig utalok a szövegkódolási ajánlások előnyeire. Mind a feldolgozandó szöveg, mind a feldolgozott szöveg, az eredmény kódolásánál mekkora segítség tud lenni egy-egy ajánlás felhasználása.

2011. április 22.

Lapszemle

Nagyon örülünk hogy tetszik nektek az új rovat! Egyben rögtön arra is kérünk titeket hogy ha bármit szeretnétek ajánlani, akkor a szamitogepes(pont)nyelveszet(kukac)gmail(pont)com címre írjátok meg! Legyen az bármi, hír, tanulmány, video. Ha pedig rendszeresen szeretnétek informálódni, akkor kövessétek Twitter fiókunkat (@sznyelveszet) és olvassátok a szamitogepesnyelveszet.tumblr.com oldalunkat is (ahol szimplán átvesszük az anyagokat amik minket érdekelnek :D).

2011. április 21.

Könyvismertető: Head First Programming és Python - a legjobb páros kezdőknek

Sok olvasónk keres meg minket akiket érdekel a számítógépes nyelvészet, vagy szeretnék nyelvészeti munkájukat/tanulmányaikat kiegészíteni számítástudományi eszközökkel, azonban nem tudják hogy hogy vágjanak bele a dologba. Sajnos a nyelvészeti tanulmányoknak még nem mindenhol szerves része az adatok feldolgozása és elemzés és az alapvető programozási ismeretek oktatása. Az elsőre már ajánlottunk olyan köteteket melyek akár önállóan is feldolgozhatóak (Statisztikai túlélőkészlet és Könyvismertető: Statisztika és adatelemzés kezdőknek posztjainkban), most azonban két olyan kötetet ajánlunk melyek bevezetik az olvasót a Python programozási nyelvbe és ezzel megnyitják az utat a komolyabb tanulmányok felé is.

2011. április 18.

Természetes nyelvi keresés 1

A keresés megszokott része digitális hétköznapjainknak; nem csak az interneten szoktunk keresni, hanem dokumentumainkban és azok között és egyre több operációs rendszer integrál egy általános keresőt ami nem csak a szöveges fájlok, hanem minden adat és program között képes keresni. A keresés általánossá vált, része az ember-gép interakciónak (HCI - human computer interaction), s habár egyre megszokottabb a kulcsszavas keresés, nem szabad elfelejtenünk hogy a begépelt kulcsszavak száma folyamatosan növekszik, miközben az információ mennyisége rohamosan gyarapodik. A megnövekedett komplexitást két oldalról "támadhatjuk", egyrészt az információ mélyebb elemzésével és strukturálásával, másrészt a felhasználó ún. naiv elméletének (a keresőmotor működésére vonatkozó félig-meddig tudatos elképzeléseinek) jobb megértésével és kiszolgálásával. A természetes nyelvi keresés ennek a kettős igénynek próbál megfelelni.

2011. április 17.

Szófaj-elemzés 2 – néhány újabb tapasztalat


Előző posztomban, melyben saját szófaj-egyértelműsítő programom írását kezdtem bemutatni, kiderült, hogy egy egyszerű tanuló-adatbázis és a Bayes-osztályozó algoritmus segítségével egészen tűrhető eredményeket lehet elérni. Intuitív módon belátható azonban, hogy csak ilyen módszerrel nem lehet elérni tökéletes eredményt az ige-felismerés terén, hiszen csak végződések alapján képtelenség megmondani, miért főnév az “embert”, mikor a “megvert” ige. Programom kizárólag morfológiai adatok alapján akar dönteni, azonban, sajnos, itt a kulcsfontosságú ismerni a szavak tövét is – ez már lexikai adat, amely kinyeréséhez ismerni kell (intuitív módon) a szó szemantikáját, vagy legalábbis valamilyen módon meg kell határozni, milyen szerepet tölt be a mondatban: tárgy-e vagy predikátum (szintaktikai szint). Ebből a kicsi példából is látható, hogy a természetes nyelv egy több szintű rendszer, amely szintek közt úgymond “kötelező” az átjárás az értelem megragadásához.

2011. április 15.

Lapszemle

Eltelt egy hét, és nagyon sok minden történt ám a nyelvészet számítógépes és hagyományos területein is. A non-nativizmus visszatért a tudományos közbeszédbe, az MIT-n kétéveseken elvégezték a Turing tesztet és a gyerkőcök nem mentek át. Mindenki megnyugodhat, lesz mit olvasni a hétvégén!


2011. április 13.

Könyvismertető: Ki az elefántcsonttoronyból - avagy élet az akadámián túl

Kicsit rendhagyó könyvismertő következik most, nem az ajánlott könyvekről fogok írni, hanem az apropóról amiért én elolvastam azokat ill. véleményemet hogy mennyire használhatóak. Egy szempont vezérelt: az akadémiai élet után csak nagyon nehezen találtam a helyemet egy nagy cégnél. Ennek oka az hogy az egyetemen eltöltött évek (jajj, nekem egy tucat volt) merőben másra szocializálnak mint egy vállalati kultúra (ezen itt az iparban zajló kutatásra és fejlesztésre gondolok első sorban). Úgy gondolom hogy a következő négy könyvből okulhatnak mind a klasszikus kutatók, mind az ipar felé tartóak (legyenek fiatalok vagy pályamódosítóak).

2011. április 11.

Írástudók hajnala IV. - az adatújságírásról

Az újságírás is állandóan változik nem csak egy adott kor eseményei, divatjai csapódnak le (nagy érdekes ebből a szempontból a The Economist 1843-ig visszamenő archívuma), hanem alkalmazkodnia kellett a különböző médiumokhoz is (rádió, televízió). Meglepő viszont hogy a sajtó még nem alkalmazkodott teljesen az internet és az adatok kora nyújtotta lehetőségekhez ill. nem reagált még a kihívásokra. Az olvasó joggal kételkedhet, hiszen az internetes hírportálok már torony magasan verik a print médiát, a stílus kalauzokban már külön fejezet foglalkozik az internetes tartalmak készítésének szabályaival, akkor hogy lehet hogy állíthatja valaki hogy nem történt változás? Nos, ez csak részben igaz, már megjelentek az új irány keresői, az adatújságírás (angol terminusokkal data journalism, data-driven journalism, database journalism néven találkozhatunk vele). Írásunk a teljesség igénye nélkül szeretne pár kezdeményezést bemutatni melyek lazán kapcsolódnak, de az adatújságírás hivatkozási pontjai.

2011. április 10.

Az Orosz Nyelv Nemzeti Korpusza

Mielőtt belevágnék a világ egyhatodán beszélt nyelvet feldolgozó korpusz ismertetésébe, talán érdemes átgondolni, mi az a korpusz. Sok szöveg összegyűjtve magában még nem az, bár rengetegféle vizsgálatot így is lehet rajtuk végezni. Korpusszá az teszi őket, hogy a szövegek beválogatásának vannak valamiféle kritériumai, illetve a szövegek maguk is el vannak látva őket jellemző adatokkal.


2011. április 8.

Lapszemle

Ezen a héten sem maradhatnak olvasnivaló nélkül kedves látogatóink! A hétvégére ismét ajánlunk pár cikket. Továbbra is várjuk javaslataitokat a rovatba a szamitogepes(pont)nyelveszet(kukac)gmail(pont)com email címre.

2011. április 7.

Korpusznyelvészet – elméleti megfontolások

 Mi is az a korpusznyelvészet? Sokan úgy tekintenek a korpuszokra mint a nyelvi adatok egyetlen lehetséges forrásaira, mások azt hiszik hogy ez valami nagyon új irányzat, de szeretnénk lehűteni a kedélyeket – a korpusznyelvészet ugyanis egy módszertani irányzat, se nem több, se nem kevesebb. Sajnos azonban ezt az irányzatot is „megfertőzte” a szokásos irány és szeretik a korpusznyelvészek is Chomskyval szemben meghatározni magukat. Vizsgáljuk meg egy kicsit közelebbről a két legelterjedtebb ködképet a korpusznyelvészetről.

 

A korpusznyelvészet egy új dolog

 

Sokan azt hiszik hogy a korpusznyelvészet új, hiszen manapság korpuszon számítógépekkel olvasható elektronikus korpuszokat értünk. A nyelvi adatok elemzéséhez kapcsolódik a statisztika és sokan el sem tudják képzelni hogy a modern eszközök és elméleti háttér nélkül is lehetett korpuszt vizsgálni. Mielőtt bárki azt hinné hogy visszamegyünk a régi görögökhöz, megnyugtatok mindenkit hogy ettől nem kell félni. Az adatok természetesen a nyelvészeti munka részét képezik, így amióta létezik a nyelv módszeres tanulmányozása, születnek különböző szótárak, szószedetek stb. Tehát a változást ott kell keresnünk amikor az adatokkal nem egy-egy elméletet vagy nyelvtani szabályt akartak alátámasztani visszamenőlegesen hanem pont fordítva az adatokból szerettek volna nyelvi törvényszerűségeket megállapítani.

 

 

  • Zipf szógyakorisági megfigyelései a legismertebbek, ezeket a múlt század harmincas, negyvenes éveiben publikálta, szorgos kétkezi munkával gyűjtve az adatokat

  • Roberto Busa, akit minden rendes digitális bölcsész mint alapító atyát tisztel, a skolasztikus szerzők szövegein végzett kutatásokat, amikor összehozta a sors az IBM egyik igazgatójával, Thomas J. Watson-nal (biza, a Watson neve rá is utal!) és (lyukkártyákon!) elkészült az első nagy korpusz, konkordanciákkal és minden szépséggel, 10,600,000 szóval! Busa és csapata emellett még egy ötmillió szavas többnyelvű korpuszt is összedobott, mindezt az 1950-es években!

  • Mosteller és Wallace 1964-ben végzett bayesiánus elemzést többek között szöveg kategorizálás, szerző megállapítás és stilometria területén. Mindezt pedig kézzel, öt éven keresztül 80 diák segítségével! Könyvük a mai napig a terület klasszikusa!

 

A hatvanas években szerencsésen összeért a két irányzat, a számítógépek fejlődésével búcsút inthettünk a lyukkártyáknak, a kézzel végzett számlálást (és számításokat!) felváltották a gépek és megszülettek az ismert korpuszok, mint pl a Brown korpusz vagy a BYU Corpus of Contemporary American English és a British National Corpus.

 

A generatív nyelvészet korpuszellenes

 

Chomskyt és általában a generatív nyelvészeket szeretik megvádolni mindennel amivel csak egy nyelvészeti elméletet meg lehet vádolni. Arról már beszámoltunk hogy Chomsky szerint a sztochasztikus modellek magyarázati ereje korlátozott (de ez nem jelenti azt hogy gyakorlati alkalmazásukat kerülni kell!), de egyéb érveket is tulajdonítanak neki. Ezek röviden:

 

  • a korpusz a performancia megnyilvánulása, nem szolgálhat a kompetencia modelljéül

  • adott nyelvben a lehetséges jólformált mondatok száma megszámlálhatóan végtelen, ergo egy korpusz nem modellezheti le

  • nincs olyan hogy kiegyensúlyozott korpusz

 

Vegyük sorra ezeket! Chomsky megkülönbözteti a komptenciát (a nyelv tudásának belső képességét, egy internalizált szabályrendszert a fejünkben) és a performanciát (azt amikor használjuk a nyelvet). A kompetencia általános elveken alapul, mint pl a rekurzió (önmagát meghívó szabály). Így ha pl. egy szabály szerint ha kiegészíthetem egy az

 

„Egész nap csak esik”

 

mondatot azzal hogy és esik. Akkor az alábbi mondatok mind helyesek:

 

„Egész nap csak esik és esik.”

„Egész nap csak esik és esik és esik”

„Egész nap csak esik és esik és esik és esik”

 

És így tovább a végtelenségig! Nyilván nem élünk végtelen ideig és valamikor abba kell hagyni egy ilyen mondatot, de elvileg (és ez nagyon fontos!) akár meddig folytathatjuk, ahogy a természetes számok sorát (hiszen minden mondathoz hozzárendelhetjük annak hosszát, és ahogy minden természetes egész számnál tudunk eggyel nagyobbat mondani, úgy tudunk egy elemmel hosszabb mondatot generálni). Hogyan lehet így a nyelv egy modelljét megadni? A kulcs a generálási szabályok megtalálása. A lexikon, azaz az építőkövek, nem érdekes ebből a szempontból!

 

Technikai értelemben valóban nem tudunk olyan korpuszt találni ami modellje lehet a nyelvnek. Azonban nem szabad elfeledkeznünk a lexikon egy érdekes tulajdonságáról. Vannak ugyanis olyan elemei melyek nem változnak nagyon az idővel, azaz zárt osztályt alkotnak. Ezek általában valamilyen grammatikai funkciót töltenek be (gondoljunk a kötőszavakra pl.) és akadnak olyanok melyek sokkal változékonyabbak. Azonban a zárt osztályt alkotó szavak száma nagyon alacsony, legalábbis a többihez képest. Azonban a generatív elméleteket is tesztelni kell valahogy, erre pedig kiválóan alkalmas egy korpusz, azonban a korpuszba vetett hit mértéke Chomsky hívei körében alacsony. Ez alatt nem azt kell érteni hogy vitatják a nyilvánvalót, csupán annyit tesz hogy nem fogadják el hogy ha valami nincs a korpuszban, az nem is létezik.

 

Ezzel pedig el is jutottunk az egyik kedvenc témámhoz! Lehet-e olyan korpuszt készíteni ami reprezentatív? Reprezentativitáson, ahogy megszoktuk pl a közvélemény-kutatások esetében, azt értjük hogy jó megközelítéssel leírja a minta az egész sokaságot. Vannak akik szerint ahogy egyre jobban fejlődik a technika és egyre több adatot generálunk úgy tkp. elérjük hogy lényegében egy végtelen, állandóan növekvő korpuszunk van ami gyakorlatilag lefedi a teljes sokaságot (l. Norvig et all. The Unreasonable effectiveness of data tanulmányt).

 

Ha elfogadjuk hogy a nyelv rekurzív és ezáltal minden egyes nyelv lehetséges mondatainak száma megszámlálhatóan végtelen, akkor bele kell törődünk hogy nincs olyan korpusz ami modellje lehetne. Azonban ahogy a fizikusokat sem zavarja hogy nem vizsgálhatnak meg minden egyes apró részecskét, úgy minket sem kell hogy zavarjon hogy véges lények vagyunk és csak véges adatokkal dolgozhatunk. Viszont figyelembe kell vennünk azt a tényt hogy az adatokkal nagyon óvatosan kell bánnunk! Pl. ha a mai beszélt magyar nyelv korpuszát szeretnénk elkészíteni cenzusos alapon (azaz minden beszélőtől vennénk adatot) egy sztenderd irányított beszélgetés keretében amiben pl személyi adatokat kérdezünk, akkor a „Budapest” szó felülreprezentált lenne a korpuszban, hiszen a legnépesebb városban laknak a legtöbben, de kiugrana pl „Debrecen” vagy „Miskolc”, és könnyen megeshetne hogy a szórványmagyarság körében végzett kutakodásunk eredménye egy sor településnevet (vagy foglalkozást) eredményezne ami nagyon alacsony számban fordul elő, ezek jó eséllyel ki is esnének a végleges korpuszból mint hapax legomenák...

 

Ideális esetben mindenkinek vagy mindennek egyenlő eséllyel kell beleesnie a mintába. Vannak ugye nagyon rövid, meg nagyon hosszú szavak, de a legtöbbjük se nem túl hosszú, se nem túl rövid. Ezt nevezik normál eloszlásnak, és a legtöbb dolog ezt a mintát követi. Vessünk egy példát a grafikonjára

[normal distribution]

s láthatjuk hogy a legtöbb érték az átlag körül csoportosul és a leggyakoribb érték azaz a módusz is itt található, ahogy haladunk a szélek felé, úgy csökken az átlagtól eltérő értékek gyakorisága. Azonban előfordulhat hogy az ugyanazon átlag nagyon eltérő görbét eredményez. Ugyanazon átlag mellett a módusz és a medián (a sorba rendezett értékek közepe) eltérhet jobbra és balra.

[skewed]

Egy kiegyensúlyozott korpusznak figyelembe kell vennie a mintavételezésnél hogy vannak csángó beszélők, nagyváradiak, encsiek és győriek, nekik mind egyenlő eséllyel kell a mintába kerülniük. Ugyanakkor azt is figyelembe kell vennünk hogy a nyelvnek területi változatai is vannak, de ez mind nem elég, mert a társadalmi helyzet, iskolázottság stb mind hat a nyelvhasználatra, érdemes ezekre is tekintettel lenni. És a végén ott a megfigyelő paradoxona, felmerül a kérdés hogy mennyire hat az adatgyűjtő jelenléte a beszélőre (a kedves olvasó eleresztene egy „bazd meg”-et ilyen helyzetben? És otthon vagy baráti körben kicsúszik egy-egy káromkodás a szádon?). Szinte biztos hogy valamerre kitér a mintánk, de nem tudjuk merre!

 

Mégis akkor mire jó ez az egész?

 

Nem kell elfordulnunk a korpusznyelvészettől, csak tisztába kell lenni azzal hogy nem tudjuk egyetlen korpusszal lefedni a nyelvet és el kell fogadnunk hogy nem a nyelv egy modelljét rejti egy korpusz, hanem egy forrást amivel tesztelhetjük elméleteinket. Ebben az értelemben a korpusznyelvészet nem a nyelvtudomány egyik ága, hanem a lehetséges kutatásmódszertanok egyike.

 

 

Korpusznyelvészet – elméleti megfontolások

 Mi is az a korpusznyelvészet? Sokan úgy tekintenek a korpuszokra mint a nyelvi adatok egyetlen lehetséges forrásaira, mások azt hiszik hogy ez valami nagyon új irányzat, de szeretnénk lehűteni a kedélyeket – a korpusznyelvészet ugyanis egy módszertani irányzat, se nem több, se nem kevesebb. Sajnos azonban ezt az irányzatot is „megfertőzte” a szokásos irány és szeretik a korpusznyelvészek is Chomskyval szemben meghatározni magukat. Vizsgáljuk meg egy kicsit közelebbről a két legelterjedtebb ködképet a korpusznyelvészetről.

<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->

A korpusznyelvészet egy új dolog

 

Sokan azt hiszik hogy a korpusznyelvészet új, hiszen manapság korpuszon számítógépekkel olvasható elektronikus korpuszokat értünk. A nyelvi adatok elemzéséhez kapcsolódik a statisztika és sokan el sem tudják képzelni hogy a modern eszközök és elméleti háttér nélkül is lehetett korpuszt vizsgálni. Mielőtt bárki azt hinné hogy visszamegyünk a régi görögökhöz, megnyugtatok mindenkit hogy ettől nem kell félni. Az adatok természetesen a nyelvészeti munka részét képezik, így amióta létezik a nyelv módszeres tanulmányozása, születnek különböző szótárak, szószedetek stb. Tehát a változást ott kell keresnünk amikor az adatokkal nem egy-egy elméletet vagy nyelvtani szabályt akartak alátámasztani visszamenőlegesen hanem pont fordítva az adatokból szerettek volna nyelvi törvényszerűségeket megállapítani.

 

 

  • Zipf szógyakorisági megfigyelései a legismertebbek, ezeket a múlt század harmincas, negyvenes éveiben publikálta, szorgos kétkezi munkával gyűjtve az adatokat

  • Roberto Busa, akit minden rendes digitális bölcsész mint alapító atyát tisztel, a skolasztikus szerzők szövegein végzett kutatásokat, amikor összehozta a sors az IBM egyik igazgatójával, Thomas J. Watson-nal (biza, a Watson neve rá is utal!) és (lyukkártyákon!) elkészült az első nagy korpusz, konkordanciákkal és minden szépséggel, 10,600,000 szóval! Busa és csapata emellett még egy ötmillió szavas többnyelvű korpuszt is összedobott, mindezt az 1950-es években!

  • Mosteller és Wallace 1964-ben végzett bayesiánus elemzést többek között szöveg kategorizálás, szerző megállapítás és stilometria területén. Mindezt pedig kézzel, öt éven keresztül 80 diák segítségével! Könyvük a mai napig a terület klasszikusa!

 

A hatvanas években szerencsésen összeért a két irányzat, a számítógépek fejlődésével búcsút inthettünk a lyukkártyáknak, a kézzel végzett számlálást (és számításokat!) felváltották a gépek és megszülettek az ismert korpuszok, mint pl a Brown korpusz vagy a BYU Corpus of Contemporary American English és a British National Corpus.

 

A generatív nyelvészet korpuszellenes

 

Chomskyt és általában a generatív nyelvészeket szeretik megvádolni mindennel amivel csak egy nyelvészeti elméletet meg lehet vádolni. Arról már beszámoltunk hogy Chomsky szerint a sztochasztikus modellek magyarázati ereje korlátozott (de ez nem jelenti azt hogy gyakorlati alkalmazásukat kerülni kell!), de egyéb érveket is tulajdonítanak neki. Ezek röviden:

 

  • a korpusz a performancia megnyilvánulása, nem szolgálhat a kompetencia modelljéül

  • adott nyelvben a lehetséges jólformált mondatok száma megszámlálhatóan végtelen, ergo egy korpusz nem modellezheti le

  • nincs olyan hogy kiegyensúlyozott korpusz

<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->

 

Vegyük sorra ezeket! Chomsky megkülönbözteti a komptenciát (a nyelv tudásának belső képességét, egy internalizált szabályrendszert a fejünkben) és a performanciát (azt amikor használjuk a nyelvet). A kompetencia általános elveken alapul, mint pl a rekurzió (önmagát meghívó szabály). Így ha pl. egy szabály szerint ha kiegészíthetem egy az

 

„Egész nap csak esik”

 

mondatot azzal hogy és esik. Akkor az alábbi mondatok mind helyesek:

 

„Egész nap csak esik és esik.”

„Egész nap csak esik és esik és esik”

„Egész nap csak esik és esik és esik és esik”

 

És így tovább a végtelenségig! Nyilván nem élünk végtelen ideig és valamikor abba kell hagyni egy ilyen mondatot, de elvileg (és ez nagyon fontos!) akár meddig folytathatjuk, ahogy a természetes számok sorát (hiszen minden mondathoz hozzárendelhetjük annak hosszát, és ahogy minden természetes egész számnál tudunk eggyel nagyobbat mondani, úgy tudunk egy elemmel hosszabb mondatot generálni). Hogyan lehet így a nyelv egy modelljét megadni? A kulcs a generálási szabályok megtalálása. A lexikon, azaz az építőkövek, nem érdekes ebből a szempontból!

 

Technikai értelemben valóban nem tudunk olyan korpuszt találni ami modellje lehet a nyelvnek. Azonban nem szabad elfeledkeznünk a lexikon egy érdekes tulajdonságáról. Vannak ugyanis olyan elemei melyek nem változnak nagyon az idővel, azaz zárt osztályt alkotnak. Ezek általában valamilyen grammatikai funkciót töltenek be (gondoljunk a kötőszavakra pl.) és akadnak olyanok melyek sokkal változékonyabbak. Azonban a zárt osztályt alkotó szavak száma nagyon alacsony, legalábbis a többihez képest. Azonban a generatív elméleteket is tesztelni kell valahogy, erre pedig kiválóan alkalmas egy korpusz, azonban a korpuszba vetett hit mértéke Chomsky hívei körében alacsony. Ez alatt nem azt kell érteni hogy vitatják a nyilvánvalót, csupán annyit tesz hogy nem fogadják el hogy ha valami nincs a korpuszban, az nem is létezik.

 

Ezzel pedig el is jutottunk az egyik kedvenc témámhoz! Lehet-e olyan korpuszt készíteni ami reprezentatív? Reprezentativitáson, ahogy megszoktuk pl a közvélemény-kutatások esetében, azt értjük hogy jó megközelítéssel leírja a minta az egész sokaságot. Vannak akik szerint ahogy egyre jobban fejlődik a technika és egyre több adatot generálunk úgy tkp. elérjük hogy lényegében egy végtelen, állandóan növekvő korpuszunk van ami gyakorlatilag lefedi a teljes sokaságot (l. Norvig et all. The Unreasonable effectiveness of data tanulmányt).

 

Ha elfogadjuk hogy a nyelv rekurzív és ezáltal minden egyes nyelv lehetséges mondatainak száma megszámlálhatóan végtelen, akkor bele kell törődünk hogy nincs olyan korpusz ami modellje lehetne. Azonban ahogy a fizikusokat sem zavarja hogy nem vizsgálhatnak meg minden egyes apró részecskét, úgy minket sem kell hogy zavarjon hogy véges lények vagyunk és csak véges adatokkal dolgozhatunk. Viszont figyelembe kell vennünk azt a tényt hogy az adatokkal nagyon óvatosan kell bánnunk! Pl. ha a mai beszélt magyar nyelv korpuszát szeretnénk elkészíteni cenzusos alapon (azaz minden beszélőtől vennénk adatot) egy sztenderd irányított beszélgetés keretében amiben pl személyi adatokat kérdezünk, akkor a „Budapest” szó felülreprezentált lenne a korpuszban, hiszen a legnépesebb városban laknak a legtöbben, de kiugrana pl „Debrecen” vagy „Miskolc”, és könnyen megeshetne hogy a szórványmagyarság körében végzett kutakodásunk eredménye egy sor településnevet (vagy foglalkozást) eredményezne ami nagyon alacsony számban fordul elő, ezek jó eséllyel ki is esnének a végleges korpuszból mint hapax legomenák...

 

Ideális esetben mindenkinek vagy mindennek egyenlő eséllyel kell beleesnie a mintába. Vannak ugye nagyon rövid, meg nagyon hosszú szavak, de a legtöbbjük se nem túl hosszú, se nem túl rövid. Ezt nevezik normál eloszlásnak, és a legtöbb dolog ezt a mintát követi. Vessünk egy példát a grafikonjára

[normal distribution]

s láthatjuk hogy a legtöbb érték az átlag körül csoportosul és a leggyakoribb érték azaz a módusz is itt található, ahogy haladunk a szélek felé, úgy csökken az átlagtól eltérő értékek gyakorisága. Azonban előfordulhat hogy az ugyanazon átlag nagyon eltérő görbét eredményez. Ugyanazon átlag mellett a módusz és a medián (a sorba rendezett értékek közepe) eltérhet jobbra és balra.

[skewed]

Egy kiegyensúlyozott korpusznak figyelembe kell vennie a mintavételezésnél hogy vannak csángó beszélők, nagyváradiak, encsiek és győriek, nekik mind egyenlő eséllyel kell a mintába kerülniük. Ugyanakkor azt is figyelembe kell vennünk hogy a nyelvnek területi változatai is vannak, de ez mind nem elég, mert a társadalmi helyzet, iskolázottság stb mind hat a nyelvhasználatra, érdemes ezekre is tekintettel lenni. És a végén ott a megfigyelő paradoxona, felmerül a kérdés hogy mennyire hat az adatgyűjtő jelenléte a beszélőre (a kedves olvasó eleresztene egy „bazd meg”-et ilyen helyzetben? És otthon vagy baráti körben kicsúszik egy-egy káromkodás a szádon?). Szinte biztos hogy valamerre kitér a mintánk, de nem tudjuk merre!

 

Mégis akkor mire jó ez az egész?

 

Nem kell elfordulnunk a korpusznyelvészettől, csak tisztába kell lenni azzal hogy nem tudjuk egyetlen korpusszal lefedni a nyelvet és el kell fogadnunk hogy nem a nyelv egy modelljét rejti egy korpusz, hanem egy forrást amivel tesztelhetjük elméleteinket. Ebben az értelemben a korpusznyelvészet nem a nyelvtudomány egyik ága, hanem a lehetséges kutatásmódszertanok egyike.

2011. április 6.

Egy értelmetlen vita margójára: avagy miért nem kell a sztochasztikus vs szabályalapú vitában résztvennünk

Az érdeklődők is tisztában vannak azzal hogy a mesterséges intelligencia és a számítógépes nyelvészet története során először a sztochasztikus módszerek tűntek befutónak, majd a logikai és szabályalapú megközelítések lett egyeduralkodók egészen a kilencvenes évekig, majd a statisztikai nyelvfeldolgozás diadalmaskodott és napjainkban is megállíthatatlanul tör előre. Még szakmai berkekben is megfigyelhető egyfajta ellentét a szabályalapú és a sztochasztikus megközelítések hívei között. Azok akik bele mennek ebbe az egymásra mutogatásba és vitába azonban joggal vádolhatók felületességgel, mivel elfelejtik hogy mindkét megközelítés egy tőről fakad, de nem ugyanarról szól! Hogy ezt megvilágítsuk segítségéül hívjuk a matematika filozófiáját, a szemantikát, a szemantikus webet és a kilencvenes évek egyik rapcore bandáját is.

2011. április 5.

Hogyan kezdtem szófajelemzőt írni?

Tempfli Péter vendégposztja

A probléma

Ahhoz, hogy lehessen valamit mondani egy mondatról, jó tudni, miféle cselekvést vagy történést ír le; egy vagy több alany csinálja-e, megtörtént, történni fog, esetleg csak vágyunk arra, hogy megtörténjen. Egyszóval, az ige és a kapcsolódó elemek számos hasznos információt hordoznak. Ha géppel akarom megkeresni ezeket az adatokat, egy olyan eszközre van szükség, ami felismeri az igéket egy adott szövegben és kinyeri a fenti információkat. Erre való a szófajelemző(felismerő), angolul part-of-speech tagger (POS-tagger). Az NLTK-ról szóló könyv ötödik fejezete ismertet néhány, az NLTK-be beépített eszközt, de ezeket sajnos csak angol nyelvű szövegeken lehet használni. Magyar nyelvű morfológiai elemző is létezik (a HUNMORPH ill. a HUNSPELL), azonban ezek azon túl, hogy nagyon nehezen konfigurálhatók, azt az örömet is elveszik, hogy magam gondolkozzam el a problémán;) (természetesen ezek nagyon jó eszközök, de professzionális felhasználásra készültek, ezért nem nagyon veszik figyelembe a "barkács-programozók" igényeit)


2011. április 4.

A nyelvi adat gyűjtése

A nyelvészeti eredmények leellenőrzése a tanulási folyamat egy fontos és szerintem elengedhetetlen kelléke. Vagy gondolatban teszünk kísérletet vagy segítségül hívhatunk más embereket, végül a számítógéphez is fordulhatunk. Bármely eljárást választjuk az adatgyűjtéshez, érdemes tisztában lenni a gyűjtési eljárás előnyeivel és hátrányaival. Posztomban ennek három módját ismertetem.

2011. április 2.

Konverzációelemzés

Az eredetileg Amerikából induló diszciplína gyorsan meghódította Europát is. Angol és német nyelvterületen nagy népszerűségnek indult a társalgáselemzés, de hazánkban is egyre elterjedtebb vizsgálatokat indítanak ebben a témában. - Posztomban egy rövid bemutatót szeretnék adni erről a területről.

2011. április 1.

A kód feltörése - mert filmet még nem ajánlottunk!

Rendes olvasóink reggeltől estig csak nyelvészettel, logikával és informatikával foglalkoznak és már tudják hogy kikapcsolódni is csak igazi geek módjára lehet nekik és elolvasták már nem rég ajánlott Logicomix képregényt. A kód feltörése (Breaking the Code) film Hugh Whitemore azonos című színművén alapszik, melyhez a szerző segítségére volt a nagyszerű matematikus és Turing-fan Andrew Hodges (akinek The Engima című kultkönyve szintén alap!). A feltörni kívánt kód a németek hírhedt enigmája, a feltörő Alan Turing, a helyszín Bletchley Park, Anglia.

Lapszemle

Elindítjuk első állandó, heti rendszerességgel jelentkező rovatunkat melyben a számítógépes nyelvészettel kapcsolatos híreket és egyéb interenten fellelhető írásokat ajánlunk olvasóink figyelmébe hogy két poszt között se maradjanak olvasnivaló nélkül. Ha van olyan hír, cikk, tanulmány stb ami szerinted érdemes mások figyelmére is, a szamitogepes(pont)nyelveszet(kukac)gmail(pont)com email címre küld el egy pár soros ismertetővel.