2011. április 29.
Lapszemle
Pár szó a blogról
Sűrű hetünk volt, szinte minden napra jutott egy poszt, de ez nem lesz mindig így, kellett hozzá a csillagok különleges együttállása, egy hosszú hétvége és egy-két korábban megkezdett munka beérése is. Sokan kérték hogy mutassunk be egy-egy területet ami mostanság felkapottabb. Mindenhez mi sem érthetünk, de megtettük a megfelelő lépéseket és megkörnyékeztünk pár szakértőt a sentiment analysis és az adatbányászat területén, így a megszokott vendégposztok is visszatérnek hamarosan. De ha a kedves olvasó kedvet érez magában ahhoz hogy bemutasson egy problémát, egy könyvet, vagy saját kutatási területét, ragadjon klaviatúrát és írjon egy posztot és küldje le a szamitogepes.nyelveszet(kukac)gmail.com címre!
2011. április 28.
Natural Language Processing for the Working Programmer - interview with the authors
2011. április 27.
A szöveg-osztályozás néhány kérdése
2011. április 26.
On NLTK and Python - an interview with Jacob Perkins
Webes szövegek megtisztítása és az Ajánlások előnye
2011. április 22.
Lapszemle
2011. április 21.
Könyvismertető: Head First Programming és Python - a legjobb páros kezdőknek
2011. április 18.
Természetes nyelvi keresés 1
2011. április 17.
Szófaj-elemzés 2 – néhány újabb tapasztalat
2011. április 15.
Lapszemle
2011. április 13.
Könyvismertető: Ki az elefántcsonttoronyból - avagy élet az akadámián túl
2011. április 11.
Írástudók hajnala IV. - az adatújságírásról
2011. április 10.
Az Orosz Nyelv Nemzeti Korpusza
2011. április 8.
Lapszemle
2011. április 7.
Korpusznyelvészet – elméleti megfontolások
Mi is az a korpusznyelvészet? Sokan úgy tekintenek a korpuszokra mint a nyelvi adatok egyetlen lehetséges forrásaira, mások azt hiszik hogy ez valami nagyon új irányzat, de szeretnénk lehűteni a kedélyeket – a korpusznyelvészet ugyanis egy módszertani irányzat, se nem több, se nem kevesebb. Sajnos azonban ezt az irányzatot is „megfertőzte” a szokásos irány és szeretik a korpusznyelvészek is Chomskyval szemben meghatározni magukat. Vizsgáljuk meg egy kicsit közelebbről a két legelterjedtebb ködképet a korpusznyelvészetről.
A korpusznyelvészet egy új dolog
Sokan azt hiszik hogy a korpusznyelvészet új, hiszen manapság korpuszon számítógépekkel olvasható elektronikus korpuszokat értünk. A nyelvi adatok elemzéséhez kapcsolódik a statisztika és sokan el sem tudják képzelni hogy a modern eszközök és elméleti háttér nélkül is lehetett korpuszt vizsgálni. Mielőtt bárki azt hinné hogy visszamegyünk a régi görögökhöz, megnyugtatok mindenkit hogy ettől nem kell félni. Az adatok természetesen a nyelvészeti munka részét képezik, így amióta létezik a nyelv módszeres tanulmányozása, születnek különböző szótárak, szószedetek stb. Tehát a változást ott kell keresnünk amikor az adatokkal nem egy-egy elméletet vagy nyelvtani szabályt akartak alátámasztani visszamenőlegesen hanem pont fordítva az adatokból szerettek volna nyelvi törvényszerűségeket megállapítani.
Zipf szógyakorisági megfigyelései a legismertebbek, ezeket a múlt század harmincas, negyvenes éveiben publikálta, szorgos kétkezi munkával gyűjtve az adatokat
Roberto Busa, akit minden rendes digitális bölcsész mint alapító atyát tisztel, a skolasztikus szerzők szövegein végzett kutatásokat, amikor összehozta a sors az IBM egyik igazgatójával, Thomas J. Watson-nal (biza, a Watson neve rá is utal!) és (lyukkártyákon!) elkészült az első nagy korpusz, konkordanciákkal és minden szépséggel, 10,600,000 szóval! Busa és csapata emellett még egy ötmillió szavas többnyelvű korpuszt is összedobott, mindezt az 1950-es években!
Mosteller és Wallace 1964-ben végzett bayesiánus elemzést többek között szöveg kategorizálás, szerző megállapítás és stilometria területén. Mindezt pedig kézzel, öt éven keresztül 80 diák segítségével! Könyvük a mai napig a terület klasszikusa!
A hatvanas években szerencsésen összeért a két irányzat, a számítógépek fejlődésével búcsút inthettünk a lyukkártyáknak, a kézzel végzett számlálást (és számításokat!) felváltották a gépek és megszülettek az ismert korpuszok, mint pl a Brown korpusz vagy a BYU Corpus of Contemporary American English és a British National Corpus.
A generatív nyelvészet korpuszellenes
Chomskyt és általában a generatív nyelvészeket szeretik megvádolni mindennel amivel csak egy nyelvészeti elméletet meg lehet vádolni. Arról már beszámoltunk hogy Chomsky szerint a sztochasztikus modellek magyarázati ereje korlátozott (de ez nem jelenti azt hogy gyakorlati alkalmazásukat kerülni kell!), de egyéb érveket is tulajdonítanak neki. Ezek röviden:
a korpusz a performancia megnyilvánulása, nem szolgálhat a kompetencia modelljéül
adott nyelvben a lehetséges jólformált mondatok száma megszámlálhatóan végtelen, ergo egy korpusz nem modellezheti le
nincs olyan hogy kiegyensúlyozott korpusz
Vegyük sorra ezeket! Chomsky megkülönbözteti a komptenciát (a nyelv tudásának belső képességét, egy internalizált szabályrendszert a fejünkben) és a performanciát (azt amikor használjuk a nyelvet). A kompetencia általános elveken alapul, mint pl a rekurzió (önmagát meghívó szabály). Így ha pl. egy szabály szerint ha kiegészíthetem egy az
„Egész nap csak esik”
mondatot azzal hogy és esik. Akkor az alábbi mondatok mind helyesek:
„Egész nap csak esik és esik.”
„Egész nap csak esik és esik és esik”
„Egész nap csak esik és esik és esik és esik”
És így tovább a végtelenségig! Nyilván nem élünk végtelen ideig és valamikor abba kell hagyni egy ilyen mondatot, de elvileg (és ez nagyon fontos!) akár meddig folytathatjuk, ahogy a természetes számok sorát (hiszen minden mondathoz hozzárendelhetjük annak hosszát, és ahogy minden természetes egész számnál tudunk eggyel nagyobbat mondani, úgy tudunk egy elemmel hosszabb mondatot generálni). Hogyan lehet így a nyelv egy modelljét megadni? A kulcs a generálási szabályok megtalálása. A lexikon, azaz az építőkövek, nem érdekes ebből a szempontból!
Technikai értelemben valóban nem tudunk olyan korpuszt találni ami modellje lehet a nyelvnek. Azonban nem szabad elfeledkeznünk a lexikon egy érdekes tulajdonságáról. Vannak ugyanis olyan elemei melyek nem változnak nagyon az idővel, azaz zárt osztályt alkotnak. Ezek általában valamilyen grammatikai funkciót töltenek be (gondoljunk a kötőszavakra pl.) és akadnak olyanok melyek sokkal változékonyabbak. Azonban a zárt osztályt alkotó szavak száma nagyon alacsony, legalábbis a többihez képest. Azonban a generatív elméleteket is tesztelni kell valahogy, erre pedig kiválóan alkalmas egy korpusz, azonban a korpuszba vetett hit mértéke Chomsky hívei körében alacsony. Ez alatt nem azt kell érteni hogy vitatják a nyilvánvalót, csupán annyit tesz hogy nem fogadják el hogy ha valami nincs a korpuszban, az nem is létezik.
Ezzel pedig el is jutottunk az egyik kedvenc témámhoz! Lehet-e olyan korpuszt készíteni ami reprezentatív? Reprezentativitáson, ahogy megszoktuk pl a közvélemény-kutatások esetében, azt értjük hogy jó megközelítéssel leírja a minta az egész sokaságot. Vannak akik szerint ahogy egyre jobban fejlődik a technika és egyre több adatot generálunk úgy tkp. elérjük hogy lényegében egy végtelen, állandóan növekvő korpuszunk van ami gyakorlatilag lefedi a teljes sokaságot (l. Norvig et all. The Unreasonable effectiveness of data tanulmányt).
Ha elfogadjuk hogy a nyelv rekurzív és ezáltal minden egyes nyelv lehetséges mondatainak száma megszámlálhatóan végtelen, akkor bele kell törődünk hogy nincs olyan korpusz ami modellje lehetne. Azonban ahogy a fizikusokat sem zavarja hogy nem vizsgálhatnak meg minden egyes apró részecskét, úgy minket sem kell hogy zavarjon hogy véges lények vagyunk és csak véges adatokkal dolgozhatunk. Viszont figyelembe kell vennünk azt a tényt hogy az adatokkal nagyon óvatosan kell bánnunk! Pl. ha a mai beszélt magyar nyelv korpuszát szeretnénk elkészíteni cenzusos alapon (azaz minden beszélőtől vennénk adatot) egy sztenderd irányított beszélgetés keretében amiben pl személyi adatokat kérdezünk, akkor a „Budapest” szó felülreprezentált lenne a korpuszban, hiszen a legnépesebb városban laknak a legtöbben, de kiugrana pl „Debrecen” vagy „Miskolc”, és könnyen megeshetne hogy a szórványmagyarság körében végzett kutakodásunk eredménye egy sor településnevet (vagy foglalkozást) eredményezne ami nagyon alacsony számban fordul elő, ezek jó eséllyel ki is esnének a végleges korpuszból mint hapax legomenák...
Ideális esetben mindenkinek vagy mindennek egyenlő eséllyel kell beleesnie a mintába. Vannak ugye nagyon rövid, meg nagyon hosszú szavak, de a legtöbbjük se nem túl hosszú, se nem túl rövid. Ezt nevezik normál eloszlásnak, és a legtöbb dolog ezt a mintát követi. Vessünk egy példát a grafikonjára
[normal distribution]
s láthatjuk hogy a legtöbb érték az átlag körül csoportosul és a leggyakoribb érték azaz a módusz is itt található, ahogy haladunk a szélek felé, úgy csökken az átlagtól eltérő értékek gyakorisága. Azonban előfordulhat hogy az ugyanazon átlag nagyon eltérő görbét eredményez. Ugyanazon átlag mellett a módusz és a medián (a sorba rendezett értékek közepe) eltérhet jobbra és balra.
[skewed]
Egy kiegyensúlyozott korpusznak figyelembe kell vennie a mintavételezésnél hogy vannak csángó beszélők, nagyváradiak, encsiek és győriek, nekik mind egyenlő eséllyel kell a mintába kerülniük. Ugyanakkor azt is figyelembe kell vennünk hogy a nyelvnek területi változatai is vannak, de ez mind nem elég, mert a társadalmi helyzet, iskolázottság stb mind hat a nyelvhasználatra, érdemes ezekre is tekintettel lenni. És a végén ott a megfigyelő paradoxona, felmerül a kérdés hogy mennyire hat az adatgyűjtő jelenléte a beszélőre (a kedves olvasó eleresztene egy „bazd meg”-et ilyen helyzetben? És otthon vagy baráti körben kicsúszik egy-egy káromkodás a szádon?). Szinte biztos hogy valamerre kitér a mintánk, de nem tudjuk merre!
Mégis akkor mire jó ez az egész?
Nem kell elfordulnunk a korpusznyelvészettől, csak tisztába kell lenni azzal hogy nem tudjuk egyetlen korpusszal lefedni a nyelvet és el kell fogadnunk hogy nem a nyelv egy modelljét rejti egy korpusz, hanem egy forrást amivel tesztelhetjük elméleteinket. Ebben az értelemben a korpusznyelvészet nem a nyelvtudomány egyik ága, hanem a lehetséges kutatásmódszertanok egyike.
Korpusznyelvészet – elméleti megfontolások
Mi is az a korpusznyelvészet? Sokan úgy tekintenek a korpuszokra mint a nyelvi adatok egyetlen lehetséges forrásaira, mások azt hiszik hogy ez valami nagyon új irányzat, de szeretnénk lehűteni a kedélyeket – a korpusznyelvészet ugyanis egy módszertani irányzat, se nem több, se nem kevesebb. Sajnos azonban ezt az irányzatot is „megfertőzte” a szokásos irány és szeretik a korpusznyelvészek is Chomskyval szemben meghatározni magukat. Vizsgáljuk meg egy kicsit közelebbről a két legelterjedtebb ködképet a korpusznyelvészetről.
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->
A korpusznyelvészet egy új dolog
Sokan azt hiszik hogy a korpusznyelvészet új, hiszen manapság korpuszon számítógépekkel olvasható elektronikus korpuszokat értünk. A nyelvi adatok elemzéséhez kapcsolódik a statisztika és sokan el sem tudják képzelni hogy a modern eszközök és elméleti háttér nélkül is lehetett korpuszt vizsgálni. Mielőtt bárki azt hinné hogy visszamegyünk a régi görögökhöz, megnyugtatok mindenkit hogy ettől nem kell félni. Az adatok természetesen a nyelvészeti munka részét képezik, így amióta létezik a nyelv módszeres tanulmányozása, születnek különböző szótárak, szószedetek stb. Tehát a változást ott kell keresnünk amikor az adatokkal nem egy-egy elméletet vagy nyelvtani szabályt akartak alátámasztani visszamenőlegesen hanem pont fordítva az adatokból szerettek volna nyelvi törvényszerűségeket megállapítani.
Zipf szógyakorisági megfigyelései a legismertebbek, ezeket a múlt század harmincas, negyvenes éveiben publikálta, szorgos kétkezi munkával gyűjtve az adatokat
Roberto Busa, akit minden rendes digitális bölcsész mint alapító atyát tisztel, a skolasztikus szerzők szövegein végzett kutatásokat, amikor összehozta a sors az IBM egyik igazgatójával, Thomas J. Watson-nal (biza, a Watson neve rá is utal!) és (lyukkártyákon!) elkészült az első nagy korpusz, konkordanciákkal és minden szépséggel, 10,600,000 szóval! Busa és csapata emellett még egy ötmillió szavas többnyelvű korpuszt is összedobott, mindezt az 1950-es években!
Mosteller és Wallace 1964-ben végzett bayesiánus elemzést többek között szöveg kategorizálás, szerző megállapítás és stilometria területén. Mindezt pedig kézzel, öt éven keresztül 80 diák segítségével! Könyvük a mai napig a terület klasszikusa!
A hatvanas években szerencsésen összeért a két irányzat, a számítógépek fejlődésével búcsút inthettünk a lyukkártyáknak, a kézzel végzett számlálást (és számításokat!) felváltották a gépek és megszülettek az ismert korpuszok, mint pl a Brown korpusz vagy a BYU Corpus of Contemporary American English és a British National Corpus.
A generatív nyelvészet korpuszellenes
Chomskyt és általában a generatív nyelvészeket szeretik megvádolni mindennel amivel csak egy nyelvészeti elméletet meg lehet vádolni. Arról már beszámoltunk hogy Chomsky szerint a sztochasztikus modellek magyarázati ereje korlátozott (de ez nem jelenti azt hogy gyakorlati alkalmazásukat kerülni kell!), de egyéb érveket is tulajdonítanak neki. Ezek röviden:
a korpusz a performancia megnyilvánulása, nem szolgálhat a kompetencia modelljéül
adott nyelvben a lehetséges jólformált mondatok száma megszámlálhatóan végtelen, ergo egy korpusz nem modellezheti le
nincs olyan hogy kiegyensúlyozott korpusz
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->
Vegyük sorra ezeket! Chomsky megkülönbözteti a komptenciát (a nyelv tudásának belső képességét, egy internalizált szabályrendszert a fejünkben) és a performanciát (azt amikor használjuk a nyelvet). A kompetencia általános elveken alapul, mint pl a rekurzió (önmagát meghívó szabály). Így ha pl. egy szabály szerint ha kiegészíthetem egy az
„Egész nap csak esik”
mondatot azzal hogy és esik. Akkor az alábbi mondatok mind helyesek:
„Egész nap csak esik és esik.”
„Egész nap csak esik és esik és esik”
„Egész nap csak esik és esik és esik és esik”
És így tovább a végtelenségig! Nyilván nem élünk végtelen ideig és valamikor abba kell hagyni egy ilyen mondatot, de elvileg (és ez nagyon fontos!) akár meddig folytathatjuk, ahogy a természetes számok sorát (hiszen minden mondathoz hozzárendelhetjük annak hosszát, és ahogy minden természetes egész számnál tudunk eggyel nagyobbat mondani, úgy tudunk egy elemmel hosszabb mondatot generálni). Hogyan lehet így a nyelv egy modelljét megadni? A kulcs a generálási szabályok megtalálása. A lexikon, azaz az építőkövek, nem érdekes ebből a szempontból!
Technikai értelemben valóban nem tudunk olyan korpuszt találni ami modellje lehet a nyelvnek. Azonban nem szabad elfeledkeznünk a lexikon egy érdekes tulajdonságáról. Vannak ugyanis olyan elemei melyek nem változnak nagyon az idővel, azaz zárt osztályt alkotnak. Ezek általában valamilyen grammatikai funkciót töltenek be (gondoljunk a kötőszavakra pl.) és akadnak olyanok melyek sokkal változékonyabbak. Azonban a zárt osztályt alkotó szavak száma nagyon alacsony, legalábbis a többihez képest. Azonban a generatív elméleteket is tesztelni kell valahogy, erre pedig kiválóan alkalmas egy korpusz, azonban a korpuszba vetett hit mértéke Chomsky hívei körében alacsony. Ez alatt nem azt kell érteni hogy vitatják a nyilvánvalót, csupán annyit tesz hogy nem fogadják el hogy ha valami nincs a korpuszban, az nem is létezik.
Ezzel pedig el is jutottunk az egyik kedvenc témámhoz! Lehet-e olyan korpuszt készíteni ami reprezentatív? Reprezentativitáson, ahogy megszoktuk pl a közvélemény-kutatások esetében, azt értjük hogy jó megközelítéssel leírja a minta az egész sokaságot. Vannak akik szerint ahogy egyre jobban fejlődik a technika és egyre több adatot generálunk úgy tkp. elérjük hogy lényegében egy végtelen, állandóan növekvő korpuszunk van ami gyakorlatilag lefedi a teljes sokaságot (l. Norvig et all. The Unreasonable effectiveness of data tanulmányt).
Ha elfogadjuk hogy a nyelv rekurzív és ezáltal minden egyes nyelv lehetséges mondatainak száma megszámlálhatóan végtelen, akkor bele kell törődünk hogy nincs olyan korpusz ami modellje lehetne. Azonban ahogy a fizikusokat sem zavarja hogy nem vizsgálhatnak meg minden egyes apró részecskét, úgy minket sem kell hogy zavarjon hogy véges lények vagyunk és csak véges adatokkal dolgozhatunk. Viszont figyelembe kell vennünk azt a tényt hogy az adatokkal nagyon óvatosan kell bánnunk! Pl. ha a mai beszélt magyar nyelv korpuszát szeretnénk elkészíteni cenzusos alapon (azaz minden beszélőtől vennénk adatot) egy sztenderd irányított beszélgetés keretében amiben pl személyi adatokat kérdezünk, akkor a „Budapest” szó felülreprezentált lenne a korpuszban, hiszen a legnépesebb városban laknak a legtöbben, de kiugrana pl „Debrecen” vagy „Miskolc”, és könnyen megeshetne hogy a szórványmagyarság körében végzett kutakodásunk eredménye egy sor településnevet (vagy foglalkozást) eredményezne ami nagyon alacsony számban fordul elő, ezek jó eséllyel ki is esnének a végleges korpuszból mint hapax legomenák...
Ideális esetben mindenkinek vagy mindennek egyenlő eséllyel kell beleesnie a mintába. Vannak ugye nagyon rövid, meg nagyon hosszú szavak, de a legtöbbjük se nem túl hosszú, se nem túl rövid. Ezt nevezik normál eloszlásnak, és a legtöbb dolog ezt a mintát követi. Vessünk egy példát a grafikonjára
[normal distribution]
s láthatjuk hogy a legtöbb érték az átlag körül csoportosul és a leggyakoribb érték azaz a módusz is itt található, ahogy haladunk a szélek felé, úgy csökken az átlagtól eltérő értékek gyakorisága. Azonban előfordulhat hogy az ugyanazon átlag nagyon eltérő görbét eredményez. Ugyanazon átlag mellett a módusz és a medián (a sorba rendezett értékek közepe) eltérhet jobbra és balra.
[skewed]
Egy kiegyensúlyozott korpusznak figyelembe kell vennie a mintavételezésnél hogy vannak csángó beszélők, nagyváradiak, encsiek és győriek, nekik mind egyenlő eséllyel kell a mintába kerülniük. Ugyanakkor azt is figyelembe kell vennünk hogy a nyelvnek területi változatai is vannak, de ez mind nem elég, mert a társadalmi helyzet, iskolázottság stb mind hat a nyelvhasználatra, érdemes ezekre is tekintettel lenni. És a végén ott a megfigyelő paradoxona, felmerül a kérdés hogy mennyire hat az adatgyűjtő jelenléte a beszélőre (a kedves olvasó eleresztene egy „bazd meg”-et ilyen helyzetben? És otthon vagy baráti körben kicsúszik egy-egy káromkodás a szádon?). Szinte biztos hogy valamerre kitér a mintánk, de nem tudjuk merre!
Mégis akkor mire jó ez az egész?
Nem kell elfordulnunk a korpusznyelvészettől, csak tisztába kell lenni azzal hogy nem tudjuk egyetlen korpusszal lefedni a nyelvet és el kell fogadnunk hogy nem a nyelv egy modelljét rejti egy korpusz, hanem egy forrást amivel tesztelhetjük elméleteinket. Ebben az értelemben a korpusznyelvészet nem a nyelvtudomány egyik ága, hanem a lehetséges kutatásmódszertanok egyike.