Látni a szöveget

A szöveges adatok vizualizációjáról már többször volt szó itt a blogon is (itt és itt). Kétségtelen, gyönyörű képeket lehet generálni, ám mindig felmerül a kérdés, mire jó a dolog… Zoli szerint például arra, hogy ha kellően nagy adathalmazon végzünk elemzést, akkor gyakran sokkal többet mond nekünk egy ilyen kép mint maga a leíró statisztika, jobban érthető egy történet képpel illusztrálva, mint a száraz számokkal. A legtöbb megoldás (szó-felhő, szó-fa, szavak elosztása tengelyek körül) valóban csak arra szolgál, hogy segítse az emberi elemzőt, a gépek remekül megvannak képek nélkül, nekik minél szárazabb az adathalmaz, annál jobb. Látni az adatokat azért lehet hasznos, mert “kiugranak” az olyan tulajdonságok, melyekre egyébként nem figyelnénk fel; és ha már egyszer kiugrottak, lehet rájuk olyan szabályt írni, amely segítségével a gépnek is el tudjuk magyarázni. Ha nem tudjuk, hol kezdjünk hozzá egy feladathoz, érdemes lehet minél több mindent lerajzolni, előbb-utóbb biztosan észreveszünk valamit. Valami ilyesmire van kitalálva például a Many Eyes rendszer is.

Van meg egy igazán érdekes példája a szöveg vizualizációjának. Stefanie Posavec ( http://www.itsbeenreal.co.uk/index.php?/about-me/ ) úgy döntött, hogy tényleg látni akarja a szöveget (egészen pontosan Jack Kerouac Úton c. regényét). Az elképzelés alapja, hogy a szöveg nyelvi/szemantikai tulajdonságai alapján rajzolja meg a képet, de az esztétikumra is akkora hangsúly került, hogy virágokhoz hasonló, gyönyörű ábrák születtek. Adat-vezérelt művészet, ahol az adatok egy műalkotás feldolgozásából születnek. Ha belegondolunk, nincs ebben semmi új, tulajdonképpen ez az illusztráció klasszikus példája. Stefanie Posavec mondathosszokat és tematikus csomópontokat számol, ezeket szervezi fa-diagrammba. Az ábrák kézzel készültek (ez nyilván valamilyen számítógépes programot jelent).

Érdekes lenne automatizálni a folyamatot, talán néhány hasznos adatot sikerülne így kiugrasztani bármilyen más szövegből is. Egy előző posztban már volt szó a mondathosszokról, mint szerzőkre jellemző tulajdonságról; az is világos, hogy a mondathossz nagyban függ a mintavétel helyétől és módjától.

Az első kísérletben az Édes Anna szövegében az átlagos mondathosszokat vizsgáltam a szöveg különböző helyein, eltérő mintahosszúsággal. A grafikonokon látszik, hogy az átlagos mondathosszúság erősen ingadozik attól függően, honnan veszünk mintát. Az is világos, hogy minél nagyobb a minta, annál inkább egy átlag felé fog húzni a végeredmény, így a nagyobb mintaméret (például a kék vagy a piros vonal) kisebb szórást eredményez. A második grafikonon, a várakozásnak megfelelően, a mintaméret csökkenésével együtt a szórás nő. Az igazán érdekes kérdés, hogy hol van az a pont, ahol a minták kellőképpen kicsik ahhoz, hogy az átlagolás ne mossa el az egyediségüket, és kellőképpen nagyok ahhoz, hogy ne csak a véletlen szórást lássuk az ábrákon, de valamilyen értelmes szabályszerűséget is. Úgy tűnik, a mondathosszak esetében ez 1000-2000 szavas minta körül van (a zöld és a sárga sávok). Látható, hogy az ennél kisebb minták nem mutatnak túl sok szabályosságot.

Hasonló dolgokat figyelhetünk meg, ha összeszámoljuk a regényben található összes punktuációs jelet (pont, vessző, kötőjel, stb. – ezek az adatok vissza vannak vetítve a teljes szövegméretre, hogy kényelmes legyen ábrázolni), illetve a szövegben található párbeszédek számára is (itt egyszerűen összeszámoltam az olyan bekezdéseket, amelyek gondolatjellel kezdődnek – ezek az adatok is vissza vannak vetítve a teljes mintára).

Úgy tűnik, a 2000 szavas nagyságrend már alkalmas arra, hogy bizonyos szabályszerűségeket észleljünk. E körüli határt javasolnak több helyen is, mint minimális mintát sztilometriai vizsgálatokhoz – ez 3-4 gépelt oldal, egy középhosszú újságcikk, egy novella fele/harmada, ennek a blogbejegyzésnek a háromszorosa... Természetesen ahhoz, hogy egy szöveget valóban helyesen jellemezhessünk, jobban át kell gondolni a nyelvi adatok és a statisztika kapcsolatát – vajon kilógó és az extrém kilógó elemek (melyeket a kis-mintájú grafikonon látunk) rontják-e az adatainkat, vagy épp ellenkezőleg, értékesek a szöveg egyediségének jellemzése szempontjából? És mire lehetnek jók ezek a mérések? A mondathossz egy olyan ismérv, amit másokkal kombinálva használhatunk szerző/műfaj azonosításhoz; a párbeszédek arányát és punktuáció megoszlását használhatjuk például műfaj- vagy érzelem-elemzéshez is...

NLP Meetup - Számítógépes Nyelvészet

2011. május 1.

Látni a szöveget

Nincsenek megjegyzések: