Schmitt Pál, Wittgenstein és az infógrafika

Mielőtt azt hinné a kedves olvasó hogy a politikáról lesz szó, szólok hogy nem. A köztársaság elnöke beszédet mondott, a Social Times pedig a Many Eyes használatával készített egy szövegfelhőt, gondolván hogy így megkönnyíti az elemzők dolgát. Nagyon reméljük hogy a megszólítottak nem kezdtek el rögvest dolgozni a szép új eszközzel. Hogy miért? Erről szól ez a poszt. A vizualizáció szép, jó és hasznos, csak tudni kell mire való, mik a korlátai és hogyan értelmezhetjük. Ebben segít nekünk egy kicsit Wittgenstein.

Szeretném leszögezni hogy a Social Times oldalt alapvetően jónak tartom, írásaik informatívak és számomra érdekesek. Lájkoltam is őket, szakterületükhöz nem értek, nem hozzáértésüket szeretném itt kritizálni. Viszont a megjelent írásuk felkeltette figyelmemet, kutakodni kezdtem hát és rájöttem hogy hazánkban is egyre népszerűbb az infógrafika és a vizualizáció. Ennek én nagyon örülök, hiszen egy kép gyakran többet ér ezer szónál, segíthet akár bonyolult összefüggések megértésében. Azonban a vizuális megjelenítés nem lehet öncélú. Az élet sok területén utaljuk magunkat másokra, pl újságot olvasunk hogy képet kapjunk a közállapotokról és döntéseket hozzunk. A GDP alakulását nem szeretjük táblázatban bogarászni, jobb ha ott van egy grafikon a cikkben. A kettő jól kiegészíti egymást (jó példa erre Paulos Stories vs Statistics írása) és habár a statisztikával hazudni is lehet (ez ellen nem árt felvértezni magunkat a How to Lie with Statistics kötettel), a tudományban is egyre nagyobb szerepet kap a vizualizáció. Ennek alapvetően két oka van, a kutatások legyenek az alap vagy alkalmazott területen, egyre inkább interdiszciplinárisak, egy jó vizualizáció megkönnyíti a különböző hátterű emberek közötti kommunikációt, másrészt egyre nagyobb az igény hogy kifelé is megmutassák a kutatók hogy mit csinálnak. Persze nem csak statisztikai adatokat vizualizálunk, hanem szinte bármit. Azonban nem szabad megfeledkezni arról hogy mindezt miért tesszük és hogyan.

Egy kép többet ér ezer szónál. Azonban hogy a képek mit mondanak nekünk, nem egyértelmű. Hívjuk egy kicsit segítségük Wittgensteint (Filozófiai vizsgálódások XI.) hogy jobban megértsük ezt.

Mi van a képen? Nyúl vagy kacsa? Ki ennek látja először, ki amannak. Látjuk-e egyben nyúl-kacsának?

Sok tankönyvben látjuk a fenti ábra valamilyen variánsát. De mit is jelent? Vagy mit jelöl ez az ábra? Egy kockát? Egy dobozt? Egy építőelemet? Egyáltalán nem mindegy! Sőt, ha azt mondom "kocka", akkor mindenki tudja mire gondolok, de milyen kép ugrik be az embereknek. Van akinek egy fa kocka, van akinek egy műanyag építőkocka, van akinek a fenti ábra és még ki tudja hányféle kocka fordul meg az emberek fejében. Ezek mindegyik azonban csak a kocka szó egy bizonyos használati módjának megfelelő tárgyat jelölnek! Hogy miképp értelmezzük a fenti ábrákat, azt meg kell adnunk. Az hogy milyen különbségek számítanak a nyúl-kacsa ábrában amikor nyúlnak ill. kacsának látjuk, az a pszichológia dolga (az érdeklődő olvasónak ajánlom az Information Visualization Perception for Design c. könyvet). Filozófiailag az a lényeges hogy nincs abszolút értelmezése a képnek, azt bizonyos kontextusok teremtik meg.

A kontextus megteremtése létfontosságú ahhoz hogy megértsünk egy képet. A tudományos vizualizációnál ez elve adott. Persze lehet hogy szép a laikusok számára is a DNS spirál vizualizációja, de információt csak annak hordoz aki tudja miről szól. Van akinek nyúl (egy szép kép), van akinek kacsa (megmutatja miképp épül fel a DNS).

A jó elemzés kontextust teremt, egy jó vizualizáció segíti az elemzés megértését (és vica versa). Ha nyelvi adatokat szeretnénk megjeleníteni, akkor tisztába kell lenni az eszköz korlátaival, az eljárás menetével és az eredmény értelmezhetőségének korlátaival. A Social Times próbálkozása üdvözlendő, ám a kontextussal bajok vannak. A vizualizáció nem más mint szógyakoriság. Hogyan készült? A szöveget szimplán bemásolták a Many Eyes rendszerébe, ami maga végezte el a kitisztítást. Éltek-e a töltelék szavak eltávolításával? Nem tudjuk. Normalizálva lett-e a szöveg (megtisztították-e a tipográfiai extra adatoktól, azaz a kis- és nagybetűs írásmód közötti különbség eltüntetése megtörtént-e, az írás jeleket eltüntette-e valaki, morfológiai elemzés volt-e, a szavak szótári alakban szerepelnek-e vagy nyersen stb)?

A tudomány lényege hogy megmutassa azt is amit nem látunk. Vagy éppen felhívja a figyelmet arra hogy az amit látunk nem fedi a valóságot. Mit mutat az ábra nekünk? A fene tudja! Az hogy n előfordulása van egy szónak még semmit nem mond el egy szövegről! Ha rendesen feldolgozzuk a szöveget, akkor az ábra már mond valamit, hiszen egy akár több oldalas gyakorisági táblát is helyettesíthetünk vele! Egy kedves barátom a WordCram segítségével generál szófelhőt egy-egy szövegről minden tartalomelemzés órájára, mivel azt vette észre hogy ez segíti diákjait az anyag feldolgozásában. A gyakoriság mellett az ún sentiment analysis módszere alapján jelezni szokta azt is hogy milyen kontextusban jelennek meg az adott szavak és még más agyament módszerekkel is foglalkozik. Azonban minden szép grafika csak adalék magához a szemináriumhoz! Az órára be kell ülni, az irodalmat fel kell dolgozni, és még mindig eszét kell beadni a félév végén a diákoknak...

NLP Meetup - Számítógépes Nyelvészet

2011. január 11.

Schmitt Pál, Wittgenstein és az infógrafika

Nincsenek megjegyzések: