NLP Meetup - Számítógépes Nyelvészet: Írástudók hajnala: innováció a médiában II.

Sorozatunk első részében megpróbáltuk felhívni a figyelmet arra hogy az újmédia területén alapvető változások történnek és olyan, eddig magától érthetőnek vett dolgokat kell átgondolnunk mint a szótár. Láttuk hogy a Wordnik a média legegyszerűbb építőköveiről a szavakról próbál meg minden lehetséges információt összegyűjteni és elérhetővé tenni (érdemes ezzel kapcsolatban a Wordnik kutatási igazgatójával, Jeremy Kahn-nal készített interjúnkat is elolvasni). A digitális platform nem csak azt tette lehetővé hogy az információ konvertálható legyen különböző hordozókra, de egyben azt is hogy az információra mint adatra tekintsünk amiből újabb információ nyerhető ki.

Információ - adat
Mi a különbség az információ és az adat között? Van-e egyáltalán ilyen különbség? Itt és most fogadjuk el hogy információnak azt tekintjük ami valami újat mond, valamilyen módon kontextusba helyez egy adatot vagy adathalmazt. Az adat fogalmát pedig tekintsük egyszerűen egy leírójellegű statisztikának, ilyen pl. a munkanélküliségi ráta. Ez önmagában csupán egy adat, információ akkor válik belőle ha összevetjük más adatokkal, pl iskolázottság, lakhely, kor, nem stb. Vegyük észre hogy az adat-információ viszony nem abszolút, hiszen a lakóhely és a munkanélküliség korrelációja egyrészt információval szolgálhat nekünk (informál minket arról hogy hol hogyan alakul a munkanélküliség), de adat lehet egy következő összevetésben is (pl. az egyes területek munkanélküliségi rátája hogyan viszonyul az adott terület gazdasági fejlettségéhez).

Ha ezt vesszük alapul, akkor beláthatjuk hogy az elektronikus médiában az elemző cikkek nem csak információt jelenthetnek, hanem tekinthetünk rájuk adatként is. A New York Times fejlesztőközpontjában is úgy gondolják hogy nem csak a publikus statisztikák szolgálhatnak alapul egy elemzéshez, hanem az újság archívuma is. A Guardian Open Platform kezdeményezése sem csupán abban segít hogy a különböző adatforrásokhoz egy helyen, kényelmesen férhessünk hozzá, hanem a lapot magát is adatforrásként kínálja fel.

Rakjunk rendet az adatok között!
Habár Bernens-Lee népszerű TED elődadásában arra buzdít mindenkit hogy követeljük a nyers adatok azonnali publikussá tételét, nem árt tudni hogy nem olyan könnyű ún. struktúrálatlan adatokkal dolgozni. A Wordnik SmartWords kezdeményezése pl. a "nyers" szöveges információ elemet kapcsolja össze saját szótárával, ami lehetővé tesz hogy egyszerű kapcsolatokat keressünk a szavak között, vagy éppen lekérdezhetővé tegyük az egyes szavak definícióit, de automatikusan generálhatunk egy szójegyzéket is. Ez a kezdeményezés vállaltan "könnyűsúlyú", nem akar tovább menni a lexikográfiai elemzésnél.

Az AlchemyAPI viszont igaz "nehézsúlyú" elemzést tesz lehetővé, mivel szemantikai információval dúsítja fel adatainkat. A szöveges információt (persze angol nyelvűt) az Alchemy segítségével széles körben elemezhetjük, kezdve az egyszerű pos taggingtől, a kulcsszó kivonatoláson át az entitás kinyerésig. Habár a rendszer nem tökéletes, megbízhatóan működik és alkalmas arra hogy egy vagy több dokumentumon belül is bonyolultabb relációkat fedezhessünk fel (saját próbálkozásunk ennek bemutatására Szöveges információk vizualizációja Gephi és az AlchemyAPI segítségével című posztunk).

Szemantikus web?
Miért van minderre szükség? A szemantikus web még várat magára. Persze egyrészt már itt van és egyre több információt közölnek szemantikus formában, azonban gyakorlati szempontból a legtöbb szöveges információt nem éri meg ilyen metaadatokkal ellátni. Talán nem is szükséges mindenre kiterjeszteni ezt az ideát, ennek egyik gyakorlati jele az ún. mikroformátumok megjelenése mely a "kritikus" területekre koncentrál, és a meglévő eszközökbe beágyazva a minimálisan szükséges szemantikus információt nyújtja, a "bővebb" elemzést pedig a fent bemutatott eszközökkel elvégezhetjük amikor szükséges.

NLP Meetup - Számítógépes Nyelvészet

2011. február 13.

Írástudók hajnala: innováció a médiában II. - Az adatok kora

Nincsenek megjegyzések: