Wordle: a logónk története

Ezúttal bemutatásra kerül a logónk elkészítésének módja. A posztban nem a logó megszületésén lesz a hangsúly, hanem igyekszem rámutatni azokra a jellemző problémákra és akadályokra, amelyek szinte minden alkalommal előkerülnek, amikor az ember egy szógyakorisági táblát kíván saját kezűleg előállítani. Hogy ez esetben nem csak táblát, hanem egy ebből készült grafikát is kapunk eredményül, ez csupán a logó, mint cél eredménye. De természetesen mindenki könnyedén előállíthatja a bemutatott minta, a saját szógyakorisági táblája alapján.

A szógyakoriság táblákról már szóltunk többször a blogon. Főleg az R nyelvet vettük segítségül, amikor ilyen típusú adatokat szerettünk volna kisebb-nagyobb szövegekből kinyerni. Most ettől a gyakorlattól eltekintettem. A művelet elvégezhető az írt módokon, de szerencsére a használt elemzőrendszer önmagában tartalmazza ezt a kiértékelést. Az eszközt magát pedig a Wordle.net webcímen érheti el mindenki.

Többször jelentkezett igény az olvasóktól, hogy nagyon elhanyagoltuk az oldal megjelenését. Ezt a hiányt szerettük volna pótolni. Stílszerű lett volna, ha ezt az oldalon is többször bemutatott Processing-el érjük el. Vagy a processing alapokon nyugvó, a Wordle-el közeli rokonságot mutató WordCram nyílt forráskódú processingre épülő moduljával tesszük meg. De helyette inkább egy mindenki által elérhető és könnyebben felhasználható megoldást választottunk. Gyorsítva a munkát, és bemutatva egy mintát, amely alapján bárki elkészítheti a saját szájízének megfelelő vizualizációkat. Ezért döntöttünk inkább a Wordle mellett a grafika készítése során.

Az oldal használatát könnyedén elsajátíthatjuk egy, az angol vagy egyéb nyelvtanároknak készített flash videóból. Hazánkban és külföldön is ez a legnépszerűbb felhasználási területe. Pedagógiai eszközként a szavak kiemelésére. Segítve a memorizálást, a szótanulást. Nem utolsó szempontként az unalmas szómagolást kívánják az eszközzel megszüntetni, a folyamatot izgalmasabbá tenni.

Amire ügyeljünk a Wordle használata esetén. Ezek nem csak a Wordle-re jellemző pontok, hanem általánosságban előforduló jelenségek:

Kis és a nagybetűket megkülönbözteti. Tehát esetünk a „Számítógépes” és „számítógépes” nem egyezik. Két különböző alaknak számít. Így ha valódi szógyakoriságra vagyunk kíváncsiak, akkor előnyös a vizsgálandó szöveget egységesíteni. Megszüntetni a kis és nagybetűk különbségét. – Kivéve, ha erre a különbségre is kíváncsiak vagyunk.
A Wordle jellemzője, hogy felismeri a vizsgált szöveg nyelvét. Ez egy nagyon hasznos tulajdonság. Ez a logónkban is feltűnő, hiszen nem a névelők vagy a kötőszavak kerültek hangsúlyos pozícióba. Sőt, ezek meg sem jelentek a térképen. Ez nem azt tükrözi, hogy mi úgy tudunk fogalmazni, hogy a szövegek ne tartalmazzanak névelőket, hanem a nyelvfelismerés lényeg itt pont az, hogy az adott nyelvre jellemző biztosan magas többségben (nagyobb számosságban) megjelenő alakokat kiszűrje. – Ez a segítség akkor a legszembetűnőbb, ha például kétnyelvű szöveget akarunk elemezni. A Wordle hátránya, hogy egyszerre csak egy nyelvet tud kiszűrni. (A WordCram használatával ez megoldhatónak látszik.) Ez a fogyatékosság a blog elemzése során is okozott galibát, mert angol és magyar nyelvű posztok egymás mellett olvashatóak. Mivel vagy az angol vagy a magyar leggyakoribb elemeket szűrtük ki, ezért biztosan a kiszűretlen nyelv leggyakoribb elemei domináltak a vizualizációban. Legszembeszökőbb elem például a „the” angol névelő volt, amikor a magyar nyelvet szűrtük csupán. Ez az eredmény amúgy helyes! De ritka esetnek számít, amikor a szógyakorisági táblánkkal azt a tényt szeretnénk ismételetlen bebizonyítani, hogy a névelők és a kötőszavak a legdominánsabbak a szövegben. (Az pedig lehetetlen, hogy a szöveg tartalmára bármilyen következtetést tudjunk levonni a kötőszavakból vagy a névelőkből.)
Végül egy harmadik ajánlás. Mi ezt használtuk a logó készítése során. Mivel a blog kétnyelvű volt, ezért nem élhettünk a Wordle sima használatával. Továbbá, mivel a szógyakoriság készítésének célja nem az volt, hogy jóslatot tehessünk a blogon lévő posztok tartalmával kapcsolatban, hanem kifejezetten logót szerettünk volna készíteni: ezért a bemutatott vizualizáció nem a valóságot mutatja. Nem a valóságos szógyakoriságot. Az eredményeket befolyásoltam. Az egyik legérdekesebb része az volt, hogy tudtam, hogy milyen eredményt akarok kapni. De azt is tudtam, hogy nem akarom, hogy ez a cél a természetesség rovására menjen. A kettő közti egyensúlyt pedig a címekben találtam meg. Amely reprezentatív, mert a cím a legerősebb katafórikus elem, és tükrözi az oldal kétnyelvűségét is, mert az angol címeket szintén tartalmazza a szógyakoriság. A blog twitter és facebook logójaként felhasznált vizualizációnál a posztok címeit használtam tehát fel, hogy megtartsam a természetesség és reprezentativitás látszatát.

NLP Meetup - Számítógépes Nyelvészet

2010. szeptember 29.

Wordle: a logónk története

Nincsenek megjegyzések: