A közösségi tagelés nyelvész szemmel

Manapság a neten egyre többször találkozhatunk különféle oldalakkal ahol arra kérnek minket (vagy jobb esetben csak lehetőségként ajánlják fel) hogy tageljünk. A legegyszerűbb esete ennek egy blog (mint pl ez), ahol a meta-adatok segítenek képet adni arról miről is szól az adott poszt, a “related posts” szkript is ezek alapján találja meg a kapcsolódó írásokat. Ebből rögtön kitűnik hogy a tagelés remek információkezelő eszköz, de mennyire jó és milyen körben használható, mit kezdhetünk vele?

Mi is az a tagelés?

A tag trükkös szó, hiszen egyszerre lehet ige és főnév is, jelentései között megtaláljuk a “cipőhúzó fület”, az “elálló csúcsot”, az “elcsépelt mondást” éppúgy mint az elsődleges asszociációnkat a“cédulát” és a “címkét” is. Mint ige jelentheti hogy “megfog (fogócskában)”, de akár azt is hogy “nyomon követ” a számunkra elsődleges “címkéz” és “felcímkéz” mellett (a SZTAKI még több jelentést is megad). De bevallom nekem először erről a szóról a graffitisek egyik mellékműfaja jut a mai napig eszembe, amikor is a lánglelkű fiatal igyekszik otthagyni kézjegyét (tag) a város minden pontján (tagelés).

Ehhez hasonló tageket minden városban láthatunk...

Címkézni nagyon szeretünk – akár átvitt értelemben is – vagy legalábbis rákényszerülünk. A ragadós papírcetlik sokunk számára elengedhetetlen hétköznapi információszervező eszközök. A munkaszervezés (legyen akár egy többszereplős projekt, vagy egyéni) részét is képezik ezek a kis emlékeztetők és feljegyzések.

Címkék a munkaszervezésben

Ezek lényege hogy egy-egy tag személyes információt hordoz, sajátos szempontok alapján értelmezzük ezeket, hiszen a “fontos” kategóriába tartozhat befejezni a mai kitűzött feladatot, elmenni a boltba kenyérért és munka után találkozni egy kávéra rég látott barátunkkal.

Folksonomy, folk psychology és további buzzwordök

Amikor saját életünket szervezzük, a tagek lehetnek rövidítések, akár saját kis idiolektusunkat is használhatjuk, amikor egy csoport használ ilyen eszközöket, akkor azonban már egyre kevesebb tere van az egyéni jelölésmódnak, de persze kialakulhatnak a csoportra jellemző sajátos rövidítések, szavak.

Ez egyáltalán nem meglepő, hiszen már a dolog hogy szavunk van arra hogy idiolektus is azt mutatja hogy nyelvhasználatunkban mind egyediek vagyunk, a különböző egyedek összetalálkozása óhatatlanul alakítja ki a csoportra jellemző nyelvhasználatot. Ebben nincs semmi különös, a nyelvi változás és a csoportdinamika hatása a nyelvre mind alátámasztja ezt, sőt kiemeli hasznosságát, mivel a csoport egyben meg is erősíti magát a sajátos nyelv kialakításával és egyben megkönnyíti az együttműködést.

Az ilyen csoportos tagelés tehát erősen befolyásolt a csoporton belül kialakult normáktól és természetesen a csoport céljától is. A tagelés nem más mint a csoport igényei szerinti klasszifikáció. Ez bizonyos esetekben egybeeshet a tudományos besorolásokkal és terminusokkal, más esetekben viszont gyakorlati okok miatt el is térhet ettől.

A kognitívtudomány művelő “folk psychology” azaz népi pszichológia terminussal illetik naív klasszifikációs mechanizmusainkat. Ezeket egyrészt az emberi tapasztalat, másrészt a kultúra határozza meg. Ma már gyakran megmosolyogjuk ennek eredményeit, pl. hogy a bálnát sokáig halnak gondolták, a denevéreket madárnak hitték stb. Attól hogy a tudomány sok esetben megcáfolta ezeket az elméleteket még nem jelenti azt hogy nem bizonyultak hasznosnak (hiszen fajunk túlélt és én tudok erről írni, az olvasó pedig olvasni). Bármennyire is előrehalad a tudomány, naív elméleteinket nem tudja kiirtani. Don Norman The Design of Everyday Things című könyvében remek példákkal illusztrálja hogy a mindennapokban egyszerű, naiv elméleteket alkotunk arról hogyan működnek a körülöttünk lévő dolgok. A tudomány segítségével eljutottunk a holdra, de akad egy olyan ember aki el tudja mondani hogyan működik az űrrakéta minden egyes része? Vagy kérdezzünk könnyebbet, akad olyan ember aki a televíziónk összes darabjának működési elvét érti? Fizikussal szereltetjük meg a készüléket amikor elromlik, vagy technikussal? A technikusnak általában remek általános tudása van az elektronikáról, de a gyakorlatban a gyári leírás alapján diagnosztizálja a hibát és minnél gyakoroltabb annál jobban használja “ösztöneit” is. A jó tévészerelő nyilván jól ismeri szakmája alapjait, de sokszor látott már rossz készüléket és “érzi” hogy ha “úgy” vibrál a kép akkor X alkatrész rossz, de ha “amúgy” akkor Y. Ez is egyfajta naiv elmélet, mi nem szakik is valami ilyesmit alakítunk ki a körülöttünk lévő tárgyakról (és gyakran élőlényekről és emberekről).

Az információtervezés (information architecture) egyik forrása a könyvtártudomány. A könyvtári osztályozás mesterei sokszor nem is értik miért nem találunk meg egy-egy könyvet, leggyakrabban akkor amikor nem egy konkrét szerző műveire vagy egy adott könyvre keresünk, hanem szeretnénk “felfedezni” egy terület szakirodalmát. A Library Thing protál a hagyományos megközelítéssel szakítva fordult a tagelés felé. Az ún. közösségi címkézés lehetővé teszi hogy más szempontok alapján keressünk a könyvek között és “felfedező/böngésző” módban is kutakodhassunk a könyvek között.

A tűz serlegének tagjei

A közösségi címkézés lehetővé teszi hogy egymásnak akár ellentmondó címkék alá is bekerüljön egy kötet. Ahogy a fenti példa mutatja, a Harry Potter és a tűz serlege egyszerre van megcímkézve felnőtt, gyerek, és ifjúsági taggal (children's, young, adult). A naiv klasszifikáció szerint egy dolog több “polcra” is kerülhet, a kategóriák nem zárják ki egymást. A közösségi címkézés – ha a felhasználók száma elér egy kritikus tömeget – megbízhatóan segíti a klasszifikációt és kényelmes, a felhasználók naiv elméleteihez igazodó osztályozást eredményez. Mostanában ezt a folyamatot nevezik “folksonomy”-nak, a folk és a taxonomy szavak összevonásával.

Másodlagos oralitás a globális faluban

McLuhan gondolatai iránt az internet megjelenésével, majd a közösségi média elterjedésével ismét megnövekedett az érdeklődés. Habár a globális falu fogalmát nyilván nem az internetre használta (lévén a Gutenberg Galaxy megjelenésekor még az nem létezett) mi a tömegekkel tartunk és itt abban az értelemben használjuk hogy a modern tömegkommunikáció lehetővé tette hogy a fizikai korlátokon átlépve kapcsolatba kerüljünk bárkivel. Ennek a metaforának talán a Twitter felel meg a legjobban, ahol a hasonló érdeklődési körű emberekből kialakult sok-sok közösség, melyre tényleg tekinthetünk falunként. Vannak hangadók, vannak akik többet csiripelnek, mások inkább csak figyelnek stb.

Maga a kommunikáció nagyrészt írott formában történik, de ám sokkal inkább tekinthető másodlagos oralitásnak, hiszen funkcióját tekintve a gyors kommunikációt szolgálja az internetes kommunikáció. A gyorsaság és az írásbeliség együtt eredményez egy sajátos, ám de tömör nyelvezetet. Megjelennek a sajátos rövidítések és kialakul egy sajátos csoport nyelv, a csoportok szerveződnek és kialakul az igény az információ szervezésére.

Persze gyakran fordított a helyzet és egy meglévő szolgáltatás köré szeretnénk közösséget építeni és a potenciális ügyfeleket megnyerni magunknak. Erre jó példa lehet az Amazon és egyéb e-kereskedelmi szájtok tagelési gyakorlata, vagy a Delicious ötlete hogy könyvjelzőket tagelve könnyítsük meg a keresést. A Pew Research Center adatai alapján az US netezőinek 7%-a volt aktív tagelő 2007-ban és 28%-uk pedig tagelt már. Ez azt mutatja hogy a felhasználókat be lehet vonni ilyen kis erőfeszítést igénylő ám hasznos tevékenységbe. Persze a hét százalék arányaiban nem sok, de ha számszerűsítjük akkor is tízmilliós nagyságrend kerekedik ki csupán az Egyesült Államokban.

A tageléssel könnyen be lehet lépni a másodlagos oralitáson alapuló globális faluba, nem igényel nagy erőfeszítést, mégis értelmes tevékenység amiből az egész közösség – nem mellesleg gyakran az adott oldal tulajdonosai is – gyarapodik.A tagek értékes inforrmációt nyújtanak, nem csak azért mert pl. automatikus ajánlórendszereket készíthetünk segítségükkel, hanem mert a “tömegek bölcsességét” is közvetítik.

A “sötét oldal” - kontrolált szótárak

Az információ tervezés egyik kedvelt eszköze hogy ún kontrollált szótárak alkalmazásával segíti a tájékozódást a virtuális térben. Legyen szó egy egyszerű menüről, vagy facettás keresésről, gyakran nyúlnak ehhez az eszközhöz.

Azonban nem biztos hogy a felhasználók szeretnék hogy beleszóljanak milyen címkéket használhatnak. Persze lehet vezetni, de ilyenkor egy előzetes taxonómia alapján kell kategóriákat megadnunk, ezeken kell végigvergődnie magát szegény felhasználónak és ha a tagelés egyik nagy előnyét ti. Hogy egy tárgyhoz több tag is kapcsolódhat meg akarjuk őrizni többször is végig kell mennünk ezen a felületen...

Nyelvészet és interakciódizájn

Nem jó dolog kontrollálni a felhasználókat amikor tagelnek de szembesülnünk kell azzal hogy sokan egyszerűen fittyet hánynak a közösségi tagelésre és maguknak címkéznek. A legjobb példa erre a Delicious, nekem is van “olvasni” és “majd” tagem a fiókomban, ami nekem értelmes, hiszen gyűjtöm amit el kell olvasnom feltétlenül és amiket egyszer ha akad időm el fogok olvasni, de ez értelmes másoknak?

A LibraryThing nem engedélyezi a “csúnya szavakat” - amúgy szerintem nagyon helyesen. Ellenben semmi baja azzal ha valamit nem helyesen írnak be. “Guttenberg” és “Gutenberg” egyaránt helyes tag, és még az sem jelöli semmi hogy a kettő ugyanazt jelenti. Nem is beszélve az elírásokról, vagy amikor elve helytelenül írnak be egy szót.

Kontroll helyett a számítógépes nyelvészet abban segíthet hogy a prediktív szövegbevitelt felhasználva ajánlásokat tegyen a bevitelre és egyben meg is gyorsítsa a felhasználó dolgát. A Deliciousból ismert ajánlások rendszere is jó módszer, a gyakran használt, vagy gyakran együtt használt tagek felajánlása nem annyira zavaró mint a szigorú kontroll.

A Delicious egyszerre ajánl tageket ajánlórendszere és a népszerű címkék alapján

Azonban a tagelést tekinthetjük úgy hogy szemantikával dúsítjuk fel a megtaggelt adatot. Gene Smith Tagging című könyvében olvashatunk egy interjút Timo Hannay-al a Nature Publishing Group igazgatójával a tudományos cikkek és adatok tagelésének problémájáról. Habár itt is jó ha teret adunk a tömegek bölcssségének, szembesülnünk kell bizonyos problémákkal. Mi van akkor ha valaminek két neve van? Ha valaki “machine learning” néven tagelt meg valamit az joggal megtagelhető “statistical learning” névvel is, vagy amit a számítástudomány művelői szeretnek “natural language processing” néven emlegetni, azt a nyelvészek jobban szeretik “computational linguistics”-nek hívni. De vannak problémásabb dolgok, hiszen a “dynamic programming” mást jelent egy programozó és mást egy operációkutató számára, megint mást a matematikusnak...

A szinonimák felismerése és a tagek közötti viszonyok feltárása szerintem a következő lépés ezen a területen. Ez adhat további teret a böngészés alapú felfedezéshez, új összefüggések meglátásához. Jó dolog egy közösséghez tartozni, szintén jó dolog a perszonalizáció de ez egyben veszélyes is mert bezár a saját kis világunkba. (Hasonló problémákkal szembesültek az információ áradattal küzdő hírgyűjtők/szűrők készítői is. Erről érdemes ezt a posztot elolvasni.)

A szemantikus web és a linkelt adatok segíthetnek kitörni ebből. A linkelt adatok tkp olyan adatok melyek tartalmazzák saját szemantikájukat, azaz az értelmezésükhöz szükséges információt és a többi adathoz való viszonyukat. A megtagelt adatelem és annak meta-adatai (azaz tagjei) összekapcsolhatók linkelt adatokkal, ezek pedig segíthetnek más adatok megkeresésében. A megtalált kapcsolatok ellenőrzése lehet további tagek felajánlása, vagy a kapcsolatok erősségének közösségi ellenőrzése.

NLP Meetup - Számítógépes Nyelvészet

2011. augusztus 30.

A közösségi tagelés nyelvész szemmel

Nincsenek megjegyzések: