- Matthew A. Russel: Mining the Social Web
- O'Reilly, 2011
- 360 oldal
A kötet az elemzéshez szükséges eszközök teljes tárházát felvonultatja, a vizualizációtól a számítógépes nyelvészeti eszközökig nagyon sok dologgal ismerkedhet meg az olvasó, azonban ez a sokszínűség egyáltalán nem tolakodó (viszont az előszóban ígért kezdő barátságot szerintem lehetetlenné teszi). A szerző remek érzékkel épp csak annyit mutat meg ezekből ami praktikusan kell, se többet se kevesebbet. Én ezt azért tartom fontosnak mert sokakat nem érdekelnek ezek a technikai részletek, vagy egyszerűen nincs elég idejük bíbelődni velük. Azonban ha valaki tényleg el akar mélyedni a közösségi média elemzésében, nem árt ha jobban utána jár a dolgoknak. A legjobb úgy tekinteni a kötetre mint a nagy sikerű Programming Collective Intelligence és a Programming the Semantic Web testvérére, nem árt továbbá az nltk könyvet (print verzióban Natural Language Processing with Python, ingyenesen hozzáférhető verzióban simán nltk könyv néven fut) és a Cookbook-ot (Python Text Processing with NLTK Cookbook és szerzőjének blogját) hozzácsapni gyűjteményünkhöz ha komolyan foglalkoztat minket a terület. (És nem árt fontolóra venni a MongoDB vagy a CouchDB elsajátítását, ami nem könnyű feladat, viszont ingyenesen hozzáférhető könyvek segítik ezt.)
Ahogy említettük a könyvhöz tartozik egy remek kód tár is amit a github-on érhetünk el (itt). Ez pedig ismét felveti az eszközök bőségét, az egyszerű kezdő bajba lehet a kód megszerzésével (szerencsére simán is letölthető, de mennyivel szebb git-tel, és mennyire jó gyakorlat ha saját munkánkat is verziókövetjük!). Habár a kód nagyon jó, nem minden esetben egyezik a kötetben található példa a repo-ból leszedettel, ami szintén gond lehet kezdőknek. Érdemes megjegyezni hogy a szerző felteszi hogy az olvasó *nix rendszeren dolgozik, és habár Windows-ra vagy OS X-re is lehet telepíteni mindent ami kell az egyes fejezetek végig vételéhez, ehhez nem árt ha kellően jártasak vagyunk oprendszerünk dolgaiban.
A könyv tíz fejezete logikusan épül egymásra. Aki az első bevezető fejezetet végig tudja követni, az hasonló dolgokra számíthat a következőkben. A második fejezetben a microformats nyelvekkel ismerkedhetünk meg, majd a legalapvetőbb és legősibb netes érintkezési formát a e-mailt elemezhetjük a harmadik fejezetben. A negyedik és ötödik fejezetben a Twitter elemzésében mélyedhetünk el (akit ez mélyebben érdekel, az a szerző hamarosan megjelenő 21 Recipes for Mining Twitter füzetét is hasznosnak fogja találni). Személyes kedvencem a hatodik fejezet melyben a LinkedIn hálózatok elemzésébe tekinthetünk be, itt a klaszter technika és a geográfiai elemzés nagyon jól sikerült. A hetedik fejezet a Google Buzz elemzésén keresztül mutatja be legalapvetőbb szövegelemzési technikákat (pl. kollokációk, bigrammok). A nyolcadik fejezetben belecsap a szerző a lecsóba, és a blogok számítógépes nyelvészeti elemzésének vázlatát mutatja be. Habár nagyon jónak tartom, nem biztos hogy egy nltk pipeline építése követhető annak aki nem játszot legalább egy keveset az nltk-val. Hasonlóan a dokumentumok automatikus összefoglalása érdekes és hasznos dolog, viszont talán nem annyira egyértelmű háttértudás nélkül. A kilencedik fejezetben a Facebook adatok elemzésébe tekinthetünk bele, biztos vagyok abban hogy sokak számára ez a legérdekesebb rész, azonban itt sokkal inkább azon van a hangsúly hogy miképp vizualizálhatjuk a társadalmi hálókat. Azonban ha valaki eljutott eddig a fejezetig, akkor már nem lehet gond hogy saját maga elemezze az adatokat. Az utolsó fejezet egy kitekintés a szemantikus web irányában, ha valakit komolyan érdekel a közösségi média elemzése érdemes ezen a területen elmélyedni, amihez jó útmutató a kötet irodalomjegyzéke.
Frissítés
Nem rég fedeztem fel a David Easley és Jon Kleinberg Networks, Crowds, and Markets könyvét amely természetes kiegészítője az ismertetett kötetnek. A publikálás előtti végső vázlat szabadon elérhető a könyv honlapján. Érdemes a szerzők Networks kurzusának leírást is megtekinteni.
1 megjegyzés:
Kösz a posztot!
Megjegyzés küldése