2011. október 5.

Könyvismertető: Data Mining with Rattle and R

Egyre többen érdeklődnek a az adattudományi (data science) és gépi tanulási módszerek iránt. Az adatbányászat napjainkban nem annyira felkapott téma, ahogy sokan igyekeznek elkerülni a statisztika és számítógépes statisztika (computatuional statistics) kifejezéseket, de megnyugtatunk mindenkit, a sok buzzword tkp. ugyanazt a dolgot fedi. A megnövekedett érdeklődés és a tény hogy életünket egyre jobban átszövik az említett területek eredményei együtt járnak az igénnyel egy egyszerű, gyakorlatorientált bevezetőre. Williams könyve remekül használható akár a programozásban kevésbé jártas, a statisztika alapjait ismerő érdeklődőknek.


Ahogy a matematikához, úgy az adatbányászathoz sem vezet királyi út, viszont egy jó pedagógiai érzékkel rendelkező ember a megfelelő eszközökkel felvértezve csodákra képes. Amit egy könyvvel meg lehet tenni, azt Williams megtette, de nyilván kell egy lelkes, türelmes és eltökélt olvasó is, aki valamennyire jártas a számítógép használatban és a statisztikában. Jó hír hogy aki fél a programozástól, vagy egyszerűen csak nem szeret programozni, az megúszhatja a kódolást hála a Rattle grafikus felhasználói felületnek.

A kötet három részre van felosztva, Explorations, Building Models, Delivering Performance. A negyedik rész tkp. a függelék hasznos információkkal szolgál a használt eszközök telepítéséről és a példa adathalmazokról.

Az első részben, miképp neve is mutatja, megismerkedhetünk azzal hogy mi is az adatbányászat, majd az eszközökkel is találkozhatunk. Ezek után a legalapvetőbb dolgokkal ismerkedhetünk meg, pl. miképp olvashatjuk be eszközeinkkel a különböző adatfájlokat, milyen egyszerű módszerekkel "fedezhetjük fel" az adatokat akár grafikusan is és az adatok kitisztításával is foglalkozik egy-egy fejezet.

A második részben jön az igazi móka, a modell építés. A leíró és prediktív analízis, klaszterelemzés, asszociációs analízis részek kifejezetten jók, a döntés fa (decision trees) és random erdő (random forests) valamint a boosting (nem tudom magyarul hogy mondjuk) fejezetek is jók és szemléletesek, de talán egy kicsit nehezebbek és érződik hogy nehéz beszuszakolni egy ilyen témát a "lehetőleg mindenki értse" kategóriába. És itt érkezünk el a support vector machines részhez, itt bizony kicsit kilóg a lóláb, habár a lényeget mindenki "leveheti" belőle, ettől cirka 12 oldaltól senki se lesz a téma szakértője.

A harmadik rész szólna a komoly, gyakorlati munkáról. Az elő fejezet kifejezetten jó! Nagyon érthetően és olvasmányosan ismerkedhetünk meg az adatbányászati módszerek hatékonyságának (performancia) mérésével. A "deployment" fejezet inkább csak egy útmutató. Keresem a megfelelő magyarítását a kifejezésnek, de szerintem a hadrendbe állítás a legjobb, a lényeg hogy "felfedező munkánkat" valahogy a világ és/vagy az ügyfelek felé konzisztens, újra lefuttattatható formában kell közölni, ehhez itt kapunk egy kis segítséget ami kezdetnek meg is teszi, de én bevallom nem ezért a fejezetért szerettem meg ezt a könyvet.

1 megjegyzés:

Gáspár-Papanek Csaba írta...

Nagyon tetszik nekem az "adattudomány" és a "hadrendbe állítás" kifejezésed is. A Deployment fordításán már én is sokat törtem a fejem, de ez most magasan az első.