Egyre többen érdeklődnek a az adattudományi (data science) és gépi tanulási módszerek iránt. Az adatbányászat napjainkban nem annyira felkapott téma, ahogy sokan igyekeznek elkerülni a statisztika és számítógépes statisztika (computatuional statistics) kifejezéseket, de megnyugtatunk mindenkit, a sok buzzword tkp. ugyanazt a dolgot fedi. A megnövekedett érdeklődés és a tény hogy életünket egyre jobban átszövik az említett területek eredményei együtt járnak az igénnyel egy egyszerű, gyakorlatorientált bevezetőre. Williams könyve remekül használható akár a programozásban kevésbé jártas, a statisztika alapjait ismerő érdeklődőknek.
- Graham Williams: Data Mining with Rattle and R, The Art of Excavating Data for Knowledge Discovery
- Springer, 2011
- 374 oldal
- információs oldal a kiadó honlapján
Ahogy a matematikához, úgy az adatbányászathoz sem vezet királyi út, viszont egy jó pedagógiai érzékkel rendelkező ember a megfelelő eszközökkel felvértezve csodákra képes. Amit egy könyvvel meg lehet tenni, azt Williams megtette, de nyilván kell egy lelkes, türelmes és eltökélt olvasó is, aki valamennyire jártas a számítógép használatban és a statisztikában. Jó hír hogy aki fél a programozástól, vagy egyszerűen csak nem szeret programozni, az megúszhatja a kódolást hála a Rattle grafikus felhasználói felületnek.
A kötet három részre van felosztva, Explorations, Building Models, Delivering Performance. A negyedik rész tkp. a függelék hasznos információkkal szolgál a használt eszközök telepítéséről és a példa adathalmazokról.
Az első részben, miképp neve is mutatja, megismerkedhetünk azzal hogy mi is az adatbányászat, majd az eszközökkel is találkozhatunk. Ezek után a legalapvetőbb dolgokkal ismerkedhetünk meg, pl. miképp olvashatjuk be eszközeinkkel a különböző adatfájlokat, milyen egyszerű módszerekkel "fedezhetjük fel" az adatokat akár grafikusan is és az adatok kitisztításával is foglalkozik egy-egy fejezet.
A második részben jön az igazi móka, a modell építés. A leíró és prediktív analízis, klaszterelemzés, asszociációs analízis részek kifejezetten jók, a döntés fa (decision trees) és random erdő (random forests) valamint a boosting (nem tudom magyarul hogy mondjuk) fejezetek is jók és szemléletesek, de talán egy kicsit nehezebbek és érződik hogy nehéz beszuszakolni egy ilyen témát a "lehetőleg mindenki értse" kategóriába. És itt érkezünk el a support vector machines részhez, itt bizony kicsit kilóg a lóláb, habár a lényeget mindenki "leveheti" belőle, ettől cirka 12 oldaltól senki se lesz a téma szakértője.
A harmadik rész szólna a komoly, gyakorlati munkáról. Az elő fejezet kifejezetten jó! Nagyon érthetően és olvasmányosan ismerkedhetünk meg az adatbányászati módszerek hatékonyságának (performancia) mérésével. A "deployment" fejezet inkább csak egy útmutató. Keresem a megfelelő magyarítását a kifejezésnek, de szerintem a hadrendbe állítás a legjobb, a lényeg hogy "felfedező munkánkat" valahogy a világ és/vagy az ügyfelek felé konzisztens, újra lefuttattatható formában kell közölni, ehhez itt kapunk egy kis segítséget ami kezdetnek meg is teszi, de én bevallom nem ezért a fejezetért szerettem meg ezt a könyvet.
1 megjegyzés:
Nagyon tetszik nekem az "adattudomány" és a "hadrendbe állítás" kifejezésed is. A Deployment fordításán már én is sokat törtem a fejem, de ez most magasan az első.
Megjegyzés küldése