Christopher D.
Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to
Information Retrieval, Cambridge University Press. 2008.
Hol lehet "bevezető szintű",
általános kérdésekkel foglalkozó, széles spektrumot átölelő
könyveket találni? Hát persze, az egyetemi könyvtárakban!
Manning, Raghavan és Schütze könyve egy stanfordi egyetemi kurzus
anyagára épül, és betekintést nyújt az információ-kinyerés
elméletébe és alkalmazott technikáiba.
Mint a bevezetőben írják a szerzők,
a célközönség alapvetően az egyetemi, egészen pontosan
mester-szintű computer-science hallgatók, azonban megjegyzik, hogy
a kurzusaikat biológusok és nyelvészek is látogatták. Ez nem is
csoda, hiszen az információ-kinyerés erősen matematika-orientált
terület, a fő célja mégis az, hogy strukturálatlan
adat-halmazokból emberi vagy gépi feldolgozásra alkalmas adatokat
nyerjünk. Az olvasás során gyorsan kiderül, hogy strukturálatlan
adat-halmaz alatt a könyv szinte mindig dokumentum-halmazokat ért,
tehát nagy mennyiségű szöveges adatot, bár megjegyzik, hogy az
alkalmazott technikák máshol is hasonlók (pl. a biológiai
kutatásokban).
A "bevezető szint"
megtévesztő, ugyanis a könyv egyetemi szintű matematikai
ismereteket (elsősorban mátrix-algebrát) feltételez, illetve némi
programozási tapasztalatot is igényel. Egészen pontosan arról van
szó, a problémák megoldását párhuzamosan mutatják be a szerzők
szöveges és matematikai leírással (némi pszeudo-kóddal
fűszerezve). A problémák leírása magában is érthető,
helyenként már-már olvasmányos, de a konkrét, implementálható
megoldásokhoz elengedhetetlen a matematikai és algoritmikai példák
értelmezése is.
A könyv első része a keresés
alapjait mutatja be, szó esik a keresési kifejezések
megfogalmazásáról, a dokumentumok hatékony gépi
reprezentálsáról, az indexek építéséről és a mindezzel
összefüggő számítási problémákról is. A szerzők végig szem
előtt tartják, hogy a tárgyalt problémákat géppel kell
megoldani, így a gépidő és a memória folyamatosan jelen lévő
fogalom. Szóba kerülnek az n-gram modellek és a természetes
nyelvvel összefüggő problémák is. A következő nagy
problémahalmaz a keresési találatok rangsorolása, itt alapvető a
vektortér-modell fogalmának bemutatása.
A mű második fele elmozdul a
kereséstől a gépi dokumentum-feldolgozás felé. Bemutatja a
különböző dokumentum-klasszifikátorokat (Bayes-klasszifikátor,
vektortér-klasszifikátor), és
előkerül a felügyelet-nélküli gépi tanulás (unsupervised
machine learning) problémaköre is.
Az írás egyik
legérdekesebb része a webes kereséssel foglalkozik. Itt bemutatják
a szerzők a crawler robotok működését és két webes
rangsorolási technihát: a Pagerank-et és a HITS-et. Ez a rész
deklaráltan egy felületes elméleti áttekintés, célja, hogy
bemutassa a webes és a kisebb skálájú keresések közötti
eltéréseket.
A könyv tehát elsősorban azoknak
ajánlható, akik szeretnének komolyabban megismerkedni a gépi
dokumentumfeldolgozás elméleti alapjaival (gyakorlati bevezetőnek
itt erősen ajánljató az NLTK-ról szóló könyv). A fejezetek
helyenként egymásra épülnek, ám minden esetben pontosan
visszautalnak a szükséges fejezetre, így akár részletekben is
olvasható, amennyiben az olvasót csak egy konkrét technika
érdekel.
Nincsenek megjegyzések:
Megjegyzés küldése