2012. április 9.

Könyvismertető: Introduction to Information Retrieval

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.


Hol lehet "bevezető szintű", általános kérdésekkel foglalkozó, széles spektrumot átölelő könyveket találni? Hát persze, az egyetemi könyvtárakban! Manning, Raghavan és Schütze könyve egy stanfordi egyetemi kurzus anyagára épül, és betekintést nyújt az információ-kinyerés elméletébe és alkalmazott technikáiba.




Mint a bevezetőben írják a szerzők, a célközönség alapvetően az egyetemi, egészen pontosan mester-szintű computer-science hallgatók, azonban megjegyzik, hogy a kurzusaikat biológusok és nyelvészek is látogatták. Ez nem is csoda, hiszen az információ-kinyerés erősen matematika-orientált terület, a fő célja mégis az, hogy strukturálatlan adat-halmazokból emberi vagy gépi feldolgozásra alkalmas adatokat nyerjünk. Az olvasás során gyorsan kiderül, hogy strukturálatlan adat-halmaz alatt a könyv szinte mindig dokumentum-halmazokat ért, tehát nagy mennyiségű szöveges adatot, bár megjegyzik, hogy az alkalmazott technikák máshol is hasonlók (pl. a biológiai kutatásokban).

A "bevezető szint" megtévesztő, ugyanis a könyv egyetemi szintű matematikai ismereteket (elsősorban mátrix-algebrát) feltételez, illetve némi programozási tapasztalatot is igényel. Egészen pontosan arról van szó, a problémák megoldását párhuzamosan mutatják be a szerzők szöveges és matematikai leírással (némi pszeudo-kóddal fűszerezve). A problémák leírása magában is érthető, helyenként már-már olvasmányos, de a konkrét, implementálható megoldásokhoz elengedhetetlen a matematikai és algoritmikai példák értelmezése is.

A könyv első része a keresés alapjait mutatja be, szó esik a keresési kifejezések megfogalmazásáról, a dokumentumok hatékony gépi reprezentálsáról, az indexek építéséről és a mindezzel összefüggő számítási problémákról is. A szerzők végig szem előtt tartják, hogy a tárgyalt problémákat géppel kell megoldani, így a gépidő és a memória folyamatosan jelen lévő fogalom. Szóba kerülnek az n-gram modellek és a természetes nyelvvel összefüggő problémák is. A következő nagy problémahalmaz a keresési találatok rangsorolása, itt alapvető a vektortér-modell fogalmának bemutatása.

A mű második fele elmozdul a kereséstől a gépi dokumentum-feldolgozás felé. Bemutatja a különböző dokumentum-klasszifikátorokat (Bayes-klasszifikátor, vektortér-klasszifikátor), és előkerül a felügyelet-nélküli gépi tanulás (unsupervised machine learning) problémaköre is.

Az írás egyik legérdekesebb része a webes kereséssel foglalkozik. Itt bemutatják a szerzők a crawler robotok működését és két webes rangsorolási technihát: a Pagerank-et és a HITS-et. Ez a rész deklaráltan egy felületes elméleti áttekintés, célja, hogy bemutassa a webes és a kisebb skálájú keresések közötti eltéréseket.

A könyv tehát elsősorban azoknak ajánlható, akik szeretnének komolyabban megismerkedni a gépi dokumentumfeldolgozás elméleti alapjaival (gyakorlati bevezetőnek itt erősen ajánljató az NLTK-ról szóló könyv). A fejezetek helyenként egymásra épülnek, ám minden esetben pontosan visszautalnak a szükséges fejezetre, így akár részletekben is olvasható, amennyiben az olvasót csak egy konkrét technika érdekel.




Nincsenek megjegyzések: