Sokan kérdezték az előző poszt kapcsán hogy hogyan is indulhatnak el "data science" ügyben. Itt egy kis összefoglaló következik, mit érdemes olvasni, merre érdemes keresgetni, és egy kicsit ajánlani fogom korábbi posztjaimat is. Tehát most sorra vesszük hogy egy nyelvész mit tehet hogy 1) betekintést nyerhessen az adatok tudományába 2) eszköztárába illeszthesse a nyelvi adatok elemzésére alkalmas módszereket.
Az alapok
A matekundort el kell felejteni! Az adatok tudományának részét képezi az alkalmazott statisztika, ezért biztos matematikai alapokkal kell rendelkeznie annak aki a területre merészkedik. Mivel a nyelvészek általában diszkrét matematikával ismerkednek, egy abszolút kezdőnek érdemes először alaposan átvenni az alapokat, amiben remélem segítenek korábbi posztjaim.
Nem árt ha megtanulsz programozni:
Egy kis vizualizációt is magadra kell szedned, például a Processing segítségével, amiről itt olvashatsz:
Érdemes megismerkedned a ManyEyes használatával is:
És nem árt a statisztikát összekötni a kódolással és a vizualizációval, szóval az R megkerülhetetlen.
MapReduce
A legelterjedtebb MapReduce implementáció a Hadoop
Ehhez kapcsolódik, szöveggel foglalkozó nyelvészek számára kötelezően:
Vizualizáció
Sajnos nincs sok információ arról miként is prezentálhatjuk a nyelvészeti analízis során szerzett adatokat. Itt csak ajánlok egy könyvet, a Beautiful Visualization kötet sok érdekes tanulmányt tartalmaz (a legrelevánsabba wordle bemutatása számunkra). A Processing mellett érdemes még megismerkedni a Protovis JavaScript framework-kel is.
Sajnos nem tudok ajánlani egy konkrét forrást, magam is lassan szedegettem össze apránként az infót. A következő posztban megpróbálom bemutatni mire jutottam, addig is jó olvasgatást!
Az alapok
A matekundort el kell felejteni! Az adatok tudományának részét képezi az alkalmazott statisztika, ezért biztos matematikai alapokkal kell rendelkeznie annak aki a területre merészkedik. Mivel a nyelvészek általában diszkrét matematikával ismerkednek, egy abszolút kezdőnek érdemes először alaposan átvenni az alapokat, amiben remélem segítenek korábbi posztjaim.
- Logika mindenkinek I. - bevezetés
- Logika mindenkinek II. -automaták, formális nyelvek és kiszámíthatóság
- Logika mindenkinek III. - a természetes nyelvek szemantikája
- Funkcionális programozás nem-programozóknak (könyvek és honlapok)
- Logikai programozás nem programozóknak abszolút kezdő szinttől (prolog)
Nem árt ha megtanulsz programozni:
Egy kis vizualizációt is magadra kell szedned, például a Processing segítségével, amiről itt olvashatsz:
Érdemes megismerkedned a ManyEyes használatával is:
És nem árt a statisztikát összekötni a kódolással és a vizualizációval, szóval az R megkerülhetetlen.
- Szógyakoriság
- Szógyakoriság ismét
- R, de miért is használjam I. és II.
MapReduce
A legelterjedtebb MapReduce implementáció a Hadoop
Ehhez kapcsolódik, szöveggel foglalkozó nyelvészek számára kötelezően:
- Data-Intensive Text Processing with MapReduce (az ingyenes verzió szabadon letölthető!)
Vizualizáció
Sajnos nincs sok információ arról miként is prezentálhatjuk a nyelvészeti analízis során szerzett adatokat. Itt csak ajánlok egy könyvet, a Beautiful Visualization kötet sok érdekes tanulmányt tartalmaz (a legrelevánsabba wordle bemutatása számunkra). A Processing mellett érdemes még megismerkedni a Protovis JavaScript framework-kel is.
Sajnos nem tudok ajánlani egy konkrét forrást, magam is lassan szedegettem össze apránként az infót. A következő posztban megpróbálom bemutatni mire jutottam, addig is jó olvasgatást!
Nincsenek megjegyzések:
Megjegyzés küldése