A következő címkéjű bejegyzések mutatása: data science. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: data science. Összes bejegyzés megjelenítése

2013. április 17.

Brenda Lelke

Tudományfilozófusok és -szociológusok figyeltek fel arra a jelenségre, hogy egyes tudományágakat folyamatosan átneveznek, ez a rebranding. Egy mai példa

When physicists do mathematics, they don’t say they’re doing “number science”. They’re doing math.

If you’re analyzing data, you’re doing statistics. You can call it data science or informatics or analytics or whatever, but it’s still statistics.

If you say that one kind of data analysis is statistics and another kind is not, you’re not allowing innovation. We need to define the field broadly.

Hasonló dolgok játszódnak le más területeken is. A "computational linguistics" terminust egyre inkább felváltja a "natural language processing", a kognitív pszichológia és a kognitív tudomány egyes területei ma már "decision science" és "behavioral economics" néven futnak. A mesterséges intelligencia és a kognitív tudomány először "intelligent systems" névre váltott, ma már "machine learning" címszó alatt fut.

 

Hogy ez jó-e vagy rossz, nehéz eldönteni. Aki ismeri ezen tudományok történetét, az tudja, hogy az ötvenes és hatvanas években nagyon nagy reményekkel indultak, melyeket nem sikerült beváltaniuk. A nyolcvanas években ismét felfutottak, amit megint egy kiábrándulás követett. A kilencvenes években teret nyert a statisztikai/bayesiánus fordult, ami a kétezres évek óta töretlenül tart. Most fordult elő először, hogy alkalmazott szeszögből is bevethetővé váltak ezek a laikusok számára nagyon ezoterikusnak tűnő elméletek. A rebranding célja szerintem egyértelműen az, hogy bevezesse ezen tudományokat a köztudatba, s így nincs ezzel semmi baj. Sokkal nagyobb probléma, hogy a legtöbb embernek fogalma sincs arról, hogy az alkalmazott területek mögött milyen elméleti tudományok állnak.

2013. március 21.

Funkcionális programozás és big data

Paco Nathan (Concurrent data science director) egy olyan slide-ot csinált, ami önmagában is érthetővé teszi, miért nyer egyre nagyobb teret a funkcionális programozás big data körökben.

 

2012. szeptember 26.

Vigyázzunk a big datával

Mostanában big data van mindenol. Most fejeztem be a How Data Science is Transforming Health Care c. rövid (és ingyenes!) könyvet. Arra gondoltam hogy jó lehet technokratának lenni, de ne zárjuk be a bölcsészkarokat, sőt próbáljunk azért pár társadalomtudóst is kinevelni a meglévők pótlására mert nélkülük nagy bajban leszünk. Hogy miért? Attól hogy egyre több adat áll rendelkezésünkre hála az open government data mozgalomnak, egyre nagyobb teret nyerhet az ún. evidence-based policy-making irányzat. Ahogyan arról már megemléketünk a blogon, a pénzügyi szférában egyszer már lejátszódott valami hasonló őrület, és Félix Salmon díjnyertes cikke és  a már szinén ajánlott Quants című film is jól bemutatja (nem beszélve az elhúzódó válságról amit mind nyögünk) hogy akármilyen robusztus, szofisztikált és egyéb trendi jelzővel ellátott modellünk is van, az bizony tévedhet. Scott E. Page Model Thinking kurzusa zseniálisan mutatja be a ma alkalmazott modelleket, az alábbi videó első részében szépen sorba veszi az evidence-based irányzat elleni érveket, ill. beszól a big data modell ellenességének is. 

2010. szeptember 14.

Az adatok megmagyarázhatatlan természete

"For those who were hoping that a small number of general rules could explain language, it is worth noting that language is inherently complex, with hundreds of thousands of vocabulary words and a vast variety of grammatical constructions. Every day, new words are coined and old usages are modified. This suggests that we can’t reduce what we want to say to the free combination of a few abstract primitives." Halevy, Norvig, Pereira: The unreasonable Effectiveness of Data

Előző posztjaimban az adatok tudományával foglalkoztam és a visszajelzések alapján sokak érdeklődését felkeltettem. Mielőtt azonban a szögre akasztanánk megszokott eszköztárunkat, egy kicsit gondolkozzunk el az adatok természetéről.

2010. szeptember 10.

A New York Times és a Guardian API-k használata

Ahogy az előző posztokban említettem sokan reménykednek abban hogy a neten összegyűlt hatalmas adat mennyiség betekintést nyújthat abba hogyan is működik a nyelv. Habár sokat segíthet ha rengeteg adattal rendelkezünk, ennek vannak határai - ahogy erre pl Kilgariff is rámutatott. Nem is beszélve a technikai és jogi korlátokról.

2010. szeptember 4.

Az adatok tudománya és a nyelvtudomány - olvasnivaló

Sokan kérdezték az előző poszt kapcsán hogy hogyan is indulhatnak el "data science" ügyben. Itt egy kis összefoglaló következik, mit érdemes olvasni, merre érdemes keresgetni, és egy kicsit ajánlani fogom korábbi posztjaimat is. Tehát most sorra vesszük hogy egy nyelvész mit tehet hogy 1) betekintést nyerhessen az adatok tudományába 2) eszköztárába illeszthesse a nyelvi adatok elemzésére alkalmas módszereket.