- Aki bele szeretne csapni a lecsóba, annak a Church nyelvet ajánlom (ami a Scheme család tagja). A Probabilistic Models of Cognition tutorial a mesterséges intelligencia és a kognitív tudomány területéről vett példákon keresztül vezeti be az érdeklődőket a probabilisztikus programozásba.
- Az R nyelv avatott ismerőinek ajánlom John Myles White posztját.
- Haskeller-ek a haskell.org-on mindent megtalálnak az elinduláshoz.
- Erwig és Kollmansberger Functional Pearls-e, a Probabilistic Functional Programming, nagyon ötletes példákon keresztül illusztrája a témát és megvilágítja miért természetes választás egy funkcionális nyelv a probabilisztikus programozásra. Haskellerek előnyben!
2013. március 29.
Probabilisztikus programozás
2013. március 27.
NLP meetup programváltozás
2013. március 26.
Hírek - másképp
Egytlen igazán népszerű "szolgáltatásunk" a Számítógépes nyelvészeten a különböző neveken futó linkajánló "rovatunk" volt. A Computational Linguistics Light célja betölteni ezt az űrt. Minden általam érdekesnek talált angol nyelvű cikket, tanulmányt, honlapot és egyéb forrást ezen a helyen osztok meg a továbbiakban, néha minimálisan kommentelem is ezeket (angolul).
2013. március 25.
Arab tavasz és nlp
I model these meaning contests using Latent Dirichlet Allocation, a Bayesian method for discovering the latent topic structure of text corpora. Using an original dataset of more than 25,000 Egyptian and international news articles in both Arabic and English from November 2010 to March 2011, I build a model of regime-friendly, semi-independent, and independent media content before, during, and after the so-called Arab Spring uprisings in Tunisia, Egypt, Libya, and Bahrain. In the months leading up to the uprisings, while Egyptian state media focused on economic development projects and minimized attention to rising discontent int he region, non-state media offered extensive coverage of investigations of businessmen linked to the regime and fraudulent elections. When events in Tunisia ignited political imaginations in the region, state media consistently downplayed these events relative to their independent counterparts and employed conspiracy, foreign interference, and instability themes in their coverage. However, as the fall of the Mubarak regime drew closer, media coverage converged distinctly toward the language of independent media. I argue that this divergence and subsequent convergence around highly salient issues provides important information to potential collective actors about the ability and likely success of pro- and anti-regime groups to exert influence.
2013. március 22.
Dzsihád és nlp
There is no way to determine the population of Muslim clerics, so randomly sampling clerics for analysis is not a possibility. Instead, I focus the analysis on contemporary Sunni clerics writing in Arabic. In order to compare Jihadi clerics to the those that were most likely to become Jihadi but ultimately did not, I intentionally over-sample two key groups of clerics: (1) Jihad clerics and (2) conservative Salafi clerics who share similar beliefs to Jihadis but reject the ideology of militant Jihad. Practically, this means the analysis is focused on conservative clerics primarily from Saudi Arabia (58 percent) and Egypt (22 percent) who are currently living or lived in the last century. [...] To measure the ideology of these clerics, I collect their books, articles, and fatwas with special emphasis on the latter.
In principle, identifying Jihadi ideology is often as simple as distinguishing between these two texts. However, with 29,430 texts from 91 clerics, close reading of each is infeasible. Instead, I measure cleric ideology by applying supervised learning methods from the statistical machine learning literature (Hastie, Tibshirani and Friedman, 2009) to the documents. Most of the previous work on measuring the ideology of political actors has used roll-call votes to estimate actor ideal points (Poole and Rosenthal, 1985; Martin and Quinn, 2002). This is not possible for Muslim clerics (because they do not vote on a common set of proposals), so instead, I directly scale the texts to estimate cleric support for militant Jihadi ideology. My method uses two sets of training documents, one of which is assumed to be Jihadi and the other of which is assumed to be non-Jihadi. The Jihadi corpus consists of 765 texts of various genres that are available on Jihadi web forums as the “Mujahid’s bookbag” (ﺎﻫﺪĐا ﺣﻘﻴﺒﺔ).13 These documents are specifically selected by Jihadis themselves as sources of spiritual instruction and advice, as well as mixed political and religious commentary.14 By using a set of known Jihadi documents as my training data, I avoid the difficult task of deciding which texts are most authentically “Jihadi”. Instead, I let Jihadis themselves identify the texts that are most representative of Jihadi ideology.
2013. március 21.
Funkcionális programozás és big data
Paco Nathan (Concurrent data science director) egy olyan slide-ot csinált, ami önmagában is érthetővé teszi, miért nyer egyre nagyobb teret a funkcionális programozás big data körökben.
2013. március 19.
Mit mond az internet - NLP meetup március 27-én
Március 27-én tartjuk e havi meetupunkat. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon oldalunkon és jelezze részvételi szándékát.
A program:
Textplore https://www.textplore.org/
Előadásunkban bemutatjuk a Gazdaság- és Vállalkozáskutató Intézet által fejlesztett Textplore szövegelemző szoftver funkcióit és elemzési lehetőségeit, majd egy folyamatban levő kutatás előzetes eredményeit. Ennek során egy magyar és egy angol hírportálon megjelent, korrupcióval kapcsolatos cikkek jellegzetességeit vizsgáljuk. A cikkek szóhasználati sajátosságai segíthetnek feltárni, hogy az online média hogyan viszonyul a korrupcióhoz, mennyire tölti be azt a lehetséges szerepét, hogy a nyilvánosság erejével akadályozza a korrupció terjedését.
Az előadók
Tóth István János Közgazdász-szociológus, az MTA Közgazdaságtudományi Intézetének tudományos főmunkatársa, a Gazdaság- és Vállalkozáskutató Intézet ügyvezető igazgatója, a BCE Korrupciókutató-központjának társigazgatója. Fő érdeklődési területe a rejtett gazdasággal és a korrupcióval kapcsolatos jelenségek vizsgálata és a konjunktúrakutatás, továbbá szívesen foglalkozik a kvantitatív tartalomelemzés módszerével vizsgálható kérdésekkel.
Czibik Ágnes közgazdász, a Gazdaság- és Vállalkozáskutató Intézet elemzője, a Budapesti Corvinus Egyetem Korrupciókutató Központjának munkatársa. Főként munkaerő-piaci kutatásokkal, a GVI által fejlesztett Textplore szövegelemző szoftver fejlesztésének irányításával, valamint a szoftver segítségével elemzések készítésével foglalkozik
Social media monitoring - Replise http://replise.com
Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert.
Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.
2013. március 18.
Egy kép többet ér ezer szónál?
Nem könnyű dolog szöveges információt képpé alakítani. Egyre inkább úgy gondolom, nem is muszáj mindent vizualizálni. Persze értékelem a The Economist próbálkozását, ami a palagázról szóló vitát próbálta vizuálisan összefoglalni.
De tényleg kell ez nekünk? Én mostanában hajlok arra, hogy ha nagyon kell szöveget vizualizálni, akkor az valami olyan legyen, mint Ted Underwood vagy Scott Weingart topic model-eken végzett munkái.
2013. március 13.
Könyvismertető: A valószínűség interpretációi
Manapság nagyon divatosak a big data-ról és prediktív analitkáról írott ismeretterjesztő könyvek. A négy legsikeresebb ezek közül Gleick: The Information, Silver: The Signal and the Noise, McGrayne: The Theory That Would Not Die és Mlodinow Részeg bolyongása. Mindegyik kötet foglalkozik valamennyire a valószínűség interpretációival, de nem jut túl a frekventista vs szubjektivista értelmezés rövid bemutatásán. A valószínűség értelmezése egyre központibb problémát jelent a mai analitka-vezérelt korban, ezt világosan jelzik olyan döntéshozóknak szánt címek mint a Managin Uncertainty. Szabó Gábor kiválló munkája remekül összefoglalja a valószínűség értelmezésével kapcsolatos kérdéseket, méghozzá világos és érthető módon, habár az ismeretterjesztő könyvekkel ellentétben feltételezi, hogy olvasója rendelkezik alapos matematikai előismeretekkel.
- Szabó Gábor: A valószínűség interpretációi
- Typotex, 2013
- 226 oldal
Hofer-Szabó Gábor a magyar tudományfilozófia egy jeles képviselője. Az ELTE HPS és Logika Tanszékei és a BME Filozófia és Tudománytörténet Tanszéke szakmai körökben világhírű (és nem csak itthon világhírű), rendszeresen kerülnek ki jelentős publikációk az oktatóktól és hosszú évek kitartó munkája árán építettek fel egy nagyon termékeny közösséget, aminek legkézzelfoghatóbb produktuma a Theoretical Philosophy Forum. Így nem meglepő, hogy A valószínűség interpretációi egy nagyon alapos munka, ami kiemelkedik a hasonló művek közül (pl. Mellor Probability: A Philosophical Introduction vagy Gillies Philosophical Theories of Probability). Fontos megjegyezni, hogy ez a könyv nem ismeretterjesztő munka, feltételezi, hogy olvasója nem-triviális matematikai előismeretekkel rendelkezik. A formalizmusok ellenére nagyon gördülékeny a szöveg (már amennyire egy ilyen mű az lehet) és szépen építkezik az anyag menet közben. Ahogy egyre jobban átszövi a prediktív analitika az életünket, érdemes elgondolkodni a valószínűség természetén és ehhez nagyon jó alapot nyújt ez a könyv. Kedvcsinálónak az előszóból (a kiadó oldaláról átvéve):
Mit jelent az, hogy egy szabályos dobókockával a hatos dobás valószínűsége egyhatod? A kérdésre az alábbi paradigmatikus válaszok adhatók:
Klasszikus válasz: Mivel szabályos kocka esetén mindegyik oldal előfordulása egyenlően lehetséges, és az esetek közül nekünk csak az egyik kedvez, ezért a kedvező esetek és az egyenlően lehetséges esetek számának aránya egyhatod lesz, és ez a hatos dobás valószínűsége.
Logikai válasz: A hatos dobás valószínűsége azért egyhatod, mert az a kijelentés, hogy az eredmény hatos lesz, egyhatod mértékben következik abból a kijelentésből, hogy a kockát eldobtuk, egy mindkét kijelentést tartalmazó nyelvben.
Szubjektivista válasz: Az, hogy a hatos dobás valószínűsége egyhatod, azt jelenti, hogy egyhatod mértékben hiszünk a hatos dobás eseményében.
Frekventista válasz: A hatos dobás egyhatod valószínűsége semmi mást nem jelent, mint hogy a hatos relatív gyakorisága közel egyhatod lesz a kockadobások egy elegendően hosszú sorozatában.
Propensity válasz: A hatos dobásnak azért egyhatod a valószínűsége, mert a kocka fizikai környezetével együtt rendelkezik azzal az egyhatod mértékű kauzális hajlammal, hogy egy adott dobás során hatos legyen.
A fenti válaszok a valószínűség öt legfontosabb filozófiai interpretációjának jegyében születtek. A könyv ezeket az interpretációkat igyekszik bemutatni és értékelni. Ismerteti továbbá a valószínűség fogalmának történeti kialakulását, illetve legjelentősebb paradoxonait, valamint rövid bevezetőt nyújt a filozófiai elemzés számára nélkülözhetetlen matematikai fogalmakba. A könyvet elsősorban a matematika és a fizika filozófiai alapjai iránt érdeklődő olvasóknak ajánljuk.
2013. március 12.
miért, most az underground a trendi?
2013. március 8.
Szövegvizualizáció térképen
A maphugger.com egy remek oldal, ami tele van igen ötletes térképekkel. A Laconic History of the World minden országot egy szóval jelenít meg. A térkép az angol Wikipedia "History of X" - ahol az X egy adott ország - szócikkeit dolgozta fel és a legjellemzőbb (azaz leggyakoribb) szóval helyttesítette az adott országot. Érdekes, hogy hazánk így a "Party", még Szlovákia a "Hungary" szóval került megjelenítésre. A "War" túlburjánzása mutatja milyen szomorú is a történelem, a volt gyarmatok pedig rendre a gyarmattartók nevével jelentek meg.
2013. március 6.
inkLink 2013
- Stijn Debrouwere (OpenNews fellow @ The Guardian)
- Friedrich Lindenberg (OpenNews fellow @ Spiegel Online)
- Michael Bauer (Open Knowledge Foundation)
- Kristin Trethewey (Sourcefabric)
- Szekeres Péter (Neticle Technologies)
- Kiss Dániel (Ustream)
- Kovács Ildikó (Átlátszó.hu)
2013. március 4.
A Logicomix ingyen olvasható
Akik szeretik a logikát és/vagy a tudománytörténetet, azok minden bizonnyal örömmel fogadják hogy a kultikus Logicomix ingyenesen olvasható online. Aki offline is szeretné bújni a kötet, az megvásárolhatja elektronikus formában, ami még mindig olcsóbb és gyorsabb megoldás mint a papír verzió beszerzése. A Logicomixról régebben már írtunk egy kis ismertetőt. Jó olvasgatást!