2013. április 24.

Szöveges információ vizualizációja: topik gráf

Az alábbi ábra az egyes dokumentumok (magyar úsjágcikkek) és topikok kapcsolatát szemlélteti. A gráf elrendezésével még gondjaim vannak, nem sikerül azt a layoutot megtalálnom ami kicsiben is jól mutatja a kapcsolódási pontokat. Az viszont jól látszik, hogy vannak centrális témák, ezek köré csoportosul az összes többi. Érdekes, hogy a centrális cikkek a belföldi témákkal foglalkozó hírek, a szellősebb részen a külföldi hírek vannak, a széleken a bulvár és a kultúra.

 

2013. április 23.

Szöveges információ vizualizációja: topic clouds

A magyar online sajtóból gyűjtöttem be cikkeket, sima nltk snowball stemmelésen mentek át normalizálás során, majd MALLET-et használva 20 elemű topik modellt készítettem. Az egyes topikokhoz leginkább hozzájáruló szavak gyakorisági listájából generáltam szófelhőket. A pytagcloud kifejezetten csúnya, de legalább programmatikusan generálhatóak a képek, a Wordle sokkal szebb. de a gyakorisági táblákat kézzel kell bemásolni a generálás előtt. Az eredményeken látszik, hogy pontosításra szorul a scraper (ti. nem csak a cikkek szövegét szedi ki, hanem még sok menüelemet és reklámot stb) és jobb stemmer sem ártana. Ezek ellenére a tapasztalatom azt mutatja, egészen informatívak a szófelhők - magyarán az adott topikról sokat elárulnak.

Topic clouds - Wordle

Topic clouds - pytagcloud

2013. április 19.

Szöveges információ vizualizációja: szógyakoriság

Az alábbi ábrákat a Heti Válasz és a NOL cikkeinek szövegeiből készítettem. Az írások a héten az Európai Parlamentben hazánk kapcsán lezajlott vitáról szólnak. Minden szófelhő szógyakoriságon alapul, a szövegek tisztításon átmentek, de szótövezésen nem. Engem leginkább az érdekel, hogyan használhatók a szófelhők tartalomelemzésre. Ennek nyilván akkor van értelme, ha nagy mennyiségű adatot akarunk áttekinteni, de most jobban érdekel melyik eljárás felhasználóbarát (azaz informatív).

 

Wordle szófelhő

A Wordle nagyon szép felhőket generál, de inkább deskriptív és nem ad lehetőséget az összehasonlításra.

Népszabadság cikk

 

Heti Válasz cikk

 

R wordcloud

A CRAN-on elérhető standard wordcloud package lehetőséget ad arra, hogy összehasonlítsunk szövegeket. Az összehasonlítás alapja a frekvencia, a comparison azt mutatja meg mely szavak gyakorisága nagyobb egy-egy szövegben, a commonality pedig a közös szavakat ábrázolja.

Comparison cloud

Commonality cloud

Conway összehasonlító szófelhője

Conway szerint egy rendes szófelhő térbeli információval is jelez valamit - mégpedig a frequencia eltéréseket a két szövegben.

2013. április 17.

Brenda Lelke

Tudományfilozófusok és -szociológusok figyeltek fel arra a jelenségre, hogy egyes tudományágakat folyamatosan átneveznek, ez a rebranding. Egy mai példa

When physicists do mathematics, they don’t say they’re doing “number science”. They’re doing math.

If you’re analyzing data, you’re doing statistics. You can call it data science or informatics or analytics or whatever, but it’s still statistics.

If you say that one kind of data analysis is statistics and another kind is not, you’re not allowing innovation. We need to define the field broadly.

Hasonló dolgok játszódnak le más területeken is. A "computational linguistics" terminust egyre inkább felváltja a "natural language processing", a kognitív pszichológia és a kognitív tudomány egyes területei ma már "decision science" és "behavioral economics" néven futnak. A mesterséges intelligencia és a kognitív tudomány először "intelligent systems" névre váltott, ma már "machine learning" címszó alatt fut.

 

Hogy ez jó-e vagy rossz, nehéz eldönteni. Aki ismeri ezen tudományok történetét, az tudja, hogy az ötvenes és hatvanas években nagyon nagy reményekkel indultak, melyeket nem sikerült beváltaniuk. A nyolcvanas években ismét felfutottak, amit megint egy kiábrándulás követett. A kilencvenes években teret nyert a statisztikai/bayesiánus fordult, ami a kétezres évek óta töretlenül tart. Most fordult elő először, hogy alkalmazott szeszögből is bevethetővé váltak ezek a laikusok számára nagyon ezoterikusnak tűnő elméletek. A rebranding célja szerintem egyértelműen az, hogy bevezesse ezen tudományokat a köztudatba, s így nincs ezzel semmi baj. Sokkal nagyobb probléma, hogy a legtöbb embernek fogalma sincs arról, hogy az alkalmazott területek mögött milyen elméleti tudományok állnak.

2013. április 12.

Fogadjunk?

A modern bayesiánus statisztikáról kevesen tudják, hogy alapvetően teológiai eredetű. Pascal Pensées-ben veti fel először az "empirikus" istenbizonyítást, ami "forradalmi" a bevett deduktív istenbizonyításokhoz képest. A 233-ban felvetett probléma az első döntéselméleti elemzés is egyben és megnyitotta az utat Bayes vizsgálódásai előtt. A Stanford Encyclopedia of Philosophy-n Pascal fogadásáról  többet is megtudhat az olvasó.

 

[...] Qui blâmera donc les chrétiens de ne pouvoir rendre raison de leur créance, eux qui professent une religion dont  ils ne peuvent rendre raison; ils déclarent en l'exposant au monde que c'est une sottise, stultitiam, et puis vous  vous plaignez de ce qu'ils ne la prouvent pas. S'ils la prouvaient ils ne tiendraient pas parole. C'est en manquant  de preuve qu'ils ne manquent pas de sens. Oui mais encore que cela excuse ceux qui l'offrent telle, et que cela  les ôte du blâme de la produire sans raison cela n'excuse pas ceux qui la reçoivent. Examinons donc ce point. Et  disons : Dieu est ou il n'est pas; mais de quel côté pencherons-nous? la raison n'y peut rien déterminer. Il y a un  chaos infini qui nous sépare. Il se joue un jeu à l'extrémité de cette distance infinie, où il arrivera croix ou pile.  Que gagerez-vous'? par raison vous ne pouvez faire ni l'un ni l'autre; par raison vous ne pouvez défaire nul des deux.

[...]

Car il ne sert de rien de dire qu'il est incertain si on gagnera, et qu'il est certain qu'on hasarde, et que l'infinie  distance qui est entre la certitude de ce qu'on expose et l'incertitude de ce qu'on gagnera égale le bien fini qu'on  expose certainement à l'infini qui est incertain, Cela n'est pas ainsi. Tout joueur hasarde avec certitude pour  gagner avec incertitude, et néanmoins il hasarde certainement le fini pour gagner incertainement le fini, sans  pécher contre la raison. Il n'y a pas infinité de distance entre cette certitude de ce qu'on expose et l'incertitude du  gain : cela est faux. Il y a, à la vérité, infinité entre la certitude de gagner et la certitude de perdre, mais  l'incertitude de gagner est proportionnée à la certitude de ce qu'on hasarde selon la proportion des hasards de  gain et de perte. Et de là vient que s'il y a autant de hasards d'un côté que de l'autre le parti est à jouer égal  contre égal. Et alors la certitude de ce qu'on s'expose est égale à l'incertitude du gain, tarit s'en faut qu'elle en  soit infiniment distante. Et ainsi notre proposition est dans une force infinie, quand il y a le fini à hasarder, à un  jeu ou il y a pareils hasards de gain que de perte, et l'infini à gagner. (Pascal: Pensées, angol fordítás itt)

 

Bayes híres tételét hasonló okoskodás alapján alkotta meg. A teológiában nem lett annyira felkapott ez a módszer, a tudományt azonban forradalmasította. Akadnak persze olyanok mint Stephen Uwin fizikus, kinek Bayes módszerén alapuló számításai szerint 67%-os Isten létének valószínűsége, de ugyanerre alapozva Larry Ford eredménye 10 a minusz 17-en (erről bővebben itt). 

2013. április 10.

Mire jó a probabilisztikus programozás?

"No man is an island,
Entire of itself.
Each is a piece of the continent,
A part of the main.
If a clod be washed away by the sea,
Europe is the less.
As well as if a promontory were.
As well as if a manor of thine own
Or of thine friend's were.
Each man's death diminishes me,
For I am involved in mankind.
Therefore, send not to know
For whom the bell tolls,
It tolls for thee. "

(John Donne)

Manapság egyre elterjedtebb az ún. dinamikus rendszerek vizsgálata. A logikában ez a dinamikus episztemikus logikát jelenti, amit van Benthem One is a Lonely Number: on the logic of communication c. tanulmányában gyönyörűen mutat be. Másrészt itt van ez a big data és sokan úgy gondolják, az adatok mindent megoldanak hiszen korlátlanul gyűjthetjük őket. Anderson The End of Theory című cikke akár meggyőző is lehetne, de vegyük észre, minden adat begyűjtése tkp. egy omnipotens állapot elérhetőségét jelenti - így csöbörből vödörbe kerülünk. 

 

A kognitív modellezés (ami ma szinte kizárólag bayesiánus modellezést jelent) területén ismeretes mennyire sok gond akadhat azokkal a fránya adatokkal. Minden nyelvész ismeri a mantrát, poverty of stimulus, change over time stb. Noah D. Goodman az ún. generatív modellek (nem keverendők össze a generatív grammatikákkal!!!) segítségével igen ötletes megoldást talált arra, miképp lehet a dinamikus folyamatokat (pl. társas-kognitív viselkedés, társas nyelvhasználat stb) szimulálni:

Is language understanding a special case of social cognition? To help evaluate this view, we can formalize it as the rational speech-act theory: Listeners assume that speakers choose their utterances approximately optimally, and listeners interpret an utterance by using Bayesian inference to “invert” this model of the speaker. We apply this framework to model scalar implicature (“some” implies “not all,” and “N” implies “not more than N”). This model predicts an interaction between the speaker’s knowledge state and the listener’s interpretation. We test these predictions in two experiments and find good fit between model predictions and human judgments. (Knowledge and Implicature: Modeling Language Understanding as Social Cognition)

És mindehhez probabilisztikus programozást használ Goodman. Hogy miért? 

Probabilities describe degrees of belief, and probabilistic inference describes rational reasoning under uncertainty. It is no wonder, then, that probabilistic models have exploded onto the scene of modern artificial intelligence, cognitive science, and applied statistics: these are all sciences of inference under uncertainty. But as probabilistic models have become more sophisticated, the tools to formally describe them and to perform probabilistic inference have wrestled with new complexity. Just as programming beyond the simplest algorithms requires tools for abstraction and composition, complex probabilistic modeling requires new progress in model representation—probabilistic programming languages. These languages provide compositional means for describing complex probability distributions; implementations of these languages provide generic inference engines: tools for performing efficient probabilistic inference over an arbitrary program. (The Principles and Practice of Probabilistic Programming)

2013. április 8.

inkLink videók a Ustream-en

A Ustream jóvoltából az inkLink-et online is követni lehetett. A közvetítést többen nézték mint amennyien megjelentek a helyszínen! Az inkLink csatornáján megtekinthető az összes előadás - jó szórakozást hozzá :D

 

2013. április 3.

inkLink program

Az inkLink-re továbbra is lehet regisztrálni, de az ingyenes jegyek már elfogytak. Arra kérünk mindekit, amennyiben lehetősége van rá, támogatói jeggyel regisztráljon. Diákok, munkanélküliek és tényleg rászorulók levélben keressenek meg minket (zoltan.varju(kukac)gmail.com) ha szeretnének regisztrálni (díjmentesen regisztráljuk őket továbbra is). Április 5-én a LEG jóvoltából egy részben szponzorált sörözésre várjuk a regisztrált résztvevőket, mely keretében az előadókkal és a szervezőkkel kötetlenül is lehet egy kicsit beszélgetni. Az előadások angol nyelvűek és reményeink szerint a UStream-en is elérhetőek lesznek. A program: