2013. május 24.

Változás!

Facebook oldalunk immár inkLink néven fut és az inklink blogot tünteti fel mint "hivatalos" oldal. Az inkLink amolyan ernyőszervezet fogja össze a hazai open data, adatújságírás és kapcsolódó irányzatok tevékenységeit. Ennek része ezentúl az NLP meetup is és ennek rendelünk alá minden itt indított kezdeményezést és az azokat támogató eszközöket (Facebook oldal, Twitter fiók, stb.) Azoknak, akik a szigorúan szakmai dolgok miatt olvasták ezt a blogot, ajánlom a Kerső Világot, ahol továbbra is az információkinyerés és a nyelvtechnológia a fő téma. Terveink szerint a Nyelv és Tudomány oldalain rendszeresen fognak megjelenni olyan írások melyekben a nyelvtechnológiát vetjük be egy-egy téma feltárására - régi szerzőinkre itt számítunk és ennek első darabja már meg is jelent.

 

Ez az utolsó előtti poszt ezen a blog. Remek három évet szerzett nekem a Számítógépes nyelvészet! Megismertem sok ember, találtam munkát és sokat tanultam. Külön köszönet illeti meg R. Kovács Enikőt, Gerő Dávidot és Tempfli Pétert, akik a blog szerzői voltak. A blogolásra nagyon rákattantam és folytatni fogom, csak más formában, (kicsit) más témákkal és sokkal kisebb dózisban. Az utolsó posztban fogom megírni hogy hol és miről vezetem majd az új blogot.

2013. május 20.

Kódváltás

Kódváltásnak nevezzük amikor egy beszélő különböző nyelvek vagy nyelvváltozatok között vált bizonyos okok miatt. Az NPR érdekes projektbe vágott, mely neve Code Switch és a szélesebb értelembe vett kódváltással kapcsolatos tartalmakat közölnek a szerkesztők.

A Language Log részletesebben is foglalkozott a projekttel, ezért mi itt csak olvasóink figyelmébe ajánljuk pár megjegyzéssel. 

1) Az adatújságírás mellett egyre elterjedtebbek a hasonló tematikus projektek. Ezek egyrészt a hagyományos újságírást elevenítik fel, miközben látszik az írásokon hogy a szerzők beástták magukat a tudományos háttérbe.

2) A globalizálódó világban a nyelvi és kulturális kérdések előtérbe kerülnek.

3) Itthon nincs semmi hasonló a nyesten kívül - pedig akadnak bevándorlók, cigányok, határontúli magyarok és együttélésük a többségi társadalommal, itt a keleti nyitás stb.

2013. május 3.

Szezonzáró NLP Meetup


Május 22-én tartjuk szezonzárór meetupunkat 18 órától a Colabs-ben (Budapest, Irányi út 3). A részvétel ingyenes, de előzetes regisztrációhoz kötött

meetuplogo.jpegNeticle Technologies - Méltányosság Politikaelemző Központ: Politikai véleményárfolyam

A Méltányosság Politikaelemző Központ és a Neticle Technologies egy itthon egyedülálló kutatást indított útjára, amely innovatív módszerekkel eddig ismeretlen szemszögből láttatja a hazai politikai folyamatokat. A Neticle Technologies saját fejlesztésű webes szöveganalízisére építve az MPK a fő politikai manőverek, taktikai lépések és a véleményalkotás összefüggéseire fókuszáló elemzéseket készít. Az elemzés nem csupán az internetes szféra véleményreflexióira világít rá, hanem feltárja a háttérben meghúzódó ok-okozati kapcsolatokat is. A májusi NLP meetupon az április havi történéseket vesszük górcső alá. (Az előadás elején kitérünk a módszertani kérdésekre is.)
Korábbi elemzések:
2013. február: http://meltanyossag.hu/node/3233 
2013. március: http://meltanyossag.hu/node/3268 

Méltányosság Politikaelemző Központ 
A Méltányosság Politikaelemző Központ Magyarország első specifikus, a társadalmi és a politikai kohézió kutatására szakosodott agytrösztje, amely megőrzi és új tematikájában is alkalmazza a cég méltányos és elfogulatlan szemléletmódját.Agytrösztünk a politikában megszüntethetetlennek látja a konfliktust, nélkülözhetetlennek a konszenzust és pótolhatatlannak a kohéziót. E három fogalom mind alaposabb tudományos jellegű feltárására, egymáshoz való viszonyuk bemutatására, és az akadémiai jellegű kutatómunka mellett egy Magyarországon merőben újszerű kohéziós stratégia kimunkálása érdekében tevékenykedünk.

Netice Technologies
A Neticle-t egy fiatal szakértői csapat hozta létre azzal a céllal, hogy a jelenleg elérhető közösségi média és online sajtófigyelési szolgáltatásokon túlmutató támogatást kínáljon. Ennek eredménye egy olyan rendszer, ami közel valós időben, a webes véleményárfolyam kiszámításával tudja követni, hogy mi a véleménye a magyar webnek egy cégről, termékről, szolgáltatásról, vagy akár a versenytársakról.Petykó Márton: Mit mond kognitív nyelvészet a blogokról?

Előadásomban bemutatom, hogy hogyan értelmezhető a diskurzustípus és a műfaj fogalma a kognitív pragmatika elméleti keretében. Ezt követően az előbbi fogalomértelmezéseket a gyakorlatban is alkalmazom a számítógép közvetítette kommunikáció egyik jellegzetes műfajának, a blognak a vizsgálata során. Áttekintem, hogy a blogok esetében melyek azok a műfaji jellemzők, amelyek minden példányra érvényesek, és melyek azok, amelyek a példányoknak csak egy bizonyos részére. Végül szót ejtek a spontán írott nyelv és a tervezett írott nyelv fogalmáról, valamint alkalmazhatóságáról a blog két megnyilatkozástípusának: a posztnak és a kommentnek a jellemzése során.Petykó Márton az ELTE BTK Magyar nyelv és irodalom szakának végzős hallgatója beszédtudomány szakirányon. Emellett az MTA Nyelvtudományi Intézet Szótári Osztályának tudományos ügyintézője. Fő érdeklődési területe a számítógép közvetítette kommunikáció, valamint a nyelvhasználat és az identitásképzés viszonyának kognitív pragmatikai vizsgálata.Tempfli Péter: Social media monitoring - Néhány gyakorlati kérdés

Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert.

Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.

2013. április 24.

Szöveges információ vizualizációja: topik gráf

Az alábbi ábra az egyes dokumentumok (magyar úsjágcikkek) és topikok kapcsolatát szemlélteti. A gráf elrendezésével még gondjaim vannak, nem sikerül azt a layoutot megtalálnom ami kicsiben is jól mutatja a kapcsolódási pontokat. Az viszont jól látszik, hogy vannak centrális témák, ezek köré csoportosul az összes többi. Érdekes, hogy a centrális cikkek a belföldi témákkal foglalkozó hírek, a szellősebb részen a külföldi hírek vannak, a széleken a bulvár és a kultúra.

 

2013. április 23.

Szöveges információ vizualizációja: topic clouds

A magyar online sajtóból gyűjtöttem be cikkeket, sima nltk snowball stemmelésen mentek át normalizálás során, majd MALLET-et használva 20 elemű topik modellt készítettem. Az egyes topikokhoz leginkább hozzájáruló szavak gyakorisági listájából generáltam szófelhőket. A pytagcloud kifejezetten csúnya, de legalább programmatikusan generálhatóak a képek, a Wordle sokkal szebb. de a gyakorisági táblákat kézzel kell bemásolni a generálás előtt. Az eredményeken látszik, hogy pontosításra szorul a scraper (ti. nem csak a cikkek szövegét szedi ki, hanem még sok menüelemet és reklámot stb) és jobb stemmer sem ártana. Ezek ellenére a tapasztalatom azt mutatja, egészen informatívak a szófelhők - magyarán az adott topikról sokat elárulnak.

Topic clouds - Wordle

Topic clouds - pytagcloud

2013. április 19.

Szöveges információ vizualizációja: szógyakoriság

Az alábbi ábrákat a Heti Válasz és a NOL cikkeinek szövegeiből készítettem. Az írások a héten az Európai Parlamentben hazánk kapcsán lezajlott vitáról szólnak. Minden szófelhő szógyakoriságon alapul, a szövegek tisztításon átmentek, de szótövezésen nem. Engem leginkább az érdekel, hogyan használhatók a szófelhők tartalomelemzésre. Ennek nyilván akkor van értelme, ha nagy mennyiségű adatot akarunk áttekinteni, de most jobban érdekel melyik eljárás felhasználóbarát (azaz informatív).

 

Wordle szófelhő

A Wordle nagyon szép felhőket generál, de inkább deskriptív és nem ad lehetőséget az összehasonlításra.

Népszabadság cikk

 

Heti Válasz cikk

 

R wordcloud

A CRAN-on elérhető standard wordcloud package lehetőséget ad arra, hogy összehasonlítsunk szövegeket. Az összehasonlítás alapja a frekvencia, a comparison azt mutatja meg mely szavak gyakorisága nagyobb egy-egy szövegben, a commonality pedig a közös szavakat ábrázolja.

Comparison cloud

Commonality cloud

Conway összehasonlító szófelhője

Conway szerint egy rendes szófelhő térbeli információval is jelez valamit - mégpedig a frequencia eltéréseket a két szövegben.

2013. április 17.

Brenda Lelke

Tudományfilozófusok és -szociológusok figyeltek fel arra a jelenségre, hogy egyes tudományágakat folyamatosan átneveznek, ez a rebranding. Egy mai példa

When physicists do mathematics, they don’t say they’re doing “number science”. They’re doing math.

If you’re analyzing data, you’re doing statistics. You can call it data science or informatics or analytics or whatever, but it’s still statistics.

If you say that one kind of data analysis is statistics and another kind is not, you’re not allowing innovation. We need to define the field broadly.

Hasonló dolgok játszódnak le más területeken is. A "computational linguistics" terminust egyre inkább felváltja a "natural language processing", a kognitív pszichológia és a kognitív tudomány egyes területei ma már "decision science" és "behavioral economics" néven futnak. A mesterséges intelligencia és a kognitív tudomány először "intelligent systems" névre váltott, ma már "machine learning" címszó alatt fut.

 

Hogy ez jó-e vagy rossz, nehéz eldönteni. Aki ismeri ezen tudományok történetét, az tudja, hogy az ötvenes és hatvanas években nagyon nagy reményekkel indultak, melyeket nem sikerült beváltaniuk. A nyolcvanas években ismét felfutottak, amit megint egy kiábrándulás követett. A kilencvenes években teret nyert a statisztikai/bayesiánus fordult, ami a kétezres évek óta töretlenül tart. Most fordult elő először, hogy alkalmazott szeszögből is bevethetővé váltak ezek a laikusok számára nagyon ezoterikusnak tűnő elméletek. A rebranding célja szerintem egyértelműen az, hogy bevezesse ezen tudományokat a köztudatba, s így nincs ezzel semmi baj. Sokkal nagyobb probléma, hogy a legtöbb embernek fogalma sincs arról, hogy az alkalmazott területek mögött milyen elméleti tudományok állnak.

2013. április 12.

Fogadjunk?

A modern bayesiánus statisztikáról kevesen tudják, hogy alapvetően teológiai eredetű. Pascal Pensées-ben veti fel először az "empirikus" istenbizonyítást, ami "forradalmi" a bevett deduktív istenbizonyításokhoz képest. A 233-ban felvetett probléma az első döntéselméleti elemzés is egyben és megnyitotta az utat Bayes vizsgálódásai előtt. A Stanford Encyclopedia of Philosophy-n Pascal fogadásáról  többet is megtudhat az olvasó.

 

[...] Qui blâmera donc les chrétiens de ne pouvoir rendre raison de leur créance, eux qui professent une religion dont  ils ne peuvent rendre raison; ils déclarent en l'exposant au monde que c'est une sottise, stultitiam, et puis vous  vous plaignez de ce qu'ils ne la prouvent pas. S'ils la prouvaient ils ne tiendraient pas parole. C'est en manquant  de preuve qu'ils ne manquent pas de sens. Oui mais encore que cela excuse ceux qui l'offrent telle, et que cela  les ôte du blâme de la produire sans raison cela n'excuse pas ceux qui la reçoivent. Examinons donc ce point. Et  disons : Dieu est ou il n'est pas; mais de quel côté pencherons-nous? la raison n'y peut rien déterminer. Il y a un  chaos infini qui nous sépare. Il se joue un jeu à l'extrémité de cette distance infinie, où il arrivera croix ou pile.  Que gagerez-vous'? par raison vous ne pouvez faire ni l'un ni l'autre; par raison vous ne pouvez défaire nul des deux.

[...]

Car il ne sert de rien de dire qu'il est incertain si on gagnera, et qu'il est certain qu'on hasarde, et que l'infinie  distance qui est entre la certitude de ce qu'on expose et l'incertitude de ce qu'on gagnera égale le bien fini qu'on  expose certainement à l'infini qui est incertain, Cela n'est pas ainsi. Tout joueur hasarde avec certitude pour  gagner avec incertitude, et néanmoins il hasarde certainement le fini pour gagner incertainement le fini, sans  pécher contre la raison. Il n'y a pas infinité de distance entre cette certitude de ce qu'on expose et l'incertitude du  gain : cela est faux. Il y a, à la vérité, infinité entre la certitude de gagner et la certitude de perdre, mais  l'incertitude de gagner est proportionnée à la certitude de ce qu'on hasarde selon la proportion des hasards de  gain et de perte. Et de là vient que s'il y a autant de hasards d'un côté que de l'autre le parti est à jouer égal  contre égal. Et alors la certitude de ce qu'on s'expose est égale à l'incertitude du gain, tarit s'en faut qu'elle en  soit infiniment distante. Et ainsi notre proposition est dans une force infinie, quand il y a le fini à hasarder, à un  jeu ou il y a pareils hasards de gain que de perte, et l'infini à gagner. (Pascal: Pensées, angol fordítás itt)

 

Bayes híres tételét hasonló okoskodás alapján alkotta meg. A teológiában nem lett annyira felkapott ez a módszer, a tudományt azonban forradalmasította. Akadnak persze olyanok mint Stephen Uwin fizikus, kinek Bayes módszerén alapuló számításai szerint 67%-os Isten létének valószínűsége, de ugyanerre alapozva Larry Ford eredménye 10 a minusz 17-en (erről bővebben itt). 

2013. április 10.

Mire jó a probabilisztikus programozás?

"No man is an island,
Entire of itself.
Each is a piece of the continent,
A part of the main.
If a clod be washed away by the sea,
Europe is the less.
As well as if a promontory were.
As well as if a manor of thine own
Or of thine friend's were.
Each man's death diminishes me,
For I am involved in mankind.
Therefore, send not to know
For whom the bell tolls,
It tolls for thee. "

(John Donne)

Manapság egyre elterjedtebb az ún. dinamikus rendszerek vizsgálata. A logikában ez a dinamikus episztemikus logikát jelenti, amit van Benthem One is a Lonely Number: on the logic of communication c. tanulmányában gyönyörűen mutat be. Másrészt itt van ez a big data és sokan úgy gondolják, az adatok mindent megoldanak hiszen korlátlanul gyűjthetjük őket. Anderson The End of Theory című cikke akár meggyőző is lehetne, de vegyük észre, minden adat begyűjtése tkp. egy omnipotens állapot elérhetőségét jelenti - így csöbörből vödörbe kerülünk. 

 

A kognitív modellezés (ami ma szinte kizárólag bayesiánus modellezést jelent) területén ismeretes mennyire sok gond akadhat azokkal a fránya adatokkal. Minden nyelvész ismeri a mantrát, poverty of stimulus, change over time stb. Noah D. Goodman az ún. generatív modellek (nem keverendők össze a generatív grammatikákkal!!!) segítségével igen ötletes megoldást talált arra, miképp lehet a dinamikus folyamatokat (pl. társas-kognitív viselkedés, társas nyelvhasználat stb) szimulálni:

Is language understanding a special case of social cognition? To help evaluate this view, we can formalize it as the rational speech-act theory: Listeners assume that speakers choose their utterances approximately optimally, and listeners interpret an utterance by using Bayesian inference to “invert” this model of the speaker. We apply this framework to model scalar implicature (“some” implies “not all,” and “N” implies “not more than N”). This model predicts an interaction between the speaker’s knowledge state and the listener’s interpretation. We test these predictions in two experiments and find good fit between model predictions and human judgments. (Knowledge and Implicature: Modeling Language Understanding as Social Cognition)

És mindehhez probabilisztikus programozást használ Goodman. Hogy miért? 

Probabilities describe degrees of belief, and probabilistic inference describes rational reasoning under uncertainty. It is no wonder, then, that probabilistic models have exploded onto the scene of modern artificial intelligence, cognitive science, and applied statistics: these are all sciences of inference under uncertainty. But as probabilistic models have become more sophisticated, the tools to formally describe them and to perform probabilistic inference have wrestled with new complexity. Just as programming beyond the simplest algorithms requires tools for abstraction and composition, complex probabilistic modeling requires new progress in model representation—probabilistic programming languages. These languages provide compositional means for describing complex probability distributions; implementations of these languages provide generic inference engines: tools for performing efficient probabilistic inference over an arbitrary program. (The Principles and Practice of Probabilistic Programming)

2013. április 8.

inkLink videók a Ustream-en

A Ustream jóvoltából az inkLink-et online is követni lehetett. A közvetítést többen nézték mint amennyien megjelentek a helyszínen! Az inkLink csatornáján megtekinthető az összes előadás - jó szórakozást hozzá :D

 

2013. április 3.

inkLink program

Az inkLink-re továbbra is lehet regisztrálni, de az ingyenes jegyek már elfogytak. Arra kérünk mindekit, amennyiben lehetősége van rá, támogatói jeggyel regisztráljon. Diákok, munkanélküliek és tényleg rászorulók levélben keressenek meg minket (zoltan.varju(kukac)gmail.com) ha szeretnének regisztrálni (díjmentesen regisztráljuk őket továbbra is). Április 5-én a LEG jóvoltából egy részben szponzorált sörözésre várjuk a regisztrált résztvevőket, mely keretében az előadókkal és a szervezőkkel kötetlenül is lehet egy kicsit beszélgetni. Az előadások angol nyelvűek és reményeink szerint a UStream-en is elérhetőek lesznek. A program: 

2013. március 29.

Probabilisztikus programozás

Az utóbbi napokban a Twitter a DARPA Probabilistic Programming for Advanced Machine Learning (PPAML) Proposers' Day-től hangos. De miért? Rob Zinkov Why Probabilistic Programming Matters posztjában így válaszolja meg a kérdést

Probabilistic programming is a newer way of posing machine learning problems. As the models we want to create become more complex it will be necessary to embrace more generic tools for capturing dependencies. I wish to argue that probabilistic programming languages should be the dominant way we perform this modeling, and will demonstrate it by showing the variety of problems that can be trivially modeled with such a language.
Probabilistic programming also has the potential to give machine learning to the masses by making it very easy to specify realistic models for frequently heterogenous data. Too often, simple models are used because they are popular and implementations are freely available. By shifting focus to a language we remove these artificial constraints.


2013. március 27.

NLP meetup programváltozás

Figyelem! Tempfli Péter Social media monitoring előadását sajnos el kell halasztanunk a májusi meetupra. Ez a mai Textplore előadást nem érinti, továbbra is várunk mindenkit 18:00-tól a Colabs-ben http://bit.ly/W9HmEJ

2013. március 26.

Hírek - másképp

Egytlen igazán népszerű "szolgáltatásunk"  a Számítógépes nyelvészeten a különböző neveken futó linkajánló "rovatunk" volt. A Computational Linguistics Light célja betölteni ezt az űrt. Minden általam érdekesnek talált angol nyelvű cikket, tanulmányt, honlapot és egyéb forrást ezen a helyen osztok meg a továbbiakban, néha minimálisan kommentelem is ezeket (angolul).

2013. március 25.

Arab tavasz és nlp

Mostanában nagyon rákattantam a "computational social science" témára, mivel úgy látom nagyon gazdag terület, amiben az nlp-nek is sok szép szerep jut(hat). Trey Causey a University of Washington PhD hallgatója az autoriter államok médiáit vizsgálja empirikus alapon, ehhez pedig nagyban támaszkodik a látens dirichlet allokációra (latent dirichlet allocation - LDA) a korpuszelemzésben. Disszertációjának összegzése szerint:
I model these meaning contests using Latent Dirichlet Allocation, a Bayesian method for discovering the latent topic structure of text corpora. Using an original dataset of more than 25,000 Egyptian and international news articles in both Arabic and English from November 2010 to March 2011, I build a model of regime-friendly, semi-independent, and independent media content before, during, and after the so-called Arab Spring uprisings in Tunisia, Egypt, Libya, and Bahrain. In the months leading up to the uprisings, while Egyptian state media focused on economic development projects and minimized attention to rising discontent int he region, non-state media offered extensive coverage of investigations of businessmen linked to the regime and fraudulent elections. When events in Tunisia ignited political imaginations in the region, state media consistently downplayed these events relative to their independent counterparts and employed conspiracy, foreign interference, and instability themes in their coverage. However, as the fall of the Mubarak regime drew closer, media coverage converged distinctly toward the language of independent media. I argue that this divergence and subsequent convergence around highly salient issues provides important information to potential collective actors about the ability and likely success of pro- and anti-regime groups to exert influence.
The Battle for Bystanders: Information, Meaning Contest, and Collective Action in the Egyptian Uprising of 2011 című tanulmányában a disszertációnál tömörebben foglalja össze Causey téziseit és módszertanát - érdemes elolvasni, hiába "draft", van benne valami. Úgy gondolom, hamarosan sok hasonló vizsgálódás lát majd napvilágot és bizonyosan az ipar is rákap az ilyen kutatások ízére.

2013. március 22.

Dzsihád és nlp

Tegnap futottam bele a Mancs honlapján egy interjúba Miklósi Lászlóval a Történelemtanárok Egyletének elnökével. Engem is meglep, hogy pont a fiatal bölcsészek tolódnak egyre inkább jobbra, de rögtön beugrott két tanulmány. Jeskó József, Bakó Judit és Tóth Zoltán A radikális jobboldal webes hálózatai című írása nagyon szépen összefoglalja, miképp formálódott a radikális jobb webes jelenléte, ami kulcsfontosságú a fiatalok elérésében (érdemes elolvasni, már csak azért is, mert eddig ez az egyetlen általam is ismert hazai adatvezérelt társadalomtudományi cikk). Ugyanakkor hiányzik még annak megértése, miképp válnak radikálissá pont humán beállítottságú emberek. Itt kerül képbe a dzsihád.  Rich Nielsen a Harvard Department of Goverment PhD hallgatója azt vizsgálja miért válnak radikálissá egyes muszlim vallás- és jogtudósok (ulema). Még nem publikált, de már elérhető tanulmánya a Jihadi Radicalization of Muslim Clerics remek példa arra, hogyan alkalmazható a számítógépes nyelvészet a társadalomtudományi tartalomelemzésben. Az absztrakt remekül összefoglalja a tanulmányt (elvégre ez a dolga):

This paper explains why some Muslim clerics adopt the ideology of militant Jihad while others do not. I argue that clerics strategically adopt or reject Jihadi ideology because of career incentives generated by the structure of cleric educational networks. Well-connected clerics enjoy substantial success at pursuing comfortable careers within state-run religious institutions and they reject Jihadi ideology in exchange for continued material support from the state. Clerics with poor educational networks cannot rely on connections to advance through the state-run institutions, so many pursue careers outside of the system by appealing directly to lay audiences for support. These clerics are more likely to adopt Jihadi ideology because it helps them demonstrate to potential supporters that they have not been theologically coopted by political elites. I provide evidence of these dynamics by collecting and analyzing 29,430 fatwas, articles, and books written by 91 contemporary clerics. Using statistical natural language processing, I measure the extent to which each cleric adopts Jihadi ideology in their writing. I combine this with biographical and network information about each cleric to trace the process by which poorly-connected clerics become more likely to adopt Jihadi ideology.


A The Economist cikke röviden és érthetően összegzi Nielsen eredményeit.  A mi szempontunkból legalább annyira érdekes a kutatás módszertana.

There is no way to determine the population of Muslim clerics, so randomly sampling clerics for analysis is not a possibility. Instead, I focus the analysis on contemporary Sunni clerics writing in Arabic. In order to compare Jihadi clerics to the those that were most likely to become Jihadi but ultimately did not, I intentionally over-sample two key groups of clerics: (1) Jihad clerics and (2) conservative Salafi clerics who share similar beliefs to Jihadis but reject the ideology of militant Jihad. Practically, this means the analysis is focused on conservative clerics primarily from Saudi Arabia (58 percent) and Egypt (22 percent) who are currently living or lived in the last century. [...] To measure the ideology of these clerics, I collect their books, articles, and fatwas with special emphasis on the latter.

Nielsen célja az volt, hogy beazonosítsa a radikális és nem-radikális ulemákat elérhető szövegeik alapján. Ehhez a gépi tanulást hívta segítségül:

In principle, identifying Jihadi ideology is often as simple as distinguishing between these two texts. However, with 29,430 texts from 91 clerics, close reading of each is infeasible. Instead, I measure cleric ideology by applying supervised learning methods from the statistical machine learning literature (Hastie, Tibshirani and Friedman, 2009) to the documents. Most of the previous work on measuring the ideology of political actors has used roll-call votes to estimate actor ideal points (Poole and Rosenthal, 1985; Martin and Quinn, 2002). This is not possible for Muslim clerics (because they do not vote on a common set of proposals), so instead, I directly scale the texts to estimate cleric support for militant Jihadi ideology. My method uses two sets of training documents, one of which is assumed to be Jihadi and the other of which is assumed to be non-Jihadi. The Jihadi corpus consists of 765 texts of various genres that are available on Jihadi web forums as the “Mujahid’s bookbag” (ﺎﻫﺪĐا ﺣﻘﻴﺒﺔ).13 These documents are specifically selected by Jihadis themselves as sources of spiritual instruction and advice, as well as mixed political and religious commentary.14 By using a set of known Jihadi documents as my training data, I avoid the difficult task of deciding which texts are most authentically “Jihadi”. Instead, I let Jihadis themselves identify the texts that are most representative of Jihadi ideology.

Lehet erőltetett párhuzamot látni egy radikális ulema és egy radikális bölcsész között, de úgy gondolom érdemes lenne Nielsen vizsgálatához hasonló módon elemezni a radikális jobboldal netes szövegeit és elkezdhetnénk empirikusan közelíteni ahhoz, hogy miért és hogyan radikalizálódnak a fiatalok a bölcsészkarokon.

2013. március 21.

Funkcionális programozás és big data

Paco Nathan (Concurrent data science director) egy olyan slide-ot csinált, ami önmagában is érthetővé teszi, miért nyer egyre nagyobb teret a funkcionális programozás big data körökben.

 

2013. március 19.

Mit mond az internet - NLP meetup március 27-én

Március 27-én tartjuk e havi meetupunkat. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon oldalunkon és jelezze részvételi szándékát.

 

meetuplogo.jpeg

 

A program:

Textplore https://www.textplore.org/

 

Előadásunkban bemutatjuk a Gazdaság- és Vállalkozáskutató Intézet által fejlesztett Textplore szövegelemző szoftver funkcióit és elemzési lehetőségeit, majd egy folyamatban levő kutatás előzetes eredményeit. Ennek során egy magyar és egy angol hírportálon megjelent, korrupcióval kapcsolatos cikkek jellegzetességeit vizsgáljuk. A cikkek szóhasználati sajátosságai segíthetnek feltárni, hogy az online média hogyan viszonyul a korrupcióhoz, mennyire tölti be azt a lehetséges szerepét, hogy a nyilvánosság erejével akadályozza a korrupció terjedését.

 

Az előadók

Tóth István János Közgazdász-szociológus, az MTA Közgazdaságtudományi Intézetének tudományos főmunkatársa, a Gazdaság- és Vállalkozáskutató Intézet ügyvezető igazgatója, a BCE Korrupciókutató-központjának társigazgatója. Fő érdeklődési területe a rejtett gazdasággal és a korrupcióval kapcsolatos jelenségek vizsgálata és a konjunktúrakutatás, továbbá szívesen foglalkozik a kvantitatív tartalomelemzés módszerével vizsgálható kérdésekkel.

 

Czibik Ágnes közgazdász, a Gazdaság- és Vállalkozáskutató Intézet elemzője, a Budapesti Corvinus Egyetem Korrupciókutató Központjának munkatársa. Főként munkaerő-piaci kutatásokkal, a GVI által fejlesztett Textplore szövegelemző szoftver fejlesztésének irányításával, valamint a szoftver segítségével elemzések készítésével foglalkozik

 

Social media monitoring - Replise http://replise.com

Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert.

Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.

2013. március 18.

Egy kép többet ér ezer szónál?

Nem könnyű dolog szöveges információt képpé alakítani. Egyre inkább úgy gondolom, nem is muszáj  mindent vizualizálni. Persze értékelem a The Economist próbálkozását, ami a palagázról szóló vitát próbálta vizuálisan összefoglalni.


De tényleg kell ez nekünk? Én mostanában hajlok arra, hogy ha nagyon kell szöveget vizualizálni, akkor az valami olyan legyen, mint Ted Underwood vagy Scott Weingart topic model-eken végzett munkái. 

2013. március 13.

Könyvismertető: A valószínűség interpretációi

Manapság nagyon divatosak a big data-ról és prediktív analitkáról írott ismeretterjesztő könyvek. A négy legsikeresebb ezek közül Gleick: The Information,  Silver: The Signal and the Noise,  McGrayne: The Theory That Would Not Die és Mlodinow Részeg bolyongása. Mindegyik kötet foglalkozik valamennyire a valószínűség interpretációival, de nem jut túl a frekventista vs szubjektivista értelmezés rövid bemutatásán. A valószínűség értelmezése egyre központibb problémát jelent a mai analitka-vezérelt korban, ezt világosan jelzik olyan döntéshozóknak szánt címek mint a Managin Uncertainty. Szabó Gábor kiválló munkája remekül összefoglalja a valószínűség értelmezésével kapcsolatos kérdéseket, méghozzá világos és érthető módon, habár az ismeretterjesztő könyvekkel ellentétben feltételezi, hogy olvasója rendelkezik alapos matematikai előismeretekkel.

 

Hofer-Szabó Gábor a magyar tudományfilozófia egy jeles képviselője. Az ELTE HPS és Logika Tanszékei és a BME Filozófia és Tudománytörténet Tanszéke szakmai körökben világhírű (és nem csak itthon világhírű), rendszeresen kerülnek ki jelentős publikációk az oktatóktól és hosszú évek kitartó munkája árán építettek fel egy nagyon termékeny közösséget, aminek legkézzelfoghatóbb produktuma a Theoretical Philosophy Forum. Így nem meglepő, hogy A valószínűség interpretációi egy nagyon alapos munka, ami kiemelkedik a hasonló művek közül (pl. Mellor Probability: A Philosophical Introduction vagy Gillies Philosophical Theories of Probability). Fontos megjegyezni, hogy ez a könyv nem ismeretterjesztő munka, feltételezi, hogy olvasója nem-triviális matematikai előismeretekkel rendelkezik. A formalizmusok ellenére nagyon gördülékeny a szöveg (már amennyire egy ilyen mű az lehet) és szépen építkezik az anyag menet közben. Ahogy egyre jobban átszövi a prediktív analitika az életünket, érdemes elgondolkodni a valószínűség természetén és ehhez nagyon jó alapot nyújt ez a könyv. Kedvcsinálónak az előszóból (a kiadó oldaláról átvéve):

 

Mit jelent az, hogy egy szabályos dobókockával a hatos dobás valószínűsége egyhatod? A kérdésre az alábbi paradigmatikus válaszok adhatók:

 

Klasszikus válasz: Mivel szabályos kocka esetén mindegyik oldal előfordulása egyenlően lehetséges, és az esetek közül nekünk csak az egyik kedvez, ezért a kedvező esetek és az egyenlően lehetséges esetek számának aránya egyhatod lesz, és ez a hatos dobás valószínűsége. 

Logikai válasz: A hatos dobás valószínűsége azért egyhatod, mert az a kijelentés, hogy az eredmény hatos lesz, egyhatod mértékben következik abból a kijelentésből, hogy a kockát eldobtuk, egy mindkét kijelentést tartalmazó nyelvben.

Szubjektivista válasz: Az, hogy a hatos dobás valószínűsége egyhatod, azt jelenti, hogy egyhatod mértékben hiszünk a hatos dobás eseményében.

Frekventista válasz: A hatos dobás egyhatod valószínűsége semmi mást nem jelent, mint hogy a hatos relatív gyakorisága közel egyhatod lesz a kockadobások egy elegendően hosszú sorozatában.

Propensity válasz: A hatos dobásnak azért egyhatod a valószínűsége, mert a kocka fizikai környezetével együtt rendelkezik azzal az egyhatod mértékű kauzális hajlammal, hogy egy adott dobás során hatos legyen.

 

A fenti válaszok a valószínűség öt legfontosabb filozófiai interpretációjának jegyében születtek. A könyv ezeket az interpretációkat igyekszik bemutatni és értékelni. Ismerteti továbbá a valószínűség fogalmának történeti kialakulását, illetve legjelentősebb paradoxonait, valamint rövid bevezetőt nyújt a filozófiai elemzés számára nélkülözhetetlen matematikai fogalmakba. A könyvet elsősorban a matematika és a fizika filozófiai alapjai iránt érdeklődő olvasóknak ajánljuk.

2013. március 12.

miért, most az underground a trendi?

Nem tudom mi számít innovatívnak ma. Pont tegnap került a kezembe - vagy inkább a képernyőmre - a Google kutatási kultúrájáról egy tanulmány. Maga az írás nem olyan nagy szám szerintem, nyilván van benne egy nagy adag önfényezés és hát a tudomány- és tudásszociológia közhelye szerint magunkat nem tudjuk objektíven megítélni, de nagyon megfogott az, miképp látják az alkalmazott/ipari kutatás lényegét.

2013. március 8.

Szövegvizualizáció térképen

A maphugger.com egy remek oldal, ami tele van igen ötletes térképekkel. A Laconic History of the World minden országot egy szóval jelenít meg. A térkép az angol Wikipedia "History of X" - ahol az X egy adott ország - szócikkeit dolgozta fel és a legjellemzőbb (azaz leggyakoribb) szóval helyttesítette az adott országot. Érdekes, hogy hazánk így a "Party", még Szlovákia a "Hungary" szóval került megjelenítésre. A "War" túlburjánzása mutatja milyen szomorú is a történelem, a volt gyarmatok pedig rendre a gyarmattartók nevével jelentek meg.

 

2013. március 6.

inkLink 2013


Alakul az inkLink programja és már kijelenthetjük, igazi nemzetközi esemény résztvevői lehetünk április 6-án. Az előadói teremben (Discussion Room) érdekes előadásokat hallgathatunk az adatújságírás és a modern digitális média kérdéseiről, a Hack Room ad teret a fejlesztőknek, az IdeaShop-on pedig kötetlen formában lehet megismerkedni mindenki által könnyen használható eszközökkel. A továbbiakban a programmal kapcsolatos információkat az inkLink blogján és a Nyelv és Tudományon találjátok majd meg. A hackday-re továbbra is várjuk az érdeklődő fejlesztőket egyénileg és csapatban is, a zoltan.varju(kukac)gmail.com címre. Amennyiben szeretnéd támogatni a rendezvényt, Kincse Szabolccsal vedd fel a kapcsolatot a kincse(kukac)nyest.hu e-mail címen.
Előadók 
IdeaShop résztvevők

2013. március 4.

A Logicomix ingyen olvasható

Akik szeretik a logikát és/vagy a tudománytörténetet, azok minden bizonnyal örömmel fogadják hogy a kultikus Logicomix ingyenesen olvasható online. Aki offline is szeretné bújni a kötet, az megvásárolhatja elektronikus formában, ami még mindig olcsóbb és gyorsabb megoldás mint a papír verzió beszerzése. A Logicomixról régebben már írtunk egy kis ismertetőt. Jó olvasgatást!

 

 

Bertrand Russell Logicomix by MLSBU11

2013. február 25.

Design Thinking

Az ember összeszed egy halom, gyakran feleslegesnek gondolt tudást, aztán egyszer hirtelen úgy alakul hogy meg kell élnie valamiből. Egymást közt tudjuk mi is az a látens dirichlet allokáció és milyen jó dolgokat lehet vele csinálni. De hogyan lehetne egy eladható, működő terméket kanyarítani köré? A design thinking kicsit olyan mint a lean startup és hasonló buzzword-ök, mondanak is valamit meg nem is - de legalább valamilyen szinten keretet adnak az előbbi kérdések végiggondolásához. A Hasso Plattner Institute of Design at Stanford Virtual Crash Course in Design Thinking online kurzusa kezdetnek egész jó ehhez.

 

 

2013. február 21.

Google Glass

A Google megmutatta mit is fog tudni a Google Glass.

Aki az Egyesült Államokban él, van arra ötlete hogy mit csinálna a Glass-szel és még 1500 USD-t is rászánna a dologra, az hamarosan kaphat is egy ilyen kütyüt. A DIY mozgalom lelkes híveinek ajánlom Rod Furlan Build Your Own Google Glass írását.

 

Nekem speciel nagyon bejön a Glass, de érdemes szemezgetni a IEEE Spectrum Babak Parviz-zal (a Glass Project vezetője) folytatott beszélgetéséből. A teljes interjú elolvasható itt. Lent kiemeltem az engem legjobban izagtó három kérdést: hogyan működik az I/O, mennyire univerzális az eszköz (pl. telefonálásra alkalmas-e) és hogy mennyire bírja szuflával. 

 

[...]

IEEE Spectrum: How will people interact with Google Glass?

Babak Parviz: Right now, we have a touch pad on the device that allows people to change things on the device if they wish to do so. We have also experimented a lot with using voice commands. We have full audio in and audio out, which is a nice, natural way of interacting with something that you’d wear and always have with you. We have also experimented with some head gestures.

[...]

IEEE Spectrum: What about accepting a phone call on Google Glass? Will that be possible?

Babak Parviz: We are working on it.

[...]

IEEE Spectrum: Some of the most exciting apps for Google Glass, like video, are also the biggest power hogs. How are you addressing the challenge of battery life?

Babak Parviz: That’s a valid concern. We have done a lot of work in this area, and it is still a work in progress. Our hope is that the battery life would be sufficient for the whole day. That’s our target. So you would put the device on in the morning and you’d go about your daily routine. By the time you got back home, the device would still be functioning.

 


2013. február 20.

Web Intelligence - NLP meetup február 28-án

Február 28-án tartjuk évadnyitó meetupunkat 18 órától a Colabs-ben (Budapest, Irányi utca 3.) A rendezvény továbbra is ingyenes, de kérünk minden kedves érdeklődőt, regisztráljon oldalunkon és részvételi szándékát jelezze (ezzel is segítve a szervezők munkáját)

 

meetuplogo.jpeg

 

A tavaszi évadban két angol meetup kerül megrendezésre, ebből az első rögtön a februári. A következő angol meetup április 6-án lesz, ami rendhagyó módon szombati nap. Az Open Knowledge Foundation látogat meg minket az inkLink 2013 keretében és egy rövid beszélgetésre ülünk össze. Reményeink szerint itthon is szárnyra kap az open data (nyílt adatok) mozgalom! Már erre az eseményre is lehet regisztrálni a megfelelő oldalon!

 

Természetesen magyar meetupok is lesznek az évadban, márciusban és májusban. Ezek programját is hamarosan feltöltjük.

 

Az e havi meetup programja.

 

Christophe Heintz: Web Epistemology

Social phenomena, I will argue, are made of long cognitive causal chains that span several individuals, extend in the public environment, and possibly involve cognitive tools such as ICTs. Social scientists have issued great analyses of the the new practices and communities that are created by new ICTs, but the analysis of cognitive causal chains is especially adequate for specifying the causal role of ICTs in the making of social phenomena. I will illustrate this point with three examples: the distributed selection of relevant information via search engines, some IT aspects of contemporary finance, and recent uprising fostered by social media.

 

 

Short bio:
C. Heintz is an assistant professor of cognitive science at CEU, Budapest, Hungary. He is working on cultural evolution and its cognitive bases, with analyses in the history of science and mathematics, and in economics. C. Heintz studied mathematics and philosophy at the universities of Paris and Cambridge. He obtained his PhD from the School for Advanced Studies in the Social Sciences (EHESS, Paris).

 

 

Zoltán Lehóczky: Associativy

 

Associativy is a fully open knowledge graph platform for the web. Its components are based on the ASP.NET MVC-based Orchard CMS and they provide a toolbox for storing, searching, exploring and visualizing knowledge graphs. Graphs in Associativy store pieces of knowledge with the edges connecting them representing associative connections, in the human sense. The project's ultimate goal is to provide a system that can store knowledge similarly structured to how our mind works and what can be "asked" to "think" about associations.

 

 

Short bio

Loving technology ever since I'm a Computer Science and Engineering student at Óbuda University in Budapest. Web application development is my key skill, having been involved with PHP and ASP.NET MVC for years. I embrace open source and live it through the Orchard ASP.NET MVC-based content-management framework: I'm one of its developers, released dozens of open source modules to it and even do work with it. My interest in artificial intelligence, knowledge representation and machine learning lead me to the development of the Associativy graph platform.

2013. február 18.

Sometimes you gotta run before you can walk

Nagyon sok ötlet születik a kutatólaborokban és talán még több startup szökken szárba szinte minden nap. Bízunk a nagy számok törvényében, de talán még többen hiszünk a kis számok törvényében (sajnos). A lean startup filozófiája arra tanít minket, hogy ügyesen építkezve találjuk meg a fenntarthatóság forrását. Sok dolog esetében most érkeztünk el oda, hogy azt érezzük, érdemes kipróbálni. A Bing (és szinte biztos vagyok benne hogy a többi nagy kereső is hasonló úton jár) megszerezte magának a kvantum-keresés jelentősebb kutatóit, elindultak az olyan discovery engine-ek mint a Prismatic és megszámlálhatatlanul sok startup próbálkozik a területen. A puding próbája az evés, vagy ahogy Tony Stark alias Iron Man mondja; "Sometimes you gotta run before you can walk"

Könyvismertető: Részeg bolyongás

Ez a könyv remek belépő olvasmány azok számára akiket érdekel a valószínűségszámítás és a statisztika. Személetesen, kb. elemi szintű matematikai háttértudást feltételezve vezeti be az olvasót a véletlenek világába.


Mlodinow stílusa nagyon érdekes. A legtöbb ismeretterjesztő könyvvel ellentétben a Részeg bolyongás több mint egy értelmezési keret. Persze senki sem válik szakértővé elolvasása után, de az első fejezetek alkalmasak arra, hogy a fejünkbe véssük a három legalapvetőbb törvényt. A Bayes-tételt és a kombinatorikát már nem ebből fogjuk megtanulni, de nagyon szemléletes bemutatásuk ad egy amolyan intuitív érzést, ami később jól jöhet. A könyvet tkp. végigvezet minket a valószínűségszámítás történetén, de ez csak a háttér. Sok szemléletes példával mutatja be a szerző a valószínűségszámítás három alaptörvényét, Bayes tételét és ezek alkalmazását az élet legfurább területein. Pár fejezetben a statisztikát is érinti, de itt inkább csak jelezni tudja a kapcsolatot és nem mutatja be olyan szemléletesen a dolgokat, hogy meg is lehessen érteni a mögöttük rejlő gondolatot. Kifejezetten szórakoztató, hogy a szerző időről-időre emlékeztet minket arra, hogy hiába tudjuk jól a valószínűség matematikáját, Kahneman és Tversky kutatásai bebizonyították hogy mindennapi döntéseik során nem ezekre támaszkodunk.

A fordító és a lektor remek munkát végzett, pár ponton ui. érezhető hogy az eredeti mondat félreérthető, de megjegyzéseiknek hála a magyar olvasónak nem kell időt pazarolnia a helyes megfejtésre. Szintén akadt pár tárgyi tévedés a szövegben, amit lefordítottak, de zárójelben jelezték a tévedést és annak pontosítását.

A könyvet haszonnal forgathatja az, aki csak szeretne futólag megismerkedni a valószínűségszámítással. Ugyanakkor szerintem kifejezetten hasznos lehet a humán- és társadalomtudományok felől érkezők számára mint amolyan kedvcsináló is. Az öreg rókák számára a történeti kontextus és a sok alkalmazási példa miatt lehet érdekes a kötet. 

2013. február 13.

Technikai e-könyvek

A legtöbb tanulmány és technikai jellegű könyv manapság pdf formátumban érhető el. A jelenleg elérhető olvasók többségén azonban a pdf nem mutat jól. Így, vagy laptopon, vagy táblán szokás ezeket olvasni. Ez egyben azt is jelenti, hogy lemaradunk az olyan kényelmi szolgáltatásokról mint a Whispersync és a Whispersync for Voice és gyakran sokat kell várnunk a beszerzéssel is. Eddig kételkedtem abban, hogy az egyenletekkel és szimbólumokkal teli kötetek élvezhetők lehetnek ezen a platformon, de Paul J. Nahin The Logician and the Engineer című könyvét olvasva megváltozott a hozzáállásom. Most nem könyvismertető következik (arra is hamarosan sort fogok keríteni), hanem élménybeszámoló az Amazon-kompatibilis technikai könyvek olvasásáról.

2013. február 8.

Neked a divat mondja meg

Peter Elias 1958-as IRE szekesztői írása, Two Famous Papers, remek humorérzékkel mutatja be, mennyire rá tudnak kattani a kutatók egy-egy új elméletre. Ez akkoriban épp az információelmélet volt, de Norvig hírhedt esszéje nyomán tudjuk, ez ma sincs másképp. Persze ne legyünk igazságtalanok, hisz tudjuk, Shannon neves tanulmányában is szerepelnek nyelvi példák. De az adatok tényleg az elméletek végét jelentik, ahogy az Chris Anderson gondolja?

Pókok, zene és kategóriaelmélet

Vegyünk először egy példát teljesen más területről. A pókháló régóta izgatja a tudósok fantáziáját, mivel rendkívül erős anyag. A pókot tekinthetjük egy függvénynek, ami proteineket képez le proteinkre (a bemenete a táplálék, a kimenete a pókháló). A mesterséges pókháló megalkotása során a TR cikke szerint (amit erősen ajánlok az olvasók figyelmébe) általában próba-hiba módszerre alakítják át a proteineket. Gondolom azért a kutatók intuíciója és a kísérleti adatok erősen behatárolják, hogy hol alakítanak a proteineken. Markus Buehler csapata más utat választott. A kategóriaelmélet keretében írja le a pókok működését (a "pók függvényt"). Így katak egy általános absztrakt nyelvet. Ezek után az eddigi megfigyelésekre alapozva kiválasztották a legígéretesebb struktúrákat, majd  arra kértek zenetudományi szakembereket, hogy komponáljanak melódiákat a meghatározott kategóriákra alapozva. Észrevették hogy bizonyos mintázatok erős, mások gyenge mesterséges pókhálóhoz vezetnek és az ezekhez kapcsolódó zenei mintázatokban is szisztematikus különbség fedezhető fel. A következő lépésben arra kérték a zenészeket, hogy az erős hálókra jellemző mintázatok felhasználásával írjanak variációkat. Az eljárástól azt remélik, hogy a művészek kreativitása sok kipróbálásra érdemes mintázatot generál, olyanokat is melyekre a mérnökök és a matematikusok nem is gondolnának. 

"Marginal Improvements"

Az adatok korában hihetetlen dolgok történnek, ez nem kétséges. De vegyük észre, nem történik minőségi változás a felhasznált elméletkben. Persze egyre több terület válik adatvezérelté és ott, ahol ez bekövetkezik ez forradalminak hat. De mennyire jó ma egy POS-tagger, egy NER rendszer? Minden paper min. 85%-os pontosságot ígér, de a 98-99% sem ritka - persze ipari alkalmazás közben gyakran kiderül hogy nem ennyire rózsás a helyzet.

 

A legtöbb fejlesztés ma nem más mint kaparás egy-két százalékért. Ezt nem szabad lebecsülni, az ilyen marginális fejlődések nagyon fontosak. Tim Harford Pop-Up Enconomics podcastjában nagyon szemléletesen mondja el miképp szerzett olimpiai aranyakat a UK-nek Matt Parker és csapata avval, hogy odafigyelt minden kis apróságra ami javíthatja a versenyzők eredményeit. (Kicsit bővebben erről a The Independent-en) De meddig vihető el az ilyen aprólékos munka?

 

Physics envy

A legtöbb tudomány nem tud elszakadni a fizikától. Az az igazi tudomány, ami összekapcsolja az elvont matematikát a való világgal - minden magára adó tudósnak követnie kell ezt az utat. Nincs is ezzel semmi baj, nem árt ha inspirálódunk máshonnét. A manapság divatos data science és úgy általában az adatfüggők azonban le vannak maradva, a mai fizikában nem annyira comme il faut amit ők csinálnak.

Lassan, de biztosan kifejlődőben van egy új irányzat, ami a kvantumfizika és a kategóriaelmélet fogalmi hálójával próbál megmagyarázni bizonyos jelenségeket. Őket még nem fenyegeti az Elias által kifigurázott túláltalánosítás veszélye (de ha sikerül átjutniuk a mainstream-be, akkor lefogadom ez is megtörténik) és rendkívüli kreativitás szabadítanak fel interdiszciplináris megközelítésükkel. A minőségi ugrást most tőlük várjuk.

2013. február 7.

CILC 2013

Megtisztelő, hogy a CILC 2013 elfogadta absztraktomat. A Corpus and ICT trackben fogok beszélni a korpuszok ipari alkalmazhatóságáról és az adatgondozás (data curation) szerepéről. Szerencsére egyre több remek eszköz áll rendelkezésünkre és az elérhető korpuszok száma is szépen növekszik, azonban az ipar és az akadémia nem igazán talál egymásra eltérő igényeik miatt. Az előadásommal pár ipari példa alapján arra szeretnék ösztönözni mindenkit, hogy az akadémiai kreativitást ötvözze az ipar pragmatikusságával.

2013. február 5.

inkLink 2013

Ahogy a Nyelv és Tudomány portálon is megjelent, április 6-án tartjuk az első magyar adatújságírás-napot. Ehhez kapcsolódik egy hack-day, ami remek alkalom egy kis programozásra a köz érdekében. Holnap (2013. február 6-án) 18:30-kor várják bloggertársaim az érdeklődőket egy kis informális meetupra és ötletelésre a Könyvtár Klubba (ELTE, Múzeum krt. 4.) Kérünk mindenkit hogy részvételi szándékát az esemény oldalán jelezze, ezzel is megkönnyítve a szervezők munkáját.
Aki szeretne bekapcsolódni a munkába, az nyugodtan jelentkezzen nálunk. Szponzornak lenni jó! Bármilyen támogatást szívesen fogadunk! Az alábbi felhívásokat nem tudjuk elégszer elismételni:

Szakemberek és újságírók!

Ha szeretné elmondani véleményét, tapasztalatait az adatvezérelt újságírással kapcsolatban, esetleg témaötletet ajánl a beszélgetés résztvevőinek, illetve ha szeretne megjelenni a rendezvényen, kérjük, azt a szerkesztoseg@nyest.hu címen jelezze. Kérjük, az email tárgymezejébe írja be: „inkLink 13” és március 18-ig juttassa el hozzánk jelentkezését.


Fejlesztők!

A hack-day keretében megvalósíható ötleteiket 2013 március 18-ig a zoltan.varju@gmail.com címre kérjük elküldeni (a tárgy mezőbe csak annyit írjon, „inkLink 13”). Maximum egy oldalban írja le a projekt célját, milyen hátterű önkéntesekkel tartja megvalósíthatónak és hogy ön miben tudja segíteni a csapatot a hack-day során (elsősorban szakértelemre gondolunk itt). A bérkezett ötletek közül a szervezők és szakértők csapata választja ki a legjobbakat és reálisan megvalósíthatókat. A nap végén a résztvevők kiválasztják azt a projektet, mely a leghasznosabb és leginkább érdemes arra hogy az OpenNews source programjára jelentkezzen és további fejlesztéséhez támogatást nyerhessen.