2012. szeptember 26.

Vigyázzunk a big datával

Mostanában big data van mindenol. Most fejeztem be a How Data Science is Transforming Health Care c. rövid (és ingyenes!) könyvet. Arra gondoltam hogy jó lehet technokratának lenni, de ne zárjuk be a bölcsészkarokat, sőt próbáljunk azért pár társadalomtudóst is kinevelni a meglévők pótlására mert nélkülük nagy bajban leszünk. Hogy miért? Attól hogy egyre több adat áll rendelkezésünkre hála az open government data mozgalomnak, egyre nagyobb teret nyerhet az ún. evidence-based policy-making irányzat. Ahogyan arról már megemléketünk a blogon, a pénzügyi szférában egyszer már lejátszódott valami hasonló őrület, és Félix Salmon díjnyertes cikke és  a már szinén ajánlott Quants című film is jól bemutatja (nem beszélve az elhúzódó válságról amit mind nyögünk) hogy akármilyen robusztus, szofisztikált és egyéb trendi jelzővel ellátott modellünk is van, az bizony tévedhet. Scott E. Page Model Thinking kurzusa zseniálisan mutatja be a ma alkalmazott modelleket, az alábbi videó első részében szépen sorba veszi az evidence-based irányzat elleni érveket, ill. beszól a big data modell ellenességének is. 

2012. szeptember 25.

Filmajánló: The Thinking Machine (1961)

Ez a filme igazi csemege! 1961-ben az MIT centenáriumára készült, öt évvel a Dartmouth konferencia után. Éppen csak nevet adtak a gyereknek a kutatók, de már látják a közeli jövőt teli robotokkal, gépi fordítással és minden más nyalánksággal. A szereplőgárda erős; Claude Shannon, Jerome Y. Lettvin, Douglas T. Ross, Ronald Melzack, Arthur L. Samuel és Barbel Inhelde. Egyszerre érdekes, mint tudománytörténeti csemege és vicces mint egy retró film.

 

2012. szeptember 24.

Számítógépes nyelvészet a Kutatók Éjszakáján!


Jövőhét pénteken (2012.09.28) a Kutatók Éjszakája rendezvény keretében az MTA SZTAKI Nyelvtechnológiai Csoportja (http://hlt.sztaki.hu) is bemutatja legújabb fejlesztéseit

"Miből lesz a robot-MÁV-pénztáros"


címmel.


A demóval egybekötött előadást az este folyamán kétszer, 18-19 óráig és 22-23 óráig lehet megtekinteni a SZTAKI főépületében (1111 Budapest, Kende u. 13-17, térkép: http://goo.gl/maps/ZyDCK).

A részvétel ingyenes, de a szervezők kérik, hogy a látogatók előzetesen regisztráljanak, ez az alábbi linken végezhető el:
http://www.kutatokejszakaja.hu/2012/esemenynaptar/esemeny.php?id=635

Jelentkezzetek, gyertek, és hirdessétek az eseményt ismerőseitek körében is!

A tartalomról:

Az interaktív bemutató a Nyelvtechnológiai Csoport emberi nyelven vezérelhető robotjának különleges világába kalauzolja az érdeklődőket. A fejlesztés lehetővé teszi, hogy a rendszert valódi, hétköznapi feladatok végrehajtására is alkalmassá tegyék a SZTAKI kutatói: a címben szereplő robot-pénztáros 2012-re már valósággá vált. Ha arra vagyunk kíváncsiak, mikor indul vonat Budapestről Szegedre, netán menettérti nyugdíjasjegyet szeretnénk venni Kecskemétre, a számítógép immár képes megérteni az emberi nyelven megfogalmazott kérést. A feladat nehézsége a lehetséges kérések sokféleségében rejlik: ahhoz hogy esélyünk legyen megérteni egy szabadon megfogalmazott utasítást: "Felsőgödig kérek egy egészet."), a háttérben párhuzamosan kell futnia többféle nyelvtani elemzőnek, adatbázislekérdezőnek és következtető rendszernek.
A Kutatók Éjszakáján a látogatók először rövid bemutatkozás keretében megismerkedhetnek a Nyelvtechnológiai Csoport tagjaival és tevékenységével, majd előadást hallhatnak arról, milyen elemekből épül fel egy természetes nyelvi megértő rendszer. Választ kaphatnak arra, miben kevesebb és miben több a SZTAKI rendszere az IBM-nél kifejlesztett Watsonnál, aki emberi ellenfeleit is legyőzte egy amerikai kvízjátékban. Szó lesz arról, hogyan változtathatják meg a szemantikus technológiák a mindennapjainkat és hogy mit is jelent a sokat emlegetett szemantikus web fogalma. Végül a látogatók működő rendszereinket is megtekinthetik, valamint lehetőségük nyílik megszólítani a robot-pénztárost. Noha a számítógépet egyelőre még könnyebb zavarba hozni, mint a pályaudvarról ismert hús-vér kollégáját, remélhetőleg sikerül megmutatnunk, milyen lépéseket tettünk már eddig is egy a korábbiaknál rugalmasabb, általánosabb mesterséges intelligencia megalkotása felé.
(Forrás: http://www.kutatokejszakaja.hu)

2012. szeptember 21.

New confirmed speaker: Zoltan Toth, Pig: The Good Parts

Our new speaker is Zoltan Toth. Zoltan is a Senior Data Scientist at Prezi (the flagship of the Hungarian startup scene) and he is going to speak about his experiences with Pig.

Pig: The Good Parts
Apache Pig is a platform built on top of Hadoop that helps you quickly analyze large unstructured datasets. 
Experience and challenges: a hands-on introduction to Pig through a Prezi case study.
Short BIO
Prior to joining Prezi I worked as a developer for pharmaceutical market research companies. Now, as Senior Data Engineer, I help Prezi arrive at data-driven decisions. 

2012. szeptember 18.

Scientific computing vs software engineering

Az nlp, a gépi tanulás és a legtöbb analitikai perverzió tkp. alapkutatásokból nőtte ki magát és mostanában kezd igazán teret nyeri az iparban. A hagyományos shopokban kialakult egy már nagyon jól működő praktika a software engineering, ami a tervezéstől a minőségbiztosításon át a projektmenedzsmentig mindent lefed. Persze nincs általános csodaszer és vannak metodológiai viták, de a bevett gyakorlatok kialakultak. A scientific computing ellenben nagyon más utat járt be. Az olyan startupok és érettebb cégek sikerei mint pl Prismatic, Factual, Silkapp, Twitter azt sugallják hogy a funkcionális nyelvek segítségével hatékonyan alkalmazhatók az iparban is a scientific computing eredményei. Ez azonban csak a hipotézisem, melyet alábbi olvasmányaimra alapozok. A következő pár hónapban remélem sikerül pár cégnél és kutatóhelynél személyesen is kérdőíveznem, strukturált interjúkat folytatnom a témában. Ha lenne javaslatot további szakirodalomra, vagy ismersz olyan céget/kutatóhelyet ahol funkcionális programozási nyelvet használnak, kérlek írj nekem a zoltan.varju(kukac)gmail.com email címre.

Mitől kutatás-vezérelt valami, hogy kerül a tudományos módszer ide?
Scientific computing vs software engineering
Ellenvetés - avagy a "klasszikus" háttérrel rendelkezők idegenkedése a (kvázi-) funkcionális paradigmától
Proofs are programs - avagy miért a funkcionális nyelvek
Product design, stb.
Hogyan vizsgáljuk meg a helyzetet és készítsünk tervet a jövőre?

2012. szeptember 17.

2012. szeptember 12.

Olvasónapló #2 - Computational Social Science

Egyre inkább úgy gondolom hogy a számítógépes nyelvészet egyfajta szolgálóleány. Egy-egy új eljárás lényege általában az hogy valami más terület számára megnyissa az elemzés lehetőségét. Pl. a sentiment analysis, a szövegbányászat, tartalomelemzés stb. mind erről szól. Ennek alkalmazott vetülete az üzleti intelligencia és az adattudomány, valamint a marketing. Sokkal izgalmasabb és nagyobb gyakorlati haszonnal kecsegtet szerintem ha nem ezekre fókuszálunk, hanem  a társadalomtudományokra.

 

2012. szeptember 10.

A huNLP levelezőlista

A hazai NLP közösség hatékonyabb információcseréjének érdekében néhány hónapja létrejött a huNLP levelezőlista, melynek tagjai nyelvtechnológiával kapcsolatos híreket, felhívásokat, közérdekű információkat oszthatnak meg egymással. A már közel 150 fős közösséghez bárki csatlakozhat, csupán egy üres emailt kell küldenie a hunlp+subscribe@googlegroups.com címre. A csatlakozást követően a listára korábban küldött üzenetek is elolvashatók.

NLP matiné

Október 19-én tartjuk első NLP matinénkat, melynek célja hogy a nyelvtechnológiai cégek röviden bemutatkozhassanak egymásnak, a potenciális ügyfeleiknek és természetesen a nagyérdeműnek. Regisztálj a meetup oldalon, ha szeretnél részt venni! A program dióhéjban:

Ha nyelvi, nyelvtechnológiai megoldásokat kínálsz, vagy szükséged lenne számítógépes nyelvészeti szakértelemre, gyere el!
Egy ötperces előadásban bemutathatod céged (jelentkezni a zoltan.varju(kukac)gmail.com címen lehet)- a bemutatók után pedig kötetlenül lehet kérdezni és ismerkedni.

2012. szeptember 8.

Book review: Introducing Regular Expressions

This title simply does what its title suggests; it introduces novices into regular expressions. The book is short, but informative, and it tries to be as language independent as possible.



Expect short, pragmatic chapters on very basic topics. The explanations are pretty clear and easy to follow. The accompanying github repo contains all the files you need to follow the examples - and you should download those files and try out the online tools and unix utilities. This title is using a typical learning by doing approach, you won't get much theory on the background.

Each chapter ends with a technical notes section in which you can find information about the tools used in the chapter. The Appendix and the Regular Expression Glossary are pretty good for further references.

I'm sure a novice becomes a well-grounded beginner after working through this book.

2012. szeptember 7.

Filmajánló: Freakonomics: The Movie

Térdig gázolunk a big datában, de sokszor úgy tűnik hogy az adatok begyűjtése mellett elsikkad a kreatív elemzés. A társadalomtudományoktól van mit tanulnunk ezen a téren. Levitt és Dubner sikerkönyve a Freakonomics és annak folytatása a SuperFreakonomics remek példája annak miképp is lehet az adatokból érdekes válaszokat kinyerni. A dokumentumfilm nagyon élvezetesen mutatja be ezt a folyamatot, de természetesen nem megy bele annyira a részletekbe mint a könyv. Hétvégére viszont remek néznivaló a Freakonomics! Nem maradunk nyelvi vonatkozások nélkül sem, a nevek és az éves jövedelem közötti összefüggések vizsgálata minden szociolingvisztika iránt érdeklődő kolléga szívét meg fogja dobogtatni.


2012. szeptember 6.

A Hauser affér

Valamikor 2003-ban olvastam anno a mára csak HCF néven elhíresült The Faculty of Language: What Is It, Who Has It, and How Did It Evolve tanulmányt és ismertem meg Marc Hauser nevét. Ez volt a nagy biolinguistics hype kora, én is felültem rá és pár évig nyelvészeti érdeklődésemet teljesen lekötötte a rekurzió eredete és természete. 2007-ben már nem foglalkoztam a témával, de egy barátom révén elért a Hauser ellen indított vizsgálat híre. Ekkor még azt gondoltam, hogy ha követett is el hibát, az nem lehet lényeges - egy kis gond ui. mindig akad az adatokkal  egy empirikus vizsgálatnál. 2010-ben azonban a The Chronicle részletesen foglalkozott a vizsgálattal és már lehetett látni hogy valami nagyon nincs rendben, a kísérletek manipulálása mellé már a plágium vádja is bekerült. Most úgy tűnik véget ért a vizsgálat, Hauser is elismerte hibáit, de ezzel egy szerintem nagyon fontos kutatási irányzat diszkreditálódott és került a margóra.

2012. szeptember 1.

NLP Meetup: Enterprise Search - Hadoop - Data Mining, Sept. 26 18:00 @ Colabs

Our next meetup will be held on Wednesday, 26. September 2012, at Colabs. We start at 18:00 and we are going to see pretty interesting presentations given in English. We have two confirmed speakers so far, check out the meetup site for further updates. Although the event is free and there is no attendee limit, please register on meetup site and RSVP.