2011. május 28.

Chomsky, Norvig és a tudomány

Peter Norvig a Google tudományos guruja, a legszélesebb körben használt mesterséges intelligencia tankönyv szerzője, a NASA volt kutatója, a Lisp közösség csodált vezéregyénisége tegnap úgy érezte hozzá kell szólnia Chomsky megjegyzéséhez, amiről már a Chomsky és a statisztika írásunkban szóltunk. Norvig érvei súlyosak, és bevallom nem akarom mentegetni Chomsky megjegyzését - amit nem is tudok hova tenni, én sokkal inkább úgy gondolom hogy a cikk írója nem értett valamit, vagy az öreg unta már a konferenciázgatást - de úgy gondolom hogy csúsztatás figyelhető meg az érvekben.

2011. május 27.

Lapszemle

Ezen a héten nem kényeztettük el olvasóinkat, de megnyugtatunk mindenkit hogy ennek nem csak az az oka hogy egyéb elfoglaltságaink elszólítottak minket a blogolástól és vendégeskedtünk is francia kollégáink oldalán - hamarosan két nagyon érdekes poszttal jelentkezünk; az egyik a digitális bölcsészet ún. computational history irányzatát mutatja be, a másik pedig a lean startup mozgalom egyik jeles magyar figurájának írása, reméljük megéri várni ezekre. Addig pedig hogy senki ne maradjon olvasnivaló nélkül, most egy kicsit több cikket ajánlunk. Továbbra is ajánljuk magunkat, a szamitogepesnyelveszet.tumblr.com oldalon naponta közreadjuk hogy mit olvasgatunk, illetve várjuk ajánlásaitokat a szamitogepes(pont)nyelveszet(kukac)gmail.com címre. (Technikai probléma miatt nem Enci neve alatt jelent meg a poszt)

2011. május 23.

Wikipedia API – sok szöveg, gyorsan, tisztán

Már volt szó korábban az API-k használatáról a New York Times és a Guardian adatai kapcsán. Az API (alkalmazásprogramozási interfész) egy olyan szabványosított felület, amin keresztül hozzá lehet férni egy másik program funkcióihoz – anélkül, hogy részletesen ismernünk kéne azok működését. Minket ez elsősorban a webes alkalmazások miatt érdekel : sok oldal lehetővé teszi, hogy megkerülve a webes felületet férjünk hozzá az adatokhoz, vagy akár interakcióba lépjünk velük (közismert példa a facebook-os alkalmazás).
A Wikipedia is szabadon hozzáférhető a web megkerülésével, és ez valójában mindenkinek jó: a fejlesztők pontosan olyan adatokat kapnak, amilyet kívánnak, a Wikipedia szervereinek pedig nem kell azon erőlködniük, hogy emberi fogyasztásra alkalmassá tegyék az adathalmazt (ezzel csökken a terhelés). 

2011. május 20.

Lapszemle

Továbbra is várjuk észrevételeiteket és ha egy jó hírre bukkantok, nyugodtan küldjétek el nekünk a szamitogepes(pont)nyelveszet(kukac)gmail.com címre. Hét közben a szamitogepesnyelveszet.tumblr.com oldalon megosztunk mindent újdonságot, érdemes ott is követni minket.


2011. május 17.

Számoljunk magyar nyelven

Következő írásomban magyar nyelven megfogalmazott alapvető számítási műveletek felismerésére és elvégzésére fogjuk megtanítani a számítógépünket. Az összeadás, a kivonás, a szorzás műveletét lesz képes felismerni és megadni az eredményt magyar nyelven. A tanításhoz a szabályalapú megközelítést fogunk használni és a Prolog programozási nyelvet.


2011. május 16.

Útikönyvek az algoritmusok világába - ahogy megígértük

A Legyél te is számítógépes nyelvész posztban megígértük hogy megpróbálunk olyan anyagokat is ajánlani melyek segítenek belépni az algoritmusok gyönyörű világába. Azonban figyelmeztetni kell az olvasót hogy ha hátizsákos turistaként maga szervezi meg az utazást nagyon sok kellemetlenséggel találkozhat, gyakran el fog akadni és néha idegen, fura nyelven beszélő emberek jóindulatára lesz utalva, és soha nem fogja tudni hol éri az este. Ellenben rengeteg élményben lesz része, és ahogy egyre több tapasztalata halmozódik fel, egyre jobban fogja érteni magát és az őt körülvevő világot. Mielőtt azonban elindulnál győződj meg arról hogy minden benne van-e a hátizsákodban (a fent említett poszt ebben segíthet neked)!


2011. május 14.

Lapszemle

A blogger szerencsésen elhárította a problémákat és minden posztunk visszakerült a helyére :D Ilyen előfordul néha, de hát egy ingyenes szolgáltatás esetében ezt elviseli az ember. Két hete mi magunk okoztunk egy kis üzemzavart, de reméljük most már minden megy a maga megszokott útján. - Sokszor megkapjuk hogy x hírt, y posztot, vagy z tanulmányt miért nem tettük be az ajánlóba, nos nem jut el minden hozzánk, de ezen segíthetsz! Ha nem akarod hogy valami kimaradjon, küld el a szamitogepes(pont)nyelveszet(kukac)gmail.com címre!

2011. május 12.

Formabontás a „két kultúra” ellen

Péter Rózsa a Játék a Végtelennel című könyvét ajánlom, és bemutatom az ott felvázolt gondolatmenetet, ahogyan egy vers fordításából, egy mondatából, eljuthatunk a modern nyelvelméletek egyik fontos és vizsgált nyelvtípusához, a környezetfüggetlen nyelvtanokig.

Tanulmány-ajánló: Opinion Mining and Sentiment Analysis

Nemrég, Margueritte Leenhardt vendégposztjában volt szó az érzelem-elemzésről. Ő is megemlíti Bo Pang és Lillian Lee igen népszerű tanulmányát. A remek anyag szerencsére ingyenesen elérhető az interneten; most kedvcsinálónak hozzá egy rövid ismertető következik.

2011. május 11.

Chomsky és a statisztika

Nem rég az MIT symposium Brains, Minds and Machines konferenciáján vitatták meg a terület nagyágyúi hogy miért rekedtek meg a mesterséges intelligencia kutatások az ötvenes évek kezdeti sikerei után. Csak úgy röpködnek a nevek az esemény körül, Sydney Brenner, Marvin Minsky, Steven Pinker, Noam Chomsky, Barbara Partee, Emilio Bizzi és Rodney Brooks hogy csak az ismertebbeket említsük visszasírták a kezdeti évek kreativitását és nagyravágyását. A (számítógépes) nyelvészek közösségét azonban megragadta Chomsky egyik  probabilisztikus/statisztikai módszer-ellenes gondolata. A Replicated Typo-n Hannah Little "Chomsky derides purely statistical methods" posztjában csak kérdésként fogalmazta meg hogy mit gondol erről a szakma és nagyon érdekes reakciók érkeztek...

Kalandozások a számítógépes nyelvészet területén - olvasóink élménybeszámolói

Három olvasónk vállalkozott arra hogy megosztja mindenkivel kalandozásait a számítógépes nyelvészet területén. A személyes tapasztalat reméljük segít másoknak is elindulni, végig gondolni saját hátterét és igényeit. Több út vezet a Nirvánába, ezt nem szabad elfelejteni, a beszámolók célja megmutatni milyen lehet ez az út egyes konkrét esetekben, Zoli Legyél te is számítógépes nyelvész posztja pedig jó kiindulópont ha már tisztában vagy magaddal. A levélrészleteket megszerkesztettük, az szerzőkről csak annyi információt közlünk amennyit engedélyeztek. Anna, Kátya, Bence - Köszönjük!

2011. május 6.

Lapszemle

Ezen a héten végre szóltunk a sentiment analysis-ről is - már annyian kérték hogy nem kerülhettük meg a problémát. Ha minden jól megy, akkor fogunk még írást közölni a témában. Miközben Zoli ismét metodológiai vitába bonyolódott, én arra gondoltam hogy bővíteni kellene a Lapszemlét videók ajánlásával, elvégre hétvégén nem biztos hogy csak olvasni akar az ember.

2011. május 4.

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

A guest post by Margueritte Leenhardt



Context

For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

2011. május 3.

Legyél te is számítógépes nyelvész - tíz év alatt

Úgy néz ki hogy májusban megszaporodnak a levelek melyekben arról érdeklődnek a kedves olvasók hogy miképp is válhat valaki számítógépes nyelvésszé. Ahhoz hogy valaki szakértő legyen egy területen, kb tíz év gyakorlás és gyakorlat szükséges (l. Norvig Teach Yourself Programming esszéjét vagy Mérő László Mindenki másképp egyforma könyvét), rossz hír hogy az interdiszciplináris területeken talán több is. Jó hír viszont hogy ezt egyáltalán nem kell úgy érteni hogy ennyi időt kell az iskolapadban eltölteni (habár ha egy PhD-t bevállal valaki, akkor nyolc kellemes évet tölthet el a felsőoktatásban - talán nem véletlenül). Tovább bonyolítja a helyzetet hogy a számítógépes nyelvészet területére különböző hátterű emberek érkeznek ezért nincs egységes recept. Blogunkon megpróbálunk olyan forrásokat is bemutatni amik segíthetnek az érdeklődőknek, most ezeket szedegettem össze és megpróbáltam egy egységes keretbe foglalni hogy ki-ki megtalálja a maga forrásait útja elkezdéséhez.


2011. május 1.

Látni a szöveget


A szöveges adatok vizualizációjáról már többször volt szó itt a blogon is (itt és itt). Kétségtelen, gyönyörű képeket lehet generálni, ám mindig felmerül a kérdés, mire jó a dolog… Zoli szerint például arra, hogy ha kellően nagy adathalmazon végzünk elemzést, akkor gyakran sokkal többet mond nekünk egy ilyen kép mint maga a leíró statisztika, jobban érthető egy történet képpel illusztrálva, mint a száraz számokkal. A legtöbb megoldás (szó-felhő, szó-fa, szavak elosztása tengelyek körül) valóban csak arra szolgál, hogy segítse az emberi elemzőt, a gépek remekül megvannak képek nélkül, nekik minél szárazabb az adathalmaz, annál jobb. Látni az adatokat azért lehet hasznos, mert “kiugranak” az olyan tulajdonságok, melyekre egyébként nem figyelnénk fel; és ha már egyszer kiugrottak, lehet rájuk olyan szabályt írni, amely segítségével a gépnek is el tudjuk magyarázni. Ha nem tudjuk, hol kezdjünk hozzá egy feladathoz, érdemes lehet minél több mindent lerajzolni, előbb-utóbb biztosan észreveszünk valamit. Valami ilyesmire van kitalálva például a Many Eyes rendszer is.