2013. január 31.

Természetes nyelvi keresés, mobil és Graph Search

Mit tud és mit nem tud ma a Graph Search?
Graph Search can search the people, places, interests, and photos in your social network—but it can’t yet search status updates, comments, or Facebook’s Open Graph. [bővebben]
Milyen is lenne, ha ezeket tudná? [részletesebben a Kereső Világon]
Wonder by Yandex Labs from Maxim Grinev on Vimeo.

A Facebook mobilcéggé vált
A mobil platformokról bejelentkezők (havi 680 millió felhasználó, ebből 157 millió kizárólag mobilról jelentkezik be) száma óriásit nőtt, rájuk utalt Zuckerberg azzal, hogy mobilos céggé vált a Facebook. Na meg arra, hogy a hirdetési bevétel 23 százalékát a mobilos Facebook-verziókban megjelenő reklámok termelték, ami óriási szám ahhoz képest, hogy tavaly ilyenkor a mobilos Facebookon még egyáltalán nem is voltak reklámok. [bővebben]
Csak valahogy nem tud mit kezdeni evvel. Égető szüksége van mindenkinek arra, hogy a mobil keretei között fogalmazza újra az internetet. Az én szememben a Graph Search is egy kísérlet erre. Dicséretes hogy alapos nyelvészeti és pszichológiai vizsgálatokkal alakították ki a természetes nyelvi keresést. A korlátozott tesztüzem tapasztalataira alapozva bizonyosan valami nagyon jó fog ebből kisülni. Érdekes, hogy az Open Graph-ot használó Wonder-t mit konkurens eltiltották az API használatától.

Mindeközben a nyelvtechnológia
A Wonder a ma már mindenki számára elérhető Nuance beszédfelismerő API-t használja. Ennek segítségével egyszerűen, különösebb beszédtechnológiai szakértelem nélkül ma már fel lehet ruházni hangvezérléssel egy mobil alkalmazást. Az Open Graph, vagy éppen más linked data adatbázisok természetes nyelvi lekérdezése is megoldható a quepy framework-höz hasonló eszközökkel napjainkban. A Yandex ráérzett arra, hogyan is kell működni a közösségi média és a mobil korában egy keresőnek, a Facebook - habár mobilcéggé vált - még nem.

2013. január 30.

Whispersync for Voice

Tavaly szeptemberben indította be az Amazon a Whispersync for Voice szolgáltatást, ami szerintem minden rendes olvasó ember számára a világ egyik legjobb dolga. A The Economist kapcsán már megemlékeztünk arról, hogy sajnos egyre kevesebb idő jut az olvasásra, remek ötlet ha a tartalmat más módon is fogyaszthatjuk. Az Amazon eddig is szinkronizálta eszközeink között, hogy hol tartunk az adott szövegben, a Whispersync for Voice segítségével viszont lehetőségünk van váltogatni a kétféle modalitás között is!
Persze mindennek ára van! A hangos verziót meg kell venni az Audible áruházában, nem kapjuk meg az írott verzióval ingyen mint a The Economist esetében. Ellenben az ár bizonyos esetekben megéri. Itt nem a szép- és szórakoztatóirodalomra gondolok. Akadnak ismeretterjesztő és tényirodalomi és egyéb non-fiction címek is szép számmal a katalógusban. Ha szeretnénk naprakészek lenni, de állandóan harcolunk az idővel, nagyon jól jön ez a szolgáltatás! Eddigi tapasztalataim szerint a holtidő kihasználásával kb. fele/harmad időbe telik egy könyv "elfogyasztása".

A Kindle Fire tulajok pedig olvasás közben szimultán hallgathatják is a könyvet, ami számomra nagyon idegen élmény volt, de nyelvtanulóknak kifejezetten hasznos lehet.

A Whispersync for Voice az eddigi legjobb productivity tipp amit kaptam, csak ajánlani tudom mindenkinek. Szórakozásnak szerintem drága, de ha a szélesebb értelemben vett szakmai tájékozottsághoz szükséges olvasmányokra költ kicsit többet az ember, akkor már elfogadható hogy kétszer fizetünk a tartalomért. A Kindlevarázs blog nálam sokkal alaposabb posztban foglalta össze a tudnivalókat és leírja miképp lehet kipróbálni pár kötettel ingyenesen is a szolgáltatást. A technológia már csak azért is üdvözlendő, mert ismét bebizonyosodott, nem kell rögtön kvantumkeresést, topic modelleket és egyéb hókuszpókuszokat rászabadítani a szövegre. Néha elég, ha csak fogyaszthatóvá tesszük...

2013. január 28.

Adatújságírás hack-day - Van ötleted?


2013 április 6-án kerül megrendezésre az első magyar adatújságírás nap és hack-day.

A hack-day célja, hogy olyan, egy nap alatt kivitelezhető fejlesztést valósítsanak meg az önkéntesek, mely használható a sajtó munkatársai számára. Kizárólag nyílt forráskódú, szabadon elérhető program fejlesztésére van lehetőség a hack-day során!


Ehhez várjuk ötleteiteket 2013 március 18-ig a zoltan.varju(kukac)gmail.com címre (a tárgy mezőbe csak annyit írj, OpenNews). Maximum egy oldalban írd le a projekt célját, milyen hátterű önkéntesekkel tartod megvalósíthatónak és te miben tudod segíteni a csapatot a hack-day során (pl. első sorban szakértelemre gondolunk itt). A beérkezett ötletek közül a szervezők és szakértők csapata választja ki a legjobbakat melyek reálisan meg is valósíthatókat. A nap végén a résztvevők kiválasztják azt a projektet, mely a leghasznosabb és leginkább érdemes arra, hogy az OpenNews source programjára jelentkezzen és további fejlesztéséhez támogatást nyerhessen. 

Bővebben a rendezvényről

A Nyelv és Tudomány (Kincse Szabolcs) és az NLP meetup (Recski Gábor és Varjú Zoltán) szervezésében 2013 április 6-án kerül megrendezésre az első magyar adatújságírás nap és hack-day, a Knight-Mozilla OpenNews támogatásával.

Mi az az adatújságírás?
Az adatújságírás egy gyűjtőfogalom, ami lefed minden olyan digitális írást, ami adatvezérelt. Fából vaskarika is lehetne ez, de napjainkban egyre több adat keletkezik és szerencsére ezek egyre nagyobb része szabadon hozzáférhető. A Világbank, az EU, vagy éppen a KSH rengeteg adatot tesz közzé, de akad olyan város, ahol a tömegközlekedéssel kapcsolatos adatok (késések, jegyeladási adatok, stb.) valós időben nyomon követhetőek. A nyers adatok legtöbbünk számára nem sokat mondanak. Egy újságíró segítségével az adatok elmondhatják mi is van mögöttük és fontos összefüggésekre hívhatják fel a közvélemény figyelmét, mint pl a The Guardian beszámolói a 2011-es londoni zavargásokról. http://www.guardian.co.uk/news/datablog+uk/london-riots (Ha többet szeretnél megtudni az adatújságírásról, a szabadon hozzáférhető Data Journalism Handbook http://datajournalismhandbook.org/  a legjobb kiindulásipont)

Hogyan?
A rendezvény két párhuzamosan zajló eseményt takar. Az egyik teremben előadások zajlanak majd, a másikban pedig egy hack-day.

Az előadások során külföldi szakértők (The Guardian, European Centre for Journalism, Open Knowledge Foundation) mutatják be az adatújságírás gyakorlatát, valamint hazai médiumok  képviselői beszélnek saját kezdeményezéseikről.

2013. január 23.

Hunmorph-foma, új nyelvtani analizátor és generátor

Köszönjük Eleonórának hogy eljutatta hozzánk a hírt, egyben gratulálunk a fejlesztéshez!

Kész van az új magyar nyelvtani analizátor és generátor. A szabad forráskódú foma-t használja, mely nagyon hatásosan támogatja a magyar nyelv sajátosságait és teljes körű ragozását.

https://gitorious.org/ hunmorph-foma/pages/Home

 Lehozható vagy böngészhető a
https://gitorious.org/hunmorph-foma/hunmorph-foma/trees/master
url-ről. A doc mappában van egy magyar és egy angol leírás, amelyek elmagyarázzák, mire jó az eszköz, hogyan lehet használni, stb....

Én debián linuxon teszteltem, de futnia kell minden platformon, amit a foma támogat. (http://code.google.com/p/foma/  - a foma hazai oldala).

Az eszköz alkalmas:
  - helyesírás ellenőrzésre
  - fordítás támogatásra
  - szótövezésre
  - tetszőleges szövegek átformálására
  - korpuszok előállítására és analizálására
  - sok egyéb nyelvi célra...
Licensze: LGPL.

Nem minden a technológia

Néha a teljes technikai arzenál bevetése az ágyúval verébre tipikus esete. A The Economist megmutatta, a hókuszpókusz helyett a józan paraszti ész és a minőségi tartalom egyenes út a növekvő példányszámhoz, valamint az ezzel járó profithoz.



Az írott sajtóban, különösen a nyomtatott lapok esetében, bevett dologgá vált sírni a csökkenő olvasószám és az evvel együtt apadó hirdetési bevételek miatt. Sokan reménykednek abban, hogy az online megjelenés majd valamit visszahoz ebből és szerencsére még hazánkban is költenek a fejlesztésre ilyen téren. A szerencsésebb történelmi fejlődésű országokban igyekeznek újragondolni a történetmesélést a 21. század nyújtotta keretek között, ennek remek példája a New York Time Snowfall: Tha Avalanche at Tunnel Creek című riportja. Az adatújságírás meghatározó helyei, mint pl. a Guardian Datablog, vagy a Le Monde J'ai du bon data-ja pedig új színt visznek több műfajba is (pl. ismeretterjesztő, tényfeltáró, elemző cikkek).

Az olyan startupok mint a Prismatic és a Circa, azt remélik, hogy ha a sok tartalmat megszűrve és emészthetően juttatják el a fogyasztókhoz, akkor valamilyen módon a tartalomkészítők és a hirdetők között közvetítve pénzt láthatnak majd. Mind az ötlet, mind a megvalósítás zseniális technológiai szempontból. Mindkét cég nagy hangsúlyt fektet a design-ra, ami érthető. Mindketten az iPhone-t célozták meg elsőnek, egyrészt gondolom könnyebb egy zárt rendszerre konzisztens appot készíteni, másrészt talán az Apple fanboyok pénztárcája nagyobb. Mit hagytak ki a dologból? Engem és a többi olvasót!


A The Economist vette magának a fáradtságot és elgondolkodott azon, hogy miképp juttassa el a tartalmait az olvasóihoz. Az eredmény nagyon egyszerű, igazodni kell a felgyorsult élethez, elérhetővé kell tenni a lapot digitálisan, az adott platformra optimalizálva és fel kell készülni arra, hogy sok olyan helyzet akad, amikor fogyasztana tartalmat az olvasó, de nem tud olvasni (pl. vezetés közben, reggel álmosan a buszon, stb.) - ergo audio formátumban is elérhetővé kell tenni. Ja, és egy előfizetéssel minden kütyün elérhető a tartalom, nincs korlátozás! Reggel borotválkozás közben hallgatható, a reggeli mellett olvasható a print verzió, a buszon a mobilon lehet olvasni, séta közben megint hallgatni, este az ágyban tableten folytatni. Bővebben erről a médiablog posztjában érdemes olvasni.

A Snowfall kapcsán idehaza a legtöbb lap rögtön megjegyezte hogy az milyen drága, erre nekik nem futja. Ha nagyon néha felmerül valahol, hogy ideje lenne legalább kipróbálni az adatújságírás technikáit hazánkban is, rögötn annak magas költségeit hozzák fel. Mi lenne, ha nem a Digitalstand nagyon hülye, offline használhatatlan felületét neveznék innovációnak, hanem egyszerűen ügyelnének arra a hazai lapok, hogy fogyasztható is legyen a tartalom amit előállítanak? A felolvasás költsége a hazai piacon minimális, rögzítés pedig akár fapadosan is megoldható. Funkcionális, nem túlötletelt appok normális áron készíthetőek. Nem is értem, a legendásan furfangos, a hiánygazdaságban edződött magyar ész miért nem gondolt ilyen megoldásokra? A lecke annyi, hogy mielőtt elkezdünk gondolkodni azon, hogy a technika mi mindent is tud, használjuk előbb a józan eszünket!

2013. január 22.

Könyvismertető: Zénón és a teknősbéka

A kívülállók általában vagy lenézik és teljesen életidegen dolognak tartják, vagy pedig valami nagyon elvont, kevesek számára érthető dolognak tartják a filozófiát. Nicholas Fearn a híres UCL-en tanult filozófiát, de újságíró lett, majd pedig remek ismeretterjesztő könyveket kezdett írni a filozófiáról. Nem olyan elvont (és valljuk be, a legtöbb ember számára érdektelen) kérdésekről szól a Zénón és a teknősbéka mint a preszókratikus filozófia forrásai, vagy Hegel és Kant rendszeres összevetése, hanem a módszeres gondolkodás eszköztárát mutatja be a szerző.

  • Nicholas Fearn: Zénón és a teknősbéka
  • Akadémiai Kiadó, 2012
  • 240 oldal
Alapvetően mindenkinek csak ajánlani tudom ezt a könyvet. Aki arra vágyik, hogy olyan eszmetörténeti tudásra tesz szert segítségével amit kedvenc kocsmájábn villogtatva minden bölcsészlány és/vagy fiú beleszerelmesedik, az inkább máshol kutakodjon. Annak aki szeret gondolkodni a saját, vagy az őt körülvevő kisebb, nagyobb közösség életén, szereti nem csak elfogadni a dolgokat, hanem egy kicsit mögéjük nézni, aki elmélázott már azon hogy miért olyan biztos hogy 2+2 az négy, annak letehetetlen ez a könyv. 

2013. január 19.

Bölcsészek; kulcs a sikerhez

MIközben a magyar ugaron leépítik a humán- és társadalomtudományokat, addig a világ szerencsésebb felén azt láthatjuk, hogy a siker titka pont bennük rejlik. A kontinentális Európában mindenki vakargatja a fejét, ha valaki nem tradícionális háttérrel kerül az IT világába és elterjedt tévhit hogy kell pár jó mérnök, erős sales és marketing csapat, valami kis lean startup izé és veszik majd a terméket mint a cukrot. Érdekes megfigyelni, hogy az igazán sikeres vállalkozásoknál még egy összetevő akad, ez pediglen a bölcsészek.


Kezdjük Marissa Mayer BiblioTech előadásával. Röviden, Mayer a Stanford Symbolic Systems szakán végzett, erről kerül ki a Silicon Valley újítóinak java. A szakot a filozófia tanszék(!) igazgatja, a tantervben a kognitívtudomány, a nyelvészet, a filozófia és a számítástudomány egyenlő arányban jelen az alapozás során, majd lehet szakosodni. Külön érdekesség, hogy itt született meg a HCI mint külön terület. Mayer is kiemeli, hogy különösen hasznosnak bizonyult számára, hogy alapszinten megismerkedett az empirikus adatgyűjtéssel.


Damon Horowitz a Google-nél spéci titulust visel, in-house philosopher és director of engineering egyben. Horowitz egy kiemelkedően sikeres tech karriert hagyott ott, hogy a Stanfordon filozófiából szerezzen PhD fokozatot. Horowitz útja érdekes, hallgató korában kacérkodott a filozófiával, de mivel ott nem igazán találkozhatunk, inkább a konkrét megoldást kínáló mesterséges intelligencia felé indult. Sok sikeres vállalkozás után rájött, a mesterséges intelligencia nagyon behatárolt és nem tud mindent megoldani, ezért visszatért az origóhoz. Horowtiz mára visszatért a technológiához, de úgy látja, alapvetően megváltozott a hozzáállása. Az Aardvark közösségi kereső (social search engine) megalkotását is ezen élménye ihlette.


Ma a big data korában alapvető etikai kérdések is felmerülnek. Horowitz feladata a Google-nél részben az, hogy ezekkel is foglalkozzon.TED előadása rávilágít arra, hogy nem csak az a kérdés hogy mit csinálhatunk meg, hanem hogy meg kell-e tennünk azt amit a technológia lehetővé tesz.


Hamár a big data előjött, akkor érdemes elgondolkodni azon, hogy miről is szoktak szólni ezek az adatok. Általában emberekről - felhasználó és/vagy vásárlók néven is ismertek - akik megértésére bizony régóta törekszenek azok a fránya társadalomtudósok. Vassünk egy pillantást a Microsoft Research vagy a Yahoo! Research oldalaira és vegyük észre hogy a (computational) social science, (experimental) economics témák külön projekteket és kutatócsoportokat is megérnek. A data science közösség meghatározó emberei között sok társadalomtudós akad, gondoljunk pl. Drew Conway-ra és John Miles White-ra (az O'Reilly-nél megjelent Machine Learning for Hackers és Bandit Algorithms for Website Optimization siker könyvek szerzői). Mivel általában struktúrálatlan (szöveges) adatokkal dolgoznak a szakik, megnövekedett az igény az ún. data curation iránt. Ezt általában korpusznyelvészek végzik, jó példa erre a Factual.

A Lajtától nyugatra a Stanford Symbolic Systems programja mellett nagy hangsúlyf fektet az interdiszciplinaritásra többek között a CMU (mind a language technology, mind a philosophy, mind pedig a machine learning department) és az MIT Media Lab. Európai példák is akadnak, mint az amszterdami ILLC, a Saarbrücken-i Department of Computational Linguistics and Phonetics, a leuveni mesterséges intelligencia kutatók és a University of Endinburgh-ön a School of Informatics cognitive science képzése. A "sima" bölcsészeten belül is egyre elterjedtebb a digitális bölcsészet (érdemes megnézni Ted Underwood és Scott Weingart blogjait és a THATCamp mozgalom oldalát), a társadalomtudományok körében pedig megjelent a computational social science irányzat.

Nem szabad megfeledkeznünk az adatújságírásról sem. A Guardian Data blog, a New York Times graphics department, a Prismatic és a Circa mind-mind olyan mixet alkot és teremt valami újat, ami lehetetlen lenne a diszciplináris határok átlépése nélkül. 

A humán tudományokon nevelkedett szakemberek nem törnek a mérnökök és a üzletitudományok művelőinek babérjaira. Ezzel a kis írással csupán arra próbáltam rávilágítani, hogy helyük van minden olyan csapatban ami tényleg nagyra tör. Az igazi innováció átlép a bevett határokon, ebben segíthetnek a bölcsészek. Sajnos az angolszász kultúrkörön kívül nem igazán jellemző ez az interdiszciplinaritás, hazánkban pedig különösen elterjedtt a merev, poroszos tudományfelosztás még az amúgy magát haladónak gondoló tech világban is.

2013. január 18.

Facebook Graph Search

A héten jelentették be a Facebook Graph Search elindulását. A béta szolgáltatás csak kevés kiválasztott és gyorsan jelentkező felhasználóknak érhető el. Sőt - a Facebook oldalán is olvasható - kizárólag az Egyesült Államok területén, a US English felületet használók válhatnak béta tesztelőkké. Persze ez nem zavar senki abban, hogy véleménye legyen.

Kezdjük az amúgy általam nagyon kedvelt Webisztán "elemzésével".
A Facebook lényegi ereje, a felhasználók közötti ezerféle kapcsolódás a lájkok és egyéb információk révén nagyon jó támpont ahhoz, hogy szemantikusabb keresőt tudjanak építeni, mint ma a Google. Vagy legalábbis megpróbáljanak. 

Ez akár igaz is lehetne. Ne bonyolódjunk a szemantika szó kapcsán szemantikai vitákba, koncentráljunk a lényegre! A Facebook nem szemantikusabb a Google-nél még ebben az értelemben sem. A Google 2010-ben vásárolta meg a Metawebet, azóta van egy nagyon tuti, tényleg szemantikus adatbázisa, a Freebase. Ezen is alapul a Google Knowledge Graph, aminek az eredményeit mindenki látta már, a pici kis dobozokban amik jobb oldalt keretben jelennek meg bizonyos esetekben a találati oldalon. 

Persze valahogy a big data és/vagy az analitika is bele kell hogy kerüljön egy rendes tech posztba!
Ha idén még nem is kell feltétlenül azzal számolnunk, hogy a Facebook alapvetően megváltoztatja például a keresőoptimalizálásról alkotott képünket. De mindenesetre új horizontokat mutathat az analitikának, mely a nem olyan távoli jövőben már nem csak arctalan emberek által generált aktivitásokkal tud majd számolni, hanem nagyon is emberi jellemzőkkel. Úgyis mint a személyes ízléshez, preferenciákhoz, szakértelemhez, aktivitáshoz kapcsolódó információkkal. 

Ne legyünk igazságtalanok, a Facebook biztos elő fog jönni majd valami olyannal mint a Google Analytics meg a Trends - az az analitika. Amire a szerző gondolt, az az lenne, ami már a nagyoknak meg is van - a társadalomtudományi elemzők hada. Aki hosszú olvasmányra vágyik, annak ajánlom a Technology Review-n még a nyáron megjelent What Facebook Knows c. cikket. Lelövöm a poént, a Facebook a fenti szempontok szerint elemzi saját "kis" adatbázisát és igen, szeretne valahogy pénzt csinálni belőle. Vegyük észre, maga az idézett cikk a Graph Search előtt keletkezett, ez setetni engedi hogy az ilyen irányú kutatások már 2012 nyara előtt elindultak. Ez összecseng avval a ténnyel hogy mind a Microsoft, mind a Google (és még a Yahoo! is) tart pár társadalomtudóst. (L. Microsoft Research  a "Research Areas" és a "Research Groups" alatt találunk ilyeneket, a Google esetében meg Hal Varian a hasonló csapat sztárja)

Nézzük a következőt, az Onlinemarketing blogot. A Graph Serch-ről írt poszt kapcsán itt is találkozhatunk pár nagyon érdekes dologgal.

A természetes nyelvi keresésről.
Voltak, vannak kísérletek persze az ilyen típusú keresések feldolgozására, ott van ugye a Wolfram Alpha vagy éppen az Apple Siri-je, de ezek nem igazán terjedtek el a mindennapi használatban, hiszen bár demonstrálni tudták a megoldást, de nincs elég nagy adatbázis a háttérben.
Greg Ver Steeg, a computer scientist who studies social networks at the University of Southern California’s Computer Sciences Institute, is skeptical that users will want to spend much time feeding complex queries into Graph Search. “The really successful additions to social media are things that reduce your cognitive load, not add to it—things that make it easier and more automatic to find what you like,” he says.

Igen, attól hogy autoritásokra hivatkozunk, még éppen lehet a szerzőnek igaza. De gondoljunk bele, a Microsoft felvásárolta a Powerset keresőt, a lényeges megoldásokat integrálta a Bing-be és hagyta a fenébe a természetes nyelvi keresést. Ma az iparban bevett nézet, hogy az aki természetes nyelvi "question answering" témában mozog, az beszédtechnológia felé kacsingat. Ez pedig egyenlő a mobil iránnyal, mivel ott ez egy természetesebb interakciót tesz lehetővé és a technikai feltételek ha nem is tökéletesek, de már adottak. (Bővebben erről l. a Kereső Világon megjelent írásomat.)

Szakmázzunk tovább! A question answering általában tényanyagokon működik a legjobban, ez kb. köztudott tény a szakmában. És ebből ki is lehet találni, mindenki a Wikipedia feldolgozásával kezd ilyen rendszer kifejlesztésébe (bővebben a témáról a Kereső Világon). További tény, hogy gyakran csalás áldozata az aki természetes nyelven keres, hiszen ilyenkor gyakran kiszűrjük a tölteléket és csak a kulcsszavak maradnak a tényleges query-ben. Ezzel ellenben a vizsgált írás szerint:
A Google pedig egy érdekes helyzetbe került: az erősségük a meglévő, nyilvános weboldalak feldolgozása, azt tudják adni találatra, amit a weben meg lehet mutatni. És a weben nem nagyon van olyan szöveg, ami a fenti hosszú kérdésemet értené, hiszen a kritikák vagy éppen a filmleírások nem ilyen gondolkodásmóddal és tartalommal bírnak

Nem tudom kinek is hihetek... Talán maradok a kedvenc könyvemnél és elvetem a fenti állítást. Félve teszem még ehhez, a Google bizonyos esetekben "érti" mit kérdezünk tőle. A már említett Google Knowledge Graph-ról érdemes olvasgatni (igen, a Kerső Világon), továbbá érdemes egy kicsit a Google Now-val is ismerkedni ha már a témánál vagyunk!
De akkor mi van a Graph Search-el, hogyan működik, mit tudhatunk róla? A tény, hogy a Kereső Világon erre is megtalálható a válasz azt mutatja, az információ elérhető erről. Úgy látszik, a számítógépes nyelvészet és a keresés osztozik a nyelvészet sorsában; mindenkinek van véleménye róla. De a két tárgyalt posztról nekem egyik kedvenc témám, a "tudománytalan rokonítási kísérletek"  jutottak eszembe. A hobbi nyelvészek valamit hallottak arról, hogy hogyan hasonlítunk össze két nyelvet és egy-egy szóba, kifejezésbe csimpaszkodva kihozzák a sumér-magyar rokonságot. Általában ezek az alakok az önjelölt számítástechnikai zsenik is...

2013. január 16.

Könyvismertető: Facts are Sacred: The power of data

Azok, akik tudni szeretnék mi is az az adatújságírás, Simon Rogers - a The Guradian Datablog szerkesztője - ebben a kis könyvben megadja a választ. 

 

Igazából ott kell kezdenem, hogy ez a könyv, nem is könyv, hanem egy - jó magyar szó híjján - single, amit az Amazon Kindle Singles honosított meg mint műfaj. Tkp. cikknek hosszú, könyvnek meg túl rövid írást fed a szó, olyan mint a novella, de nem az. Minden esetre olcsó (3 dollár), kellemes olvasmány a Facts are Sacred. Első sorban újságíróknak és az érdeklődő közönségnek íródott, így (szerencsére) mellőz minden technikai részletet.

Rogers alapvető állítása szerint az újságíró továbbra is újságíró, azaz mint a negyedik hatalmi ág képviselője fontos kérdésekre hívja fel a figyelmet egy-egy sztorival. Azonban ma, az adatok korában új lehetőségek adódtak, melyeket ki kell használni. A könyvecske definíciók helyett példákat sorol fel arra, miképp lehet hasznosítani az adatokat. Amennyire előnye a példák bemutatása, annyira a hátránya is. Az utolsó "fejezet" nem más, mint linkek halmaza (és ezek között akad szép számmal olyan ami már nem él, vagy elköltözött - ezt egy e-könyvben lehetne frissíteni), amitől úgy érzi az ember hogy romlik a könyv ár/érték aránya. Ennek ellenére úgy gondolom, nem csak újságírók, hanem a big data téma iránt érdeklődők is sok hasznos információt tudhatnak meg gyorsan, emészthető fomában és olcsón a kötet segítségével.

 

 

Akinek 92 oldal sok arra, hogy megismerje az adatújságírást, annak ajánlom Rogers Anyone can do it. Data journalism is the new punk című cikkét, és Data-journalists are the new punks c. előadását (l. fent).

2013. január 11.

Miért unom a disztribúciós szemantikát?

Itt vannak a nagy adatok, hát vizsgálhatjuk a disztribúciót orrvérzésig. Firth disztribúciós hipotézisével amúgy nincs baj, Wittgenstein is kacérkodott valami hasonlóval. A másik oldalon ott van a Frege-elve, avagy a kompozícionalitás. Persze szokták mondani hogy a formális szemantika nem más mint "exercise in typesetting". De valahol érezzük, hogy egyik elvvel sem mehetünk el a falig. További érdekesség, hogy nem mondanak egymásnak ellent, a disztribúció a szavakra vonatkozik, a kompozícionalitás pedig az összetett kifejezésekre.

Szerencsére vannak, akik ezt tovább gondolták. A Compositional and Distributional Models of Meaning néven futó kutatási program a University of Oxford vezetésével a kvantum-információelmélet és a kategóriaelmélet segítségével hozza közös nevezőre a két elvet. Amit tőlük érdemes olvasni és nézni:

A fentinél sokkal pragmatikusabb a Dominic Widdows nevével fémjelzett irányzat (elvégre a Bing egyik kutatójáról van szó). Geometry and Meaning c. könyvét már ajánlottuk a blogon, ezt ismét csak megerősítjük. Widdows megközelítése sem nélkülözi a kvantumfizikai hivatkozásokat, habár ő a kategóriaelméleti megközelítés helyett az ún. kvantumlogikát preferálja (Rédei Miklós tanulmányát ajánlom mindenkinek a témában). Li és Cunnigham tanulmánya pedig remek kis bevezetés a témához, de igazából Widdows honlapján lehet jó anyagokat találni. Aki módszeres bevezetésre vágyik, annak van Rijsenbergen könyvét ajánljuk.

A két irányzat közötti különbség első sorban az hogy az oxfordiak elméleti, Widdows pedig gyakorlati vonalon halad. Talán felesleges bűvészkedésnek tűnhet a kategóriaelmélet bevezetése, de ez a fizikában is megkönnyítette a formális elméletekkel történő foglalkozást. A csillagok különös együttállása, vagy a véletlen szeszélye folytán a funkcionális programozás felszálló ágban van és valahogy adja magát hogy az implementáció is ilyen nyelven történjen meg. Sajnos ez még nem valóság, Widdows semanticvectors csomagja Javaban íródott - igaz nem is implementál mindent az elméletekből. Az izgalmas dolgok mind a nyelvtechnológia, mind pedig a keresés terén itt fognak történni a következő években és reményeim szerint sokat fogunk funkcionális nyelveken implementálni.

2013. január 2.

Három év

Már nagyon távolinak tűnik 2010 januárja, a blog indulásának időpontja. 2012 különösen sűrűre sikerült év volt, elindult az NLP meetup, szorosabbra fűztük együttműködésünket a Nyelv és Tudománnyal - de ez még csak a kezdet! Nosztalgiázás helyett idei terveinkről szeretnék inkább beszámolni.

Adatújságírás
A Nyelv és Tudománnyal összefogva - külön köszönet Kincse Szabolcsnak! - hamarosan indul a nyest.hu-n egy cikksorozat, amiben igyekszünk megmutatni miképp is néz ki az adatújságírás. Nem az adatújságírásról fognak a cikkek szólni, hanem az adatújságírás eszköztárát használó írások fognak születni.

OpenNews day
Februárban kezdődik a meetup évad, árukapcsolás formájában egy OpenNews nappal. Ide várunk minden adatújságírás iránt érdeklődő fejlesztőt és újságírót! A rendezvény célja, hogy az adatújságírás iránt érdeklődők (zsurnaliszták, fejlesztők, stb) jobban megismerhessék ezt az új irányzatot. A Kinght - Mozilla OpenNews támogatásának köszönhetően a Guardian-től érkezik hozzánk előadó.

Meetup
A tavaszi évadot februárban kezdjük és májusban zárjuk, ami ugye négy meetupot jelent. Az első két találkozó angolul fog zajlani, a másik kettő pedig magyarul. Ha minden úgy alakul, ahogy terveztük, akkor nyáron ismét lesz tutorial is. Az időpontokat hamarosan meghirdetjük a meetup.com-on!

THATCamp Budapest
Májusban a digitális bölcsészetnek adunk teret az első magyar THATCamp-en. Különösen izgalmas, hogy a ez nem egy szokványos konferencia, hanem egy ún. un-conference. A program a rendezvény napján válik majd véglegessé és sokkal inkább hasonlít egy workshopra, mint egy hagyományos konfra egy ilyen összejövetel.

Blog
Már többször felmerült hogy több angol posztot készítsünk és a hektikusan frissülő angol blogba is életet leheljünk. Sajnos nagyon nehezen megy egyszerre vinni a kettőt - sőt, a Kereső Világot is ide számítva hármat - ezért az angol blogot töröltük. A nyáron leállok a magyar posztokkal a Számítógépes nyelvészeten és angolul folytatom a blogolást máshol. Remélem ez nem jelenti egyben a blog megszűnését, hiszen marad elég szerző.