The Metaphor Program will exploit the fact that metaphors are pervasive in everyday talk and reveal the underlying beliefs and worldviews of members of a culture. In the first phase of the two-phase program, performers will develop automated tools and techniques for recognizing, defining and categorizing linguistic metaphors associated with target concepts and found in large amounts of native-language text. The resulting conceptual metaphors will be validated using empirical social science methods. In the second phase, the program will characterize differing cultural perspectives associated with case studies of the types of interest to the Intelligence Community. Performers will apply the methodology established in the first phase and will identify the conceptual metaphors used by the various protagonists, organizing and structuring them to reveal the contrastive stances. [forrás]
2012. október 30.
Egy másik metaforamasina
2012. október 29.
Six Provocations for Big Data
Idén történt egy konferencián, hogy két számítástudós lelkesen adta elő "forradalmi" eredményeit egy konferencián és a közönség soraiból többen is mocorogtunk, vártuk a kérdések idejét. Maga az előadás rendben volt, az izgalmat az okozta hogy a bemutatott eredmények nem voltak forradalmiak, tkp. Mark Granovetter elméletét ismételték el az előadók és nem értették miért tesszük szóvá nekik ezt. A big data, data science és business intelligence hármasa egyre többször fut bele ilyen helyzetekbe, hiszen olyan témákról próbál szólni, melyeket más tudományok már régóta vizsgálnak. danah boyd és Kate Crawford Six provocations for big data című tanulmánya arra hívja fel a figyelmet hogy bizony vannak határai és buktatói a nagy adathalmazoknak is. A metodológiai kérdések mellett (pl. jobb-e a több adat, mennyire reprezentatív a Twitter és egyéb közösségi oldalak által szolgáltatott publikus adathalmaz stb.) legalább annyira izgalmasak az etikai kérdések (mennyire egyezik bele a mezei felhasználó abba hogy kutatásokra használjuk adatait, ki férhet hozzá az adatbázisokhoz) is. Érdemes elolvasni a tanulmányt, vagy legalább megnézni az alábbi videót.
2012. október 19.
Megújult a Google Ngram Viewer
Two features of the Ngram Viewer may appeal to users who want to dig a little deeper into phrase usage: part-of-speech tags and ngram compositions.
2012. október 17.
Könyvismertető: Understanding Search Engines: Mathematical Modeling and Text Retrieval
Nem szabad megfeledkeznünk arról hogy a kötet kiadója a Society for Industrial and Applied Mathematics. Így ne várjunk olyan szép narratívát mint amit a CSLI gondozásában megjelent Meaning and Geometry nyújt! 117 oldalon a keresés legalapvetőbb elméleti és technikai problémáit tekinti át a szerző, ami valljuk be nem eredményezhet egy kalandregényt. A könyv nyelvezete egy kicsit nehezen követhető, hullámzó színvonalon tárgyalja a matematikai vonatkozásokat (ezen a Google sokat segíthet olvasás közben), a technikai részek pedig kifejezetten gyengék. Ellenben nagyon logikusan építkezik a szerző, minden alapfogalom bevezetésre kerül és valamennyire a formális hátteret is megismerhetjük.
A bevezető fejezet tisztességesen kontextusba helyezi a témát, a második feladat áttekinti az előfeldolgozást valamennyire, de tényleg ne várjunk tőle túl sokat és vegyük figyelembe hogy technikai értelemben egy 2005-ben megjelent könyv már tkp. használhatatlannak tekinthető. A harmadik fejezet a vektortereket, a negyedik pedig a mátrix dekompozíciót taglalja, jó példákkal és akár komolyabb előismeretek nélkül is érthetően, de ne tekintsük egy lineáris algebra kurzus helyettesítőinek őket. Az ötödik fejezet a query-kről szerintem a kötet legjobb része, tömör és világos és máshol eddig még nem találkoztam ilyen jó leírással. A hatodik fejezet a ranking és a relevancia kérdésével foglalkozik röviden, a precision és recall fogalmait bemutatva. A hetedik fejezet sajnos vázlatosra sikeredett, de a HITS és a PageRank algoritmusok lényegét megismerhetjük belőle. A nyolcadik fejezet az interfészekkel foglalkozik és színvonala remekül mutatja hogy ehhez nem igazán értenek a matematikusok. Az utolsó fejezet további olvasmányokat ajánl, ezekből érdemes szemezgetni.
2012. október 14.
NLP matiné okt. 26-án (UPDATED)
Rövid (ötperces) céges/intézményi bemutatkozók. Jelentkezni lehet a zoltan.varju(kukac)gmail.com címen.
Előadóink:
2012. október 13.
Álláslehetőség: junior Python programozó @ CEU CNS
Feltételek:
- Python 2.x-ben szerzett tapasztalat
- Linux felhasználói szintű ismerete
Előnyt jelent:
- angolnyelv-ismeret
- szövegfeldolgozásban szerzett tapasztalat
Versenyképes fizetést ajánlunk. Az Egyetem nem diszkriminál.
Ha érdekel, küldd el a CV-det és, ha van, egy Pythonban írt munkádat Koren Miklósnak, korenm@ceu.hu
Digitális bölcsészet MA a Pázmányon
Az országban egyedül a PPKE BTK-n szeptemberben ismét indul MA szintű számítógépes nyelvész képzés 'digitális bölcsészet: számítógépes szakirány' néven. Az nyelvészeti órákat a PPKE BTK-n tartják , az informatikai órákat pedig a PPKE ITK-n. A szakirányfelelősök: Prószéky Gábor egy. tanár és Surányi Balázs egy. tanár okt. 16-án du. 5-6 között szaktájékoztatót tartanak.
Helyszín: PPKE BTK, Piliscsaba, Egyetem u. 1. Ambrosianum épület, 220-as terem.
További információk: http://www.btk.ppke.hu/karunkrol/intezetek-tanszekek/angol-amerikai-intezet/elmeleti-nyelveszet-tanszek/hirek/digitalis-bolcseszet-ma-4.html
2012. október 12.
Könyvismertető: The Geometry of Information Retrieval
A kötet rövid, de ez ne tévesszen meg senkit, mert nem könnyű olvasmány. Témáját tekintve Widdows Geometry and Meaningjével tkp. egybe vág, csak amíg Widdows célja hogy egy álltalános műveltséggel rendelkező érdeklődőt szinte kézen fogva vezessen be a területre, addig van Rijsbergen könyve azoknak íródott akit már bírnak kellő matematikai előismeretekkel és rendelkeznek alapos előismeretekkel az IR terén. A kor hülye divatja miatt a könyv megpróbál "self-contained" lenni, de 185 oldalban képtelenség eljutni a halmazoktól a kvantumelmélet felvázolásáig és mindeközben kitérni az IR vonatkozásokra, de evvel együtt is csak ajánlani tudom.
2012. október 9.
Könyvismertető: Guide to Advanced Empirical Software Engineering
Guide to Advanced Empirical Software Engineering
Vegyes érzelmekkel rágtam át magam a köteten. Egyrészt a 14 tanulmány tényleg lefedi az alapvető metodológiai kérdéseket és a kérdőívek szerkesztésének problémájától az adatgyűjtés és -gondozás etikai kérdésein át a statisztikai elemzésig minden terítékre kerül benne. Másrészt azonban ez az egyik legunalmasabb könyv amit olvastam. Minden szerző megpróbálja rendkívül tömören összefoglalni, hogy mit kellene tudnunk egy-egy területről. Ez gondolom annak erény, aki még nem találkozott ilyen kérdésekkel, de semmiképpen sem illethető az "advanced" jelzővel az, amivel egy alapszakos szociológus vagy egyéb társadalomtudomány szakos hallgató egész korán találkozik tanulmányai során. Unalmassága és esetlensége ellenére a kifejezetten szoftverfejlesztéssel foglalkozó nyúlfarkak miatt tekinthetjük hiánypótló műnek a könyvet, azoknak aki eddig nem találkoztak kutatásmódszertannal pedig akár kézikönyvként is szolgálhat. Aki szereti a szellemi kalandokat és szeretne átfogóbb képet kapni a területről, annak ajánlom a University of Toronto Empirical Research Methods in Software Engineering kuruzusának oldalát, a legtöbb hivatkozott cikk szabadon elérhető és tényleg "advanced" szinten tárgyal egy-egy kérdést.
2012. október 8.
Filmajánló: Wittgenstein
2012. október 2.
HVG Jövő 2.0 - ajánljuk magunkat
A kép direkt homályos! |
Októberi konferenciák
Október 4-én az Open Source BI Fórum 2012 konferencián adok elő, Adatbányászat az R nyelv alkalmazásával címen.
Október 20-án a Magyarországi Web Konferencia 2012 következik, ahol Sok a szöveg - avagy miben segíthet a nyelvtechnológia mint szolgáltatás címen adok elő. A konferencia ingyenes, de a részvétel regisztrációhoz kötött. (Le a kalappal a szervezők és a szponzorok előtt!)