2012. december 21.
Egy kis kategóriaelmélet
2012. december 19.
Matematika felnőtteknek
Often described as the science of patterns, mathematics is arguably humanity's most penetrating mental framework for uncovering the hidden patterns that lie behind everything we see, feel, and experience. Galileo described mathematics as the language in which the laws of the universe are written. Intended to give a broad overview of the field, these five illustrated lectures look at counting and arithmetic, shape and geometry, motion and calculus, and chance and probability, and end with a mind-stretching trip to infinity.
2012. december 18.
FP és termékfejlesztés
2) Running a Startup on Haskell
2012. december 13.
Prismatic
Ma a legtöbb kereső rendszer az ún term-document matrix megoldáson alapul. A Prismatic az ún topik modellekre szavaz ellenben (bővebben erről itt). Ezek nagyon hasonlóak a címkéző, vagy tagelő megoldásokhoz, de sokkal pontosabban működnek és írják le egy-egy dokumentum látens szemantikáját. A topik modellek a keresésben - több technikai probléma megoldásán túl - lehetővé teszik hogy "csoportosítsák" a találatokat és egyfajta összefoglalót adjanak tartalmukról. Így kerülhető el a duplikációk és a hasonló hírek szűrése, ill. kereshetők hasonló tartalmak. Habár a topik modellek már egy évtizede megjelentek, a Prismatic egyike az első ipari alkalmazóknak.
2012. december 12.
Kategóriaelmélet és jQuery
A kategóriaelméletet a közkedvelt meghatározás szerint "general abstract nonsense". Ez persze korántsem jelenti azt, hogy nem lehet gyakorlatias dolgokra használni eredményeit. Pl. John Bender egészen zseniálisan alkalmazta az ún. loop fusion technikát a jQuery-ben. De hogy kerül a csizma az asztalra? Bender working paper-je így foglalja össze:
The jQuery JavaScript library, used on more than 55% of Alexa’s top 10,000 websites makes the manipulation of HTML documents easy and intuitive through fluent method chaining and an intuitive API design. An unfortunate side effect of these user friendly features is that they often incur an otherwise unnecessary performance overhead. While JavaScript execution in desktop browsers has become fast enough to hide much of the problem, the growing complexity of HTML documents and the ubiquity of web enabled mobile devices continue to make performance an important concern when developing JavaScript applications. We address this issue by proposing a category theoretic view of the relationship between jQuery and the Document Object Model. From that view we derive a set of alterations to the jQuery library and demonstrate the performance benefits that result. Additionally we show how the second functor law suggests a set of JavaScript functions and jQuery methods that can be optimized using loop fusion.
Az alábbi videón teljesen érthető formában fejti ki vizsgálódásainak lényegét Bender. Érdemes a lejátszás előtt és után is elolvasni rövid posztját.
2012. december 10.
Könyvismertető: Digital_Humanities (ingyenes e-könyv)
- Peter Lunenfeld, Anne Burdick, Johanna Drucker, Todd Presner, Jeffrey Schnapp: Digital_Humanities
- MIT Press, 2012
- 153 oldal
- Open Access Edition (pdf)
Digital_Humanities is a compact, game-changing report on the state of contemporary knowledge production. Answering the question, “What is digital humanities?,” it provides an in-depth examination of an emerging field. This collaboratively authored and visually compelling volume explores methodologies and techniques unfamiliar to traditional modes of humanistic inquiry--including geospatial analysis, data mining, corpus linguistics, visualization, and simulation--to show their relevance for contemporary culture.
Included are chapters on the basics, on emerging methods and genres, and on the social life of the digital humanities, along with “case studies,” “provocations,” and “advisories.” These persuasively crafted interventions offer a descriptive toolkit for anyone involved in the design, production, oversight, and review of digital projects. The authors argue that the digital humanities offers a revitalization of the liberal arts tradition in the electronically inflected, design-driven, multimedia language of the twenty-first century.
2012. december 7.
Try R - ingyenes statisztikai programozás kurzus
2012. december 6.
Mire jó a funkcionális programozás
Contrary to popular belief, the functional style does not lead to bad performance. Average Scala run-times are comparable to Java, lowest run-times are sometimes better, but Java scales better on parallel hardware. We confirm with statistical significance Scala’s claim that Scala code is more compact than Java code, but clearly refute other claims of Scala on lower programming effort and lower debugging effort.
2012. november 30.
Könyvismertető: Lean szemlélet
- James P. Womack - Daniel T. Jones: Lean szemlélet
- HVG könyvek, 2009
- 480 oldal
2012. november 20.
Hogy állunk a funkcionális programozással?
2012. november 19.
Scheme - királyi út a funkcionális programozás felé
- Simply Scheme: Introducing Computer Science - A legjobb könyv amivel elkezdheti valaki a programozás és/vagy a funkcionális programozás tanulását. Remekül szemlélteti az alapfogalmakat és sok-sok érdekes feladattal foglalkoztatja az olvasót. Nem csak a programozás terén kezdőknek ajánlom, hanem mindenkinek aki nem rendelkezik több éves tapasztalattal.
- The Little Schemer -Zseniális könyv, amely példákon keresztül mutatja be a funkcionális programozás főbb technikáit. Továbbá megtudhatja belőle az olvasó hogy az Y-combinator nem csak egy startup program :D Nagyon kezdőbarát, érdemes többször elolvasni! Figyelem, a szerzők már az előszóban leszögezik, hogy attól senki sem válik programozóvá hogy elolvassa a könyvet!
- The Seasoned Schemer -A fenti könyv folytatása, szépen tovább építi az alapokat.
- How to Design Programs - ingyenesen elérhető könyv, mely nagyon gyakorlat orientált. Célja a programfejlesztés logikájának bemutatása nem műszaki/tudományos érdeklődésű olvasók számára. A kötethez készül speciális Scheme implementáció nőtte ki magát a Racket nyelvvé, mely annak ellenére hogy nem szabvány Scheme, a legelterjedtebb ma a Schemerek körében.
- Structure and Interpretation of Computer Programs - A "köznyelvben" csak SICP. Ez a számítástudomány leghíresebb bevezető könyve. Annak ellenére hogy bevezető, nem ajánlható kezdőknek! Minden tisztességes funkcionális programozással foglalkozó embernek egyszer el kell olvasnia, aki ezt nem teszi meg, legalább ismerje a címét és tegyen úgy mintha olvasta volna. Ingyenes, ezért nem lehet azt mondani hogy nem volt rá pénzed :D Érdemes az OCW kapcsolódó kurzusával - vagy legalább az előadás videokkal - kiegészíteni a feldolgozását.
- The Reasoned Schemer - a Little Schemer stílusában íródott kicsi könyvecske, mely a funkcionális-logikai programozásba vezet be minket
- Essentials of Programming Languages - a programozási nyelvek (és paradigmák) alapjaiba vezet be ez a remek könyv, csak a SICP ismeretét feltételezi ehhez csupán.
- Types and Programming Languages - Habár nem kell a típusokkal bajlódni a Scheme esetében, nem árt tisztában lenni velük, ha Haskell vagy Scala felé kacsingatunk, akkor nincs más választásunk!
- Andvanced Topics in Types and Programming Languages - az előző kötet folytatása
- Paradigms of Artificial Intelligence Programming - Norvig könyve még ma is alapmű. Nem csak a Scheme, hanem a CommonLisp és a Prolog is terítékre kerül benne, no meg hogy hogyan használjuk AI területen ezeket.
- Scheme NLTK - érdemes egy kicsit foglalkozni a SNLTK-val, habár nem jól dokumentált, a kódjából sokat tanulhatunk arról hogyan működik az nlp funkcionális nyelven
2012. november 16.
Évadzáró meetup november 21-én
2012. november 14.
Magyar Nyelv Napja 2012
A magyar nyelv digitális túlélési esélyéről, a nyelvi "akadálymentesítéshez" szükséges technológiai támogatásról és a hazai nyelvtechnológia nemzetközi pozíciójáról cserélnek eszmét egyebek közt annak a kerekasztal-beszélgetésnek a résztvevői, amelyet a Magyar Nyelv Napja alkalmával szervez csütörtökön (november 15-én, 16 órától) az MTA Nyelvtudományi Intézete.
A rendezvény ingyenes, regisztrálni itt lehet. Aki otthon (vagy munka közben :D) a gépe előtt szeretné megtekinteni az eszmecserét, az itt megteheti ezt.
Könyvismertető: A Toyota-módszer
- Jeffrey K. Liker: A Toyota-módszer. 14 vállalatirányítási alapelv
- HVG könyvek, 2008
- 400 oldal
2012. november 8.
Mi fán terem a számítógépes nyelvész?
Remélem hamarosan hazánkban is a nyelvészeti tananyag része lesz az alapos statisztikai képzés, nem beszélve a nyelvi adatok feldolgozásának alapjairól. Ezek egyaránt fontosak a tudományos pályára készülőknek, de talán még fontosabb azok számára akik a munkaerőpiacon méretnék meg magukat. Véssük az eszünkbe, nem csak a számítógépes nyelvésznek kell programozni, ma már a tudományos munka része ez a képesség, olyan szinten mint az angol nyelv ismerete. Ha végre reagálna a hazai képzés a nemzetközi trendekre és arra a tényre, hogy a hallgatók csak piciny százaléka lesz kutató, sokkal könnyebb lett volna a dolgunk. Sőt, sokkal könnyebb lenne a hallgatók dolga is, hiszen tisztességes munkát találhatnának...
2012. november 7.
Könyvismertető: Gödel's Proof
2012. október 30.
Egy másik metaforamasina
The Metaphor Program will exploit the fact that metaphors are pervasive in everyday talk and reveal the underlying beliefs and worldviews of members of a culture. In the first phase of the two-phase program, performers will develop automated tools and techniques for recognizing, defining and categorizing linguistic metaphors associated with target concepts and found in large amounts of native-language text. The resulting conceptual metaphors will be validated using empirical social science methods. In the second phase, the program will characterize differing cultural perspectives associated with case studies of the types of interest to the Intelligence Community. Performers will apply the methodology established in the first phase and will identify the conceptual metaphors used by the various protagonists, organizing and structuring them to reveal the contrastive stances. [forrás]
2012. október 29.
Six Provocations for Big Data
Idén történt egy konferencián, hogy két számítástudós lelkesen adta elő "forradalmi" eredményeit egy konferencián és a közönség soraiból többen is mocorogtunk, vártuk a kérdések idejét. Maga az előadás rendben volt, az izgalmat az okozta hogy a bemutatott eredmények nem voltak forradalmiak, tkp. Mark Granovetter elméletét ismételték el az előadók és nem értették miért tesszük szóvá nekik ezt. A big data, data science és business intelligence hármasa egyre többször fut bele ilyen helyzetekbe, hiszen olyan témákról próbál szólni, melyeket más tudományok már régóta vizsgálnak. danah boyd és Kate Crawford Six provocations for big data című tanulmánya arra hívja fel a figyelmet hogy bizony vannak határai és buktatói a nagy adathalmazoknak is. A metodológiai kérdések mellett (pl. jobb-e a több adat, mennyire reprezentatív a Twitter és egyéb közösségi oldalak által szolgáltatott publikus adathalmaz stb.) legalább annyira izgalmasak az etikai kérdések (mennyire egyezik bele a mezei felhasználó abba hogy kutatásokra használjuk adatait, ki férhet hozzá az adatbázisokhoz) is. Érdemes elolvasni a tanulmányt, vagy legalább megnézni az alábbi videót.
2012. október 19.
Megújult a Google Ngram Viewer
Two features of the Ngram Viewer may appeal to users who want to dig a little deeper into phrase usage: part-of-speech tags and ngram compositions.
2012. október 17.
Könyvismertető: Understanding Search Engines: Mathematical Modeling and Text Retrieval
Nem szabad megfeledkeznünk arról hogy a kötet kiadója a Society for Industrial and Applied Mathematics. Így ne várjunk olyan szép narratívát mint amit a CSLI gondozásában megjelent Meaning and Geometry nyújt! 117 oldalon a keresés legalapvetőbb elméleti és technikai problémáit tekinti át a szerző, ami valljuk be nem eredményezhet egy kalandregényt. A könyv nyelvezete egy kicsit nehezen követhető, hullámzó színvonalon tárgyalja a matematikai vonatkozásokat (ezen a Google sokat segíthet olvasás közben), a technikai részek pedig kifejezetten gyengék. Ellenben nagyon logikusan építkezik a szerző, minden alapfogalom bevezetésre kerül és valamennyire a formális hátteret is megismerhetjük.
A bevezető fejezet tisztességesen kontextusba helyezi a témát, a második feladat áttekinti az előfeldolgozást valamennyire, de tényleg ne várjunk tőle túl sokat és vegyük figyelembe hogy technikai értelemben egy 2005-ben megjelent könyv már tkp. használhatatlannak tekinthető. A harmadik fejezet a vektortereket, a negyedik pedig a mátrix dekompozíciót taglalja, jó példákkal és akár komolyabb előismeretek nélkül is érthetően, de ne tekintsük egy lineáris algebra kurzus helyettesítőinek őket. Az ötödik fejezet a query-kről szerintem a kötet legjobb része, tömör és világos és máshol eddig még nem találkoztam ilyen jó leírással. A hatodik fejezet a ranking és a relevancia kérdésével foglalkozik röviden, a precision és recall fogalmait bemutatva. A hetedik fejezet sajnos vázlatosra sikeredett, de a HITS és a PageRank algoritmusok lényegét megismerhetjük belőle. A nyolcadik fejezet az interfészekkel foglalkozik és színvonala remekül mutatja hogy ehhez nem igazán értenek a matematikusok. Az utolsó fejezet további olvasmányokat ajánl, ezekből érdemes szemezgetni.
2012. október 14.
NLP matiné okt. 26-án (UPDATED)
Rövid (ötperces) céges/intézményi bemutatkozók. Jelentkezni lehet a zoltan.varju(kukac)gmail.com címen.
Előadóink:
2012. október 13.
Álláslehetőség: junior Python programozó @ CEU CNS
Feltételek:
- Python 2.x-ben szerzett tapasztalat
- Linux felhasználói szintű ismerete
Előnyt jelent:
- angolnyelv-ismeret
- szövegfeldolgozásban szerzett tapasztalat
Versenyképes fizetést ajánlunk. Az Egyetem nem diszkriminál.
Ha érdekel, küldd el a CV-det és, ha van, egy Pythonban írt munkádat Koren Miklósnak, korenm@ceu.hu
Digitális bölcsészet MA a Pázmányon
Az országban egyedül a PPKE BTK-n szeptemberben ismét indul MA szintű számítógépes nyelvész képzés 'digitális bölcsészet: számítógépes szakirány' néven. Az nyelvészeti órákat a PPKE BTK-n tartják , az informatikai órákat pedig a PPKE ITK-n. A szakirányfelelősök: Prószéky Gábor egy. tanár és Surányi Balázs egy. tanár okt. 16-án du. 5-6 között szaktájékoztatót tartanak.
Helyszín: PPKE BTK, Piliscsaba, Egyetem u. 1. Ambrosianum épület, 220-as terem.
További információk: http://www.btk.ppke.hu/karunkrol/intezetek-tanszekek/angol-amerikai-intezet/elmeleti-nyelveszet-tanszek/hirek/digitalis-bolcseszet-ma-4.html
2012. október 12.
Könyvismertető: The Geometry of Information Retrieval
A kötet rövid, de ez ne tévesszen meg senkit, mert nem könnyű olvasmány. Témáját tekintve Widdows Geometry and Meaningjével tkp. egybe vág, csak amíg Widdows célja hogy egy álltalános műveltséggel rendelkező érdeklődőt szinte kézen fogva vezessen be a területre, addig van Rijsbergen könyve azoknak íródott akit már bírnak kellő matematikai előismeretekkel és rendelkeznek alapos előismeretekkel az IR terén. A kor hülye divatja miatt a könyv megpróbál "self-contained" lenni, de 185 oldalban képtelenség eljutni a halmazoktól a kvantumelmélet felvázolásáig és mindeközben kitérni az IR vonatkozásokra, de evvel együtt is csak ajánlani tudom.
2012. október 9.
Könyvismertető: Guide to Advanced Empirical Software Engineering
Guide to Advanced Empirical Software Engineering
Vegyes érzelmekkel rágtam át magam a köteten. Egyrészt a 14 tanulmány tényleg lefedi az alapvető metodológiai kérdéseket és a kérdőívek szerkesztésének problémájától az adatgyűjtés és -gondozás etikai kérdésein át a statisztikai elemzésig minden terítékre kerül benne. Másrészt azonban ez az egyik legunalmasabb könyv amit olvastam. Minden szerző megpróbálja rendkívül tömören összefoglalni, hogy mit kellene tudnunk egy-egy területről. Ez gondolom annak erény, aki még nem találkozott ilyen kérdésekkel, de semmiképpen sem illethető az "advanced" jelzővel az, amivel egy alapszakos szociológus vagy egyéb társadalomtudomány szakos hallgató egész korán találkozik tanulmányai során. Unalmassága és esetlensége ellenére a kifejezetten szoftverfejlesztéssel foglalkozó nyúlfarkak miatt tekinthetjük hiánypótló műnek a könyvet, azoknak aki eddig nem találkoztak kutatásmódszertannal pedig akár kézikönyvként is szolgálhat. Aki szereti a szellemi kalandokat és szeretne átfogóbb képet kapni a területről, annak ajánlom a University of Toronto Empirical Research Methods in Software Engineering kuruzusának oldalát, a legtöbb hivatkozott cikk szabadon elérhető és tényleg "advanced" szinten tárgyal egy-egy kérdést.
2012. október 8.
Filmajánló: Wittgenstein
2012. október 2.
HVG Jövő 2.0 - ajánljuk magunkat
A kép direkt homályos! |
Októberi konferenciák
Október 4-én az Open Source BI Fórum 2012 konferencián adok elő, Adatbányászat az R nyelv alkalmazásával címen.
Október 20-án a Magyarországi Web Konferencia 2012 következik, ahol Sok a szöveg - avagy miben segíthet a nyelvtechnológia mint szolgáltatás címen adok elő. A konferencia ingyenes, de a részvétel regisztrációhoz kötött. (Le a kalappal a szervezők és a szponzorok előtt!)
2012. szeptember 26.
Vigyázzunk a big datával
2012. szeptember 25.
Filmajánló: The Thinking Machine (1961)
Ez a filme igazi csemege! 1961-ben az MIT centenáriumára készült, öt évvel a Dartmouth konferencia után. Éppen csak nevet adtak a gyereknek a kutatók, de már látják a közeli jövőt teli robotokkal, gépi fordítással és minden más nyalánksággal. A szereplőgárda erős; Claude Shannon, Jerome Y. Lettvin, Douglas T. Ross, Ronald Melzack, Arthur L. Samuel és Barbel Inhelde. Egyszerre érdekes, mint tudománytörténeti csemege és vicces mint egy retró film.
2012. szeptember 24.
Számítógépes nyelvészet a Kutatók Éjszakáján!
Jövőhét pénteken (2012.09.28) a Kutatók Éjszakája rendezvény keretében az MTA SZTAKI Nyelvtechnológiai Csoportja (http://hlt.sztaki.hu) is bemutatja legújabb fejlesztéseit
"Miből lesz a robot-MÁV-pénztáros"
címmel.
A demóval egybekötött előadást az este folyamán kétszer, 18-19 óráig és 22-23 óráig lehet megtekinteni a SZTAKI főépületében (1111 Budapest, Kende u. 13-17, térkép: http://goo.gl/maps/ZyDCK).
A részvétel ingyenes, de a szervezők kérik, hogy a látogatók előzetesen regisztráljanak, ez az alábbi linken végezhető el:
http://www.kutatokejszakaja.hu/2012/esemenynaptar/esemeny.php?id=635
Jelentkezzetek, gyertek, és hirdessétek az eseményt ismerőseitek körében is!
2012. szeptember 21.
New confirmed speaker: Zoltan Toth, Pig: The Good Parts
Pig: The Good Parts
Apache Pig is a platform built on top of Hadoop that helps you quickly analyze large unstructured datasets.
Experience and challenges: a hands-on introduction to Pig through a Prezi case study.
Short BIO
Prior to joining Prezi I worked as a developer for pharmaceutical market research companies. Now, as Senior Data Engineer, I help Prezi arrive at data-driven decisions.
2012. szeptember 18.
Scientific computing vs software engineering
- Buddha and Popper: The Processless Process
- Startup Hypothesis Testing and Premature Execution
- Research-Driven Startups
- Philosophy and Machine Learning Workshop
- Machine Learning as Philosophy of Science
- A Software Chasm: Software Engineering and Scientific Computing - (korlátozott hozzáférés!) remekül összefoglalja a két terület alapvető különbségeit
- A Survey of the Practice of Computational Science
- Proofs Are Programs (technikai oldalról mutatja be miért vannak oda sokan a funkcionális nyelvekért)
- Beating the Averages (Graham kult esszéje pedig a humán faktort fogja meg)
2012. szeptember 17.
NLP Meetup - we have a new confirmed speaker
Our new confirmed speaker is András Benczúr the head of the Data Mining and Search Group of SZTAKI (the Computer Automation Research Institute of the Hungarian Academy of Sciences).
2012. szeptember 12.
Olvasónapló #2 - Computational Social Science
Egyre inkább úgy gondolom hogy a számítógépes nyelvészet egyfajta szolgálóleány. Egy-egy új eljárás lényege általában az hogy valami más terület számára megnyissa az elemzés lehetőségét. Pl. a sentiment analysis, a szövegbányászat, tartalomelemzés stb. mind erről szól. Ennek alkalmazott vetülete az üzleti intelligencia és az adattudomány, valamint a marketing. Sokkal izgalmasabb és nagyobb gyakorlati haszonnal kecsegtet szerintem ha nem ezekre fókuszálunk, hanem a társadalomtudományokra.
- David Jensen: Computational Social Science
- David Lazer et al: Computational Social Science
- Computational Social Science: Making the link
- Model Thinking - Scott E. Page coursera kurzusa a legjobb kezdő lépés ebben az irányban
2012. szeptember 10.
A huNLP levelezőlista
NLP matiné
Ha nyelvi, nyelvtechnológiai megoldásokat kínálsz, vagy szükséged lenne számítógépes nyelvészeti szakértelemre, gyere el!Egy ötperces előadásban bemutathatod céged (jelentkezni a zoltan.varju(kukac)gmail.com címen lehet)- a bemutatók után pedig kötetlenül lehet kérdezni és ismerkedni.
2012. szeptember 8.
Book review: Introducing Regular Expressions
- Michael Fitzgerald: Introducing Regular Expressions, Unraveling regular expressions, step-by-step
- O'Reilly, 2012
- 154 pages
- product page on the publisher's site
Expect short, pragmatic chapters on very basic topics. The explanations are pretty clear and easy to follow. The accompanying github repo contains all the files you need to follow the examples - and you should download those files and try out the online tools and unix utilities. This title is using a typical learning by doing approach, you won't get much theory on the background.
Each chapter ends with a technical notes section in which you can find information about the tools used in the chapter. The Appendix and the Regular Expression Glossary are pretty good for further references.
I'm sure a novice becomes a well-grounded beginner after working through this book.