2012. november 8.

Mi fán terem a számítógépes nyelvész?

Hónapok óta számítógépes nyelvész munkatársat keresünk és rájöttünk nem is olyan egyszerű megtalálni a megfelelő embert. Már maga a megnevezés is feltételezi hogy valaki két területen is otthonosan mozog, de mi árnyaltuk a jelölttel szembeni elvárásainkat. Nem fejlesztőt keresünk, hanem kutatót, aki képes aktívan részt venni munkánkban. Mi alapvetően két területet ötvözünk; a gépi tanulást és a szemantikus webet. Problémáink jellemzően olyan kérdések, melyek közgazdasági és pénzügyi elemzők fejében fogalmazódnak meg.

Technikai oldalról tehát nem klasszikus programozót keresünk, hanem inkább a manapság divatos megnevezéssel élve egy data scientist lenne az ideális jelölt. Drew Conway Venn diagramja nagyon szépen mutatja milyen háttérrel rendelkeznek az adattudósok.


Ugyanakkor kifejezetten nyelvi, nyelvészeti problémák megoldására kell fókuszálni csapatunkban. Így kívánatosnak tartjuk, hogy a nyelvészet ne legyen idegen a jelentkezőtől. Habár sokan úgy gondolják hogy "majd úgyis felszedi azt a tudást menet közben a jelölt", nem árt észben tartani hogy mennyire szerteágazó a nyelvtudomány. Ez az ábra nagyon jól szemlélteti ezt.



Feladataink jelentős részében alapvetően társadalomtudományi háttérrel rendelkező elemzők számára szállítunk adatokat, ill. megpróbáljuk az elemzéseket automatizálni. Az ideális jelentkező egy olyan ember lenne aki a data science és a nyelvészet halmazok metszetében helyezhető el. Lássuk be, ilyen emberből nem sok szaladgál a Földön. Döntenünk kellett melyik a fontosabb. Először mi is a technikai tudást helyeztük előtérbe, sajnos azonban hamar kiderült hogy 1) nehezen megy a kommunikáció az elemzők és az ilyen kutató kollégák között 2) nehezen találnak megoldási javaslatokat a felmerülő problémákra, mert idegenek számukra a felvetett kérdések. Alaposan át kellett gondolnunk prioritásainkat ezek fényében és egy nyelvész kolléga mellett tettük le a garast, de ez egy nehéz kompromisszum volt.

Remélem hamarosan hazánkban is a nyelvészeti tananyag része lesz az alapos statisztikai képzés, nem beszélve a nyelvi adatok feldolgozásának alapjairól. Ezek egyaránt fontosak a tudományos pályára készülőknek, de talán még fontosabb azok számára akik a munkaerőpiacon méretnék meg magukat. Véssük az eszünkbe, nem csak a számítógépes nyelvésznek kell programozni, ma már a tudományos munka része ez a képesség, olyan szinten mint az angol nyelv ismerete. Ha végre reagálna a hazai képzés a nemzetközi trendekre és arra a tényre, hogy a hallgatók csak piciny százaléka lesz kutató, sokkal könnyebb lett volna a dolgunk. Sőt, sokkal könnyebb lenne a hallgatók dolga is, hiszen tisztességes munkát találhatnának...

Nincsenek megjegyzések: