2013. április 19.

Szöveges információ vizualizációja: szógyakoriság

Az alábbi ábrákat a Heti Válasz és a NOL cikkeinek szövegeiből készítettem. Az írások a héten az Európai Parlamentben hazánk kapcsán lezajlott vitáról szólnak. Minden szófelhő szógyakoriságon alapul, a szövegek tisztításon átmentek, de szótövezésen nem. Engem leginkább az érdekel, hogyan használhatók a szófelhők tartalomelemzésre. Ennek nyilván akkor van értelme, ha nagy mennyiségű adatot akarunk áttekinteni, de most jobban érdekel melyik eljárás felhasználóbarát (azaz informatív).

 

Wordle szófelhő

A Wordle nagyon szép felhőket generál, de inkább deskriptív és nem ad lehetőséget az összehasonlításra.

Népszabadság cikk

 

Heti Válasz cikk

 

R wordcloud

A CRAN-on elérhető standard wordcloud package lehetőséget ad arra, hogy összehasonlítsunk szövegeket. Az összehasonlítás alapja a frekvencia, a comparison azt mutatja meg mely szavak gyakorisága nagyobb egy-egy szövegben, a commonality pedig a közös szavakat ábrázolja.

Comparison cloud

Commonality cloud

Conway összehasonlító szófelhője

Conway szerint egy rendes szófelhő térbeli információval is jelez valamit - mégpedig a frequencia eltéréseket a két szövegben.

Nincsenek megjegyzések: