2011. május 12.

Tanulmány-ajánló: Opinion Mining and Sentiment Analysis

Nemrég, Margueritte Leenhardt vendégposztjában volt szó az érzelem-elemzésről. Ő is megemlíti Bo Pang és Lillian Lee igen népszerű tanulmányát. A remek anyag szerencsére ingyenesen elérhető az interneten; most kedvcsinálónak hozzá egy rövid ismertető következik.

 
A 2008-ban készült tanulmány leszögezi, hogy az utóbbi időben az internet egyre meghatározóbb szerepet játszik az emberek döntéseiben; autó, számítógép, mozifilm, de politikai párt preferenciáinkat is egyre inkább befolyásolják a neten hozzáférhető adatok. A webkettő berobbanásával egyre inkább felhasználók által generált tartalomról van szó (ajánlások, vélemények, lájkolások), és a dolog egyre inkább kezdi érdekelni a vállalatok marketingosztályait is. Pang és Lee szerint új dologról van szó: blogokon, fórumokon, szociális hálókon szétszórt, gyorsan képződő, strukturálatlan adathalmazzal van dolgunk, amit feltérképezni, esetleg manipulálni kulcsfontosságú lehet.

Egy sentiment-analysis alkalmazás dolga alapvetően az, hogy olyan dokumentumokat találjon, amelyek valamilyen szubjektív véleményt tartalmaznak, feltérképezze ezeket a véleményeket, elhelyezze valamilyen skálán, majd összesítse az eredményeket. Ezt a technológiát azután számos helyen lehet integrálni, például keresőkben (mondjuk, egy árukeresőbe), szövegszűrőkbe (pl. szűrheti a nem megfelelő hangnemű hozzászólásokat), vagy üzleti intelligencia alkalmazásokba. Nagyon jól jöhet a politikában (közvélemény-kutatás olcsón) vagy akár az e-döntéshozás kiépítésében.

Pang és Lee rámutat, hogy mivel alapvetően természetes szöveggel dolgozunk, a dokumentum-kategorizálásnál bevált technikák egy része korlátozottan használható. Az érzelem-elemzés azonban jellemzően bonyolultabb: például, nem elég megmondani, jó-e vagy rossz-e egy vélemény, azt is fontos tudni, mennyire az. A szövegszortírozásnál bevált kulcsszókeresés, n-gramm statisztika, morfológiai vagy szintaktikai jellemzők jó mutatók lehetnek, de nem mindig elégségesek. Arra is rámutatnak a szerzők, hogy az érzelem elemzés valószínűleg sokkal inkább feladat- és témafüggőbb probléma, mint az általánosabb célú dokumentum-klasszifikáció. Ezzel együtt azonban, a statisztikai és a gépi tanulási módszerek itt is jó eredményeket hozhatnak. Az érzelem-elemzés technikák fejlődéséhez nagyban hozzájárult a nagy mennyiségben elérhető, kiértékelt adat (ezek tipikusan webkettes tartalmak).

További érdekes, nagyon komplex témákat is feszeget a tanulmány: hogyan ismerjük fel a szubjektivitást, hogyan lehet kezelni több tematikus blokkból álló szöveget, és vajon megvalósítható-e a különböző nézőpontok felismerése. Az érzelem-elemzés is felveti a nyelv kérdését: vajon átültethető-e gyorsan egy alkalmazás (pl. gépi fordítással) egyik nyelvről a másikra?

A gyakorlati megvalósítás során felmerül az emberi tényező is: számolni kell a vélemények torzulásával (például egy kicsi, ám hangos csoport miatt), a túl kevés véleménnyel, vagy éppen a “csordaszellem effektussal”. És ez még mind nem elég, mert érdemes lehet számolni a “bértollnokokkal”, vagyis az szubjektív véleménynek álcázott reklámmal, spam-mel. Ezek talán a legbonyolultabb, és egyben a legszebb kérdések is, hiszen itt már nem csak nyelvészettel és statisztikával, de pszichológiával is kell foglalkozni.

Végül, a kutatók felhívják a figyelmet a terület kapcsán felmerülő etikai kérdésekre is. Mint minden adatbányász-technológiánál, itt is számolni kell azzal, hogy sérülhet az emberek privát szférája.
Mint írják a szerzők, az “ártatlan” üzleti intelligencia másra is használható lehet: egy dolog, ha saját termékünk népszerűségét akarjuk kikutatni a blogoszférában, és teljesen más, ha kormányon lévő pártként a polgárok bejegyzéseit monitorozzuk saját tevékenységünkkel kapcsolatban.

A technikák finomodásával azokat a hirdetők is kiismerik, és megpróbálhatják befolyásolni a vásárlókat. Természetesen, ez kétirányú játék, hiszen a “spam” és az “optimalizált vélemény” szűrhető lehet.

A tanulmány a terület bemutatásán túl linkeket tartalmaz további anyagokra, valamint egy több mint 300 bejegyezségből álló bibliográfiát.



Nincsenek megjegyzések: