Analýza sentimentu filmových komentárov

Webové stránky zamerané na databázu filmov, napríklad www.csfd.cz (Česko-Slovenská filmová databáze) alebo www.imdb.com (Internet Movie Database), umožňujú svojim užívateľom pridať k filmu ich hodnotenie v podobe komentára a počtu hviezdičiek. Zamýšľali ste sa niekedy nad tým, že či tieto dve hodnotenia medzi sebou aj súvisia? Dá sa očakávať, že čím vyšší počet hviezdičiek, tak tým pozitívnejší komentár k filmu alebo opačne. Cieľom teda bude overiť hypotézu závislosti medzi počtom hviezdičiek a komentárom. To však priamo pomocou bežne používaných štatistických metód nie je možné, pretože komentár reprezentuje voľný text. Musíme najskôr použiť analýzu sentimentu, ktorá nám voľný text prevedie na nové premenné. Napríklad kategórie sentimentu (negatívny, neutrálny, pozitívny) alebo číselné skóre sentimentu. Dáta, na ktorých bola analýza sentimentu uskutočnená a ďalšie výstupy z nej budú prezentované, pochádzajú z webovej stránky www.csfd.cz.

Analýza sentimentu

Zo zastúpenia kategórií sentimentu filmových komentárov (Obrázok 1) je zrejmé, že pozitívnych komentárov je viac ako negatívnych. Čo je v súlade s rozložením počtu hviezdičiek (Obrázok 2), kde je vidieť väčšinové zastúpenie počtu hviezdičiek nad hodnotou tri, t.j. pozitívne hodnotenie. Niektoré komentáre k filmom sú neutrálne a časť je aj ambivalentných. Tieto ambivalentné komentáre sa vyznačujú tým, že prevažuje ako pozitívny, tak aj negatívny sentiment. Kvôli malému zastúpeniu kategórie veľmi pozitívny (dva komentáre) a veľmi negatívny (jeden komentár) došlo k ich zlúčeniu so susednými kategóriami.   

Obrázok 1: Stĺpcový graf kategórie sentimentu
Obrázok 2: Rozloženie počtu hviezdičiek

Pozrime sa ďalej na rozloženie číselnej premennej celkového skóre sentimentu pomocou skladaného histogramu (Obrázok 3), t.j. jednotlivé stĺpce si ofarbíme podľa kategórie sentimentu. Rozloženie je jednak symetrické avšak zaujímavejšie a logické je, že čím vyššie skóre celkového sentimentu, tým pozitívnejší sentiment alebo opačne. V okolí nuly prevažuje buď neutrálny alebo ambivalentný sentiment.

Obrázok 3: Skladaný histogram celkového skóre sentimentu

Čiastkové skóre sentimentu (pozitívne skóre a negatívne skóre) si zobrazíme do bodového grafu (Obrázok 4), kde si jednotlivé body ofarbíme podľa kategórie sentimentu a body mierne rozptýlime. Je to z dôvodu prehľadnosti, pretože kombinácie pozitívneho a negatívneho skóre sa môžu opakovať. Na vodorovnej ose (nulové negatívne skóre) prevažujú komentáre s pozitívnym sentimentom a na zvislej ose (nulové pozitívne skóre) prevažujú komentáre s negatívnym sentimentom. V okolí bodu [0,0] prevažujú komentáre s neutrálnym sentimentom a uprostred bodového grafy sa logicky nachádzajú komentáre s ambivalentným sentimentom.

Obrázok 4: Bodový graf pozitívneho a negatívneho sentimentu

Testovanie závislosti

Z analýzy sentimentu je vidieť, že máme už k dispozícii viacero premenných (číselné aj kategorickú), ktoré vypovedajú o sentimente komentára a môžeme tak prejsť k overovaniu hypotézy závislosti medzi počtom hviezdičiek a komentárom pomocou bežne používaných štatistických metód. Prístupov existuje viac, ukážeme si celkovo tri (Pearsonov lineárny korelačný koeficient, analýzu rozptylu a chí-kvadrát test v kontingenčných tabuľkách).

Ak budeme počet hviezdičiek považovať za číselnú premennú, graficky si vzťah celkového skóre sentimentu a počtu hviezdičiek môžeme graficky znázorniť pomocou bodového grafu (Obrázok 5), kde sme opäť kvôli prehľadnosti body mierne rozptýlili a ofarbili podľa kategórie sentimentu. Podľa očakávania je viditeľný rastúci lineárny trend celkového skóre sentimentu s narastajúcim počtom hviezdičiek a teda prevažujúcou kategóriou pozitívneho sentimentu.

Obrázok 5: Bodový graf počtu hviezdičiek a celkového skóre sentimentu

Štatisticky by sme existenciu lineárnej závislosti overili napríklad pomocou Pearsonovho lineárneho korelačného koeficientu (Obrázok 6). Podľa očakávania je hodnota korelačného koeficientu kladná a štatisticky významná na 5 % hladine významnosti, t.j. zamietame nulovú hypotézu nulovosti korelačného koeficientu.

Obrázok 6: Pearsonov lineárny korelačný koeficient

Ak budeme počet hviezdičiek považovať za kategorickú premennú, graficky si vzťah celkového skóre sentimentu a počtu hviezdičiek môžeme graficky znázorniť pomocou stĺpcového grafu priemerov (Obrázok 7). Opäť podľa očakávania je viditeľný rastúci trend priemerného celkového skóre sentimentu s narastajúcim počtom hviezdičiek a pre počet hviezdičiek menší ako tri je priemerné skóre záporné.

Obrázok 7: Stĺpcový graf priemerného celkového skóre sentimentu v kategóriách počtu hviezdičiek

Pre overenie závislosti môžeme v tejto situácii použiť analýzu rozptylu, ktorá testuje nulovú hypotézu, že priemerné celkové skóre sentimentu je rovnaké vo všetkých kategóriách počtu hviezdičiek oproti alternatívnej hypotéze, že existuje aspoň jedna dvojica kategórií počtu hviezdičiek, pre ktorú sa priemerné celkové skóre líši. Jedným z predpokladov použitia je aj test zhody rozptylov v porovnávaných skupinách (Obrázok 8). Na 5 % hladine významnosti nezamietame nulovú hypotézy, že by sa rozptyly líšili v skupinách počtu hviezdičiek.

Obrázok 8: Test homogenity rozptylov

Z tabuľky analýzy rozptylu (Obrázok 9) podľa očakávania na 5 % hladine významnosti zamietame nulovú hypotézu zhody priemerného celkového skóre v skupinách počtu hviezdičiek. Ďalej by sme mohli zaujímať a testovať medzi ktorými dvojicami kategórií sa priemerného celkové skóre líši pomocou Post Hoc testov. Nie je to však našim cieľom, takže sa tomu venovať nebudeme.

Obrázok 9: Tabuľka analýzy rozptylu

Ak by sme chceli overiť existenciu závislosti medzi dvojicou kategorických premenných počet hviezdičiek a kategória sentimentu, môžeme využiť chí-kvadrát test v kontingenčných tabuľkách. Z kontingenčnej tabuľky riadkových percent (Obrázok 10), kde sú pre prehľadnosť ofarbené stĺpce (modrou farbou nižšie hodnoty a červenou vyššie v danom stĺpci), je opäť podľa očakávania vidieť, že negatívny sentiment je viac zastúpený pre menší počet hviezdičiek (nula až dva) a pozitívny sentiment pre väčší počet hviezdičiek (štyri až päť). Ambivalentný sentiment je skôr zastúpený pre počet hviezdičiek dva až štyri a neutrálny sentiment je pomerne rovnomerne zastúpený medzi počtami hviezdičiek.

Obrázok 10: Kontingenčná tabuľka riadkových percent

Na základe chí-kvadrát testu (Obrázok 11) zamietame na 5 % hladine významnosti nulovú hypotézu nezávislosti počtu hviezdičiek a kategórie sentimentu. Predpoklady testu sú tiež podľa poznámky pod tabuľkou splnené. Ďalej by sme sa mohli zaujímať, ktoré bunky kontingenčnej tabuľky nám narúšajú predpoklad nezávislosti pomocou znamienkovej schémy. Nie je to však našim cieľom, takže sa tomu venovať nebudeme.

Obrázok 11: Chí-kvadrát test

Záverom tejto analýzy môžeme povedať, že všetky prezentované grafy, tabuľky a štatistické testy nám potvrdzujú existenciu závislosti medzi počtom hviezdičiek a komentárom, ktoré užívatelia priraďujú k filmom,  a to v tom duchu, že čím vyšší počet hviezdičiek, tak tým pozitívnejší komentár.

Analýza sentimentu v IBM SPSS Statistics

Všetky prezentované výstupy a závery pochádzajú zo softvéru IBM SPSS Statistics. Aby ste však mohli realizovať analýzu sentimentu potrebujete si zakúpiť samostatný modul Acrea Text Analytics s procedúrou Sentiment. Tá sa jednoducho nainštaluje do softvéru IBM SPSS Statistics a pod menu Custom pribudne nová procedúra ACREA TA Sentiment (Obrázok 12).

Obrázok 12: Procedúra ACREA TA Sentiment

Zadávanie je štandardné ako ste zvyknutý z iných procedúr. Procedúra umožňuje do dátovej matice pridať celkovo až päť nových premenných. Konkrétne identifikovaný jazyk analyzovaného textu pri automatickej detekcii, kategória sentimentu (ambivalentný, veľmi negatívny, negatívny, neutrálny, pozitívny, veľmi pozitívny), celkové skóre sentimentu (z intervalu od -1 do 1), čiastkové skóre pre pozitívny sentiment (z intervalu od 0 do 1) a čiastkové skóre pre negatívny sentiment (z intervalu od -1 do 0). Primárne je procedúra určená na analýzu českého prípadne slovenského textu avšak umožňuje aktuálne analyzovať aj texty z iných jazykov ako je angličtina a nemčina. Pre český jazyk je možné pred samotnou analýzou sentimentu tiež realizovať automatizované nahradenie diakritiky pokiaľ chýba. Súčasťou je aj dokumentácia pod tlačidlom Help, ktorá sa zobrazí vo webovom prehliadači a je z nej zrejmé čo jednotlivé políčka a nastavenia procedúry znamenajú (Obrázok 13).

Obrázok 13: Help

Procedúra má tiež aj svoju vlastnú syntax ACREA TA SENTIMENT (Obrázok 14) a je tak možné ju využiť pri automatizácii procesov na pravidelnej báze.

Obrázok 14: Syntax

Úplným záverom je možné povedať, že analýza sentimentu má svoje využitie všade tam, kde je potrebné analyzovať postoje a názory vyjadrené voľným textom. Napríklad analyzovať komentáre zo sociálnych médií ako je Facebook, Youtube, Instagram, Twitter, rôznych diskusných fór, otvorených otázok v dotazníkoch atď.

Potřebujete poradit, jak využívat vaše data? Chcete zefektivnit a urychlit vaši práci? Nevíte, jaký software je pro vaše řešení ten správný? Využijte naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Mgr. Milan Machalec
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuje na analytickou činnost nejen v oblasti statistiky, ale také data miningu a své odborné zkušenosti využívá v lektorské činnosti. V nemalé míře se podílí na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení v různých podnicích.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů