Diskriminační analýza: možnosti neprávem opomíjené techniky

Diskriminační analýza je jednou z nejstarších technik vícerozměrné analýzy dat. Díky tomu by mohla být velice rozšířená, ale opak je pravdou. Většina učebnic i výukových kurzů ji směle ignoruje, přitom jde o techniku, která velice jednoduše umožní predikovat hodnotu jedné nominální proměnné nebo, v sociálních vědách častěji, popsat vztah mezi jednou nominální proměnou a sadou kardinálních nebo dichotomických proměnných.

Uveďme si pro jednoduchost praktické ilustrace možností diskriminační analýzy, poslední pak doprovodíme i ukázkou části praktického výpočtu s interpretací výsledků.

Sir Fisher odvodil diskriminační analýzu jako techniku, která umožní rozlišit jednotlivé případy dle měřených charakteristik (kardinálních či dichotomických) do dvou a více skupin. Do dnešních dob je velice užívaná původní Fisherova úloha (data jsou zpravidla dostupná pod názvem iris data[1] a mají i svůj článek ve wikipedii) se čtyřmi druhů kosatců, kdy na základě délek a šířek kališních a okvětních lístků umí diskriminační analýza téměř s jistotou předpovědět o jaký typ kosatce jde. Musíme k tomu mít několik rostlin, u kterých máme kromě naměřených rozměrů kališních a okvětních lístků též informaci o jaký typ kosatce jde. Potřebujeme mít tedy informaci o skupinové příslušnosti aspoň u části námi zkoumaných jednotek. Obdobnou predikční úlohu je možné používat například v bance. Banka se musí u nového žadatele o úvěr rozhodnout, zda mu má půjčit (tj. zda není velké riziko, že přestane svůj závazek splácet). Pro tuto úlohu má banka k dispozici údaje o dřívějších dlužnících (ví, kdo splácel a kdo nikoli), nadto má o dlužnících též další údaje-prediktory splácení, např. velikost příjmu, úroveň dosaženého vzdělání, výši dalších závazků apod. Pokud bankéř zjistí hodnoty prediktorů od nového žadatele o úvěr je schopen kvalifikovaně rozhodnout[2], zda úvěr poskytnout.

V sociálních vědách používáme diskriminační analýzu spíše než predikčně jako techniku popisnou. Umožní nám popsat, v čem se odlišují různé skupiny. Můžeme tak například zjistit, v čem se liší lidé, kteří dbají o životní prostředí od ostatních, v čem se liší lidé šťastní od nešťastných, v čem se liší lidé žijící ve městech od obyvatel vesnic. Pro tuto popisnou úlohu zvolíme praktickou ilustraci, založenou na datech z mezinárodního projektu World Internet Project, využijeme data za ČR. Budeme si klást otázku, v čem se lišili (data jsou z roku 2008) uživatelé a neuživatelé Internetu. Konkrétně nás bude zajímat, které jsou klíčové charakteristiky pro odlišení těchto dvou skupin (jako prediktory využijeme: věk, pohlaví a vzdělání respondenta; příjem domácnosti, přítomnost dětí v domácnosti a velikost obce trvalého bydliště. Můžete si nyní tipnout, co bylo pro odlišení uživatelů a neuživatelů Internetu důležité, a co nikoli.

Výsledky nám poskytne SPSS[3] (skrze proceduru Analyze-Classify-Discriminant Analysis), my si z nich vybereme jedinou tabulku (tabulka 1), která odpoví na naši otázku. Jde o tabulku, která obsahuje standardizované koeficienty diskriminační funkce, tyto hodnoty jsou přímo srovnatelné, bez ohledu na měřící stupnice jednotlivých prediktorů.

Tabulka se standardizovanými koeficienty kanonické diskriminační funkce

Tabulka 1. Tabulka se standardizovanými koeficienty kanonické diskriminační funkce (odlišení uživatelů a neuživatelů Internetu)

Hodnoty srovnáváme bez ohledu na znaménka, tj. bereme absolutní hodnoty. Můžeme tedy konstatovat, že pro odlišení uživatelů a neuživatelů Internetu byl nejdůležitější věk (lze očekávat, že uživatelé byli spíše mladší[4], poté bylo důležité vzdělání a příjem. Velikost obce ani přítomnost dětí v domácnosti se neukázaly jako vhodné prediktory pro rozlišení uživatelů a neuživatelů Internetu (jejich vliv dosáhl maximálně desetiny vlivu věku respondenta).[5] A to je jistě zajímavý výsledek.

Chcete-li se dozvědět více o diskriminační analýze a naučit se tuto techniku prakticky používat, přihlaste se na kurz diskriminační analýzy nabízený společností ACREA.


[1] Např. skrze odkaz https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data.

[2] Bez těchto informací může dát na svůj první dojem z dlužníka, nebo si hodit korunou.

[3] Samozřejmě před zadáním samotného výpočtu je třeba zkontrolovat a upravit data, tuto fázi zde přeskočíme.

[4] Tento výsledek bychom zjistili z jiného výstupu diskriminační analýzy, který zde neuvádíme.

[5] Stačí srovnat hodnoty koeficientů, pro věk 0,782, pro velikost obce 0,082 a pro přítomnost dětí dokonce jen 0,028.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

PhDr. Ing. Petr Soukup, Ph.D.
Vystudoval Fakultu informatiky a statistiky na VŠE Praha, na Fakultě sociálních věd Karlovy univerzity získal v oboru sociologie titul Ph.D. a je také absolventem práva na Právnické fakultě Karlovy univerzity. Působí na FSV UK jako odborný asistent. Ve výuce se věnuje analýze dat a sociologii. S Českou školní inspekcí spolupracuje na mezinárodních vzdělávacích výzkumech. Své odborné znalosti předává i v rámci kurzů Centra výuky ACREA a také v bohaté publikační činnosti.
Komentáře
  1. Znaménko koeficientů napsal:

    „Hodnoty srovnáváme bez ohledu na znaménka, tj. bereme absolutní hodnoty. Můžeme tedy konstatovat, že pro odlišení uživatelů a neuživatelů Internetu byl nejdůležitější věk (lze očekávat, že uživatelé byli spíše mladší)“

    Mám sklon dívat se na koeficienty diskriminační funkce jako na korelační koeficienty, tudíž záporný koeficient by znamenal zmiňovanou převahu mladších nad staršími uživateli, nebo převahu uživatelů s vyšším vzděláním u kladného koeficientu. Jak moc se pletu?

  2. Koeficienty diskriminační funkce nejsou korelační koeficienty (takový výstup SPSS také má-korelace prediktoru a diskriminačního skóre). Koeficienty diskriminační funkce jsou analogií dílčích regresních koeficientů (nadto zde standardizovaných), tedy ukazují vliv jednotlivého prediktoru po zohlednění vlivu ostatních, v modelu zahrnutých, prediktorů. Nejblíže mají k dílčím (parciálním) korelacím. Máte plně pravdu, že znaménko pro interpretaci užít lze, správně dovozujete co bude znamenat záporné pro věk či kladné pro vzdělání. Ale abychom tuto interpretaci mohli provést, potřebujeme ještě vědět, že kladné hodnoty diskriminanční funkce mají pravděpodobní uživatelé Internetu, záporné neuživatelé (takový výstup SPSS též má, ale pro zjednodušení v blogovém příspěvku chybí). Nicméně i bez toho z opačných znamének pro věk a vzdělání vysoudíme opačný vliv těchto prediktorů a selský rozum nám napoví, kdo je spíše uživatelem a kdo nikoli. V každém případě děkuji za dotaz a doufám, že upřesnění pomohlo.

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů