Jaké další typy grafů jsou součástí PS IMAGO PRO?

V článku budou představeny některé z dalších typů grafů, které jsou součástí PS IMAGO PRO.

Violin plot

Graf je často využíván pro znázornění rozložení číselné proměnné. Jeho přínos oceníme hlavně v situacích, kdy se porovnává rozdělení dané číselné proměnné napříč skupinami, které jsou obvykle určeny jinou kategorizovanou proměnnou. Umožňuje zjistit, v čem jsou skupiny podobné, nebo naopak, kde jsou výrazné rozdíly. Šířka křivky ve vybraném bodě představuje přibližnou četnost případů v tomto bodě. 

Graf bývá často doplněn prvky box-plotu, který poskytuje dodatečné informace o rozložení v dané skupině – obvykle medián, spodní a horní kvartil. Hlavním přínosem v porovnání s box-plotem však spočívá v tom, že vidíme kompletní rozdělení dat v jednotlivých skupinách.

Graf zobrazuje zisk koalice SPOLU ve volbách do Poslanecké sněmovny v roce 2021 v Praze, na Moravě a v Čechách. Rozdělení pro Čechy a Moravu si jsou velmi podobná. Praha naopak na první pohled vyčnívá. Graf je doplněn o tři body: medián, horní a dolní kvartil.





Nightingale Rose 

Tento typ grafu poprvé použila Florence Nightingalová, anglická ošetřovatelka a průkopnice lékařské statistiky, v roce 1858. Znázornila jím různé příčiny úmrtí vojáků během krymské války. Graf využívá polární soustavu souřadnic. Každé kategorii nebo intervalu v datech je přiřazen stejně velký segment. Podstatné pro interpretaci je, jak daleko od středu souřadnicové soustavy daný segment sahá. Čím větší je jeho vzdálenost od středu, tím větší hodnotu reprezentuje. Vybraný segment pak může být ještě barevně rozdělen do několika částí podle hodnot jiné kategorizované proměnné. Obvykle bývá i doplněn skládaným sloupcovým grafem.

Hlavní nevýhodou tohoto grafu může být, že větším segmentům se klade větší důraz kvůli jejich ploše. Zobrazení nemusí být vždy úměrné vzájemné velikosti jednotlivých segmentů.

Graf ukazuje počet narozených dětí v letech 2005, 2010, 2015 a 2020. Z velikosti segmentů lze vypozorovat, že nejvíce dětí se narodilo v roce 2010 (cca 120 000) a nejméně v roce 2005, téměř o 15 tisíc méně. Kromě srovnání počtu narozených dětí graf zároveň zobrazuje jejich rozdělení podle pořadí dítěte pro matku. Je možné srovnávat jednotlivé kategorie napříč roky, ale i srovnání kategorií v rámci jednoho roku. Například, v rámci sledovaných let se nejvíce v pořadí druhých dětí matkám narodilo v roce 2010, ale v daném roce se nejednalo o nejpočetnější kategorii.

Sankeyův diagram

Alternativním grafem pro zobrazení dat z předchozího příkladu je Sankeyův diagram. Poprvé jej použil v roce 1898 technik Matthew Sankey pro zobrazení účinnosti parního stroje. Skládá se z toků a uzlů. Uzly představují kategorie proměnných a toky mezi uzly reprezentují vztahy mezi kategoriemi. Velikosti uzlů a toků jsou úměrné počtu pozorování v datech, nebo jiné požadované hodnotě.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Bronislava Ondrušková
V roce 2018 ukončila bakalářský obor Matematické metody v ekonomii na Vysoké škole ekonomické v Praze a v roce 2022 dokončila magisterský studijní program Ekonometrie a operační výzkum na Fakultě informatiky a statistiky.  Již během studia pracovala v bankovním prostředí v oblasti analýzy dat. V současnosti pracuje ve společnosti ACREA jako analytička, konzultantka a lektorka se zaměřením na statistiku, reportování dat a programovací jazyk R. Ve společnosti ACREA CR pracuje jako analytička, konzultantka a lektorka.
Komentáře
  1. Zuzana napsal:

    Dobrý deň, ďakujem za užitočné informácie.
    Používam IBM SPSS Statistics 19. V ktorej verzii je mužné uvedené grafy produkovať?

    • info@acrea.cz napsal:

      Dobrý den, nejnižší dostupná verze je PS IMAGO 3, která obsahuje SPSS Statistics 23. V této verzi ale nejsou dostupné všechny grafy prezentované v článku, některé byly přidány až ve verzi PS IMAGO 5.1, jejíž součástí je SPSS Statistics 25. S přáním hezkého dne
      Ondrušková Bronislava

  2. Olga Dvořáčková napsal:

    Dobrý den,

    měla bych dotaz k Sankeyovu diagramu: překvapilo mne, že výška levého sloupce (počty dětí ve 4 letech) neodpovídá výšce pravého sloupce (počty dětí dle pořadí narození), a asi i vím proč (vlevo jsou tři mezery mezi barevnými oblastmi a vpravo jen dvě). Přesto se mi zdá, že to může být matoucí. Dá se to upravit na stejnou výšku?

    Napadlo mne použití grafu pro situaci, kdy srovnáme zastoupení stejných kategorií vlevo i vpravo mezi dvěma časovými body (např. změna názoru), kde by bylo jistě výhodné v případě rozdílů mezi velikostmi vzorků prezentovat místo četností procentuální zastoupení (suma vlevo i vpravo 100%) – to je možné?

    Děkuji za odpověď!

    • info@acrea.cz napsal:

      Dobrý den,

      rozdílná výška sloupců je skutečně způsobena mezerami. V nastavení grafu to lze upravit a mezery zcela odstranit, čímž se dosáhne požadovaného vzhledu a oba sloupce budou stejně vysoké. Pro srovnání stejných kategorií v různých časových bodech se graf také používá, příkladem je zobrazení změny volebních preferencí. V případe, že by ale byly v rozdílných časových bodech rozdílné i velikosti vzorků, způsobené například tím, že respondent odpověděl jen v prvním časovém bodě, bylo by nutné tento rozdíl nějakým způsobem ošetřit. Obvykle se takovým pozorováním přiřadí v grafu samostatná kategorie. S přáním hezkého dne
      Ondrušková Bronislava

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů