The post Export dát z prostredia Power BI appeared first on ACREA.
]]>Pri exportovaní údajov z vizuálu zostavy v službe Power BI máme viacero možností, a to export súhrnných údajov a export základných údajov.
Pri exporte súhrnných údajov sa uložia len údaje, ktoré sa používajú na vytvorenie vizuálu. Ak sú vo vizuáli použité filtre, vyfiltrujú sa aj exportované údaje. Ak vizuál obsahuje agregované dáta, exportované dáta sú tiež agregované.
Pri exporte súhrnných dát máme tri možnosti výberu formátu a počtu riadkov, a to konkrétne:
Pri exporte základných údajov sa uložia nielen údaje z vizuálu ale aj ostatné údaje z modelu. Ak na vizuál sú aplikované filtre, údaje sa exportujú tak, ako sú vyfiltrované.
Na plnohodnotný export dát z prostredia Power BI môžeme použiť externý nástroj DAX Studio. Je to ideálny nástroj na optimalizáciu syntaxe DAX v Power BI a zlepšuje výkonnosť analytických dotazov.
DAX Studio umožňuje exportovať dáta z prostredia Power BI do formátu .csv, ktorý sa hodí pre menšie dátové súbory. Teoreticky MS Excel od verzie 2007 je schopný načítať 2^20 riadkov (1 048 576 riadkov). Druhá možnosť je export dát z prostredia Power BI do SQL databázovej tabuľky.
Najprv je potrebné si otvoriť Power BI Desktop s konkrétnym modelom a pod záložkou External tools si otvoríme DAX Studio, ktoré sa automaticky pripojí k Power BI a načíta metadáta daného modelu.
Pod záložkou Advanced zvolíme Export Data najpr do CSV súboru, kde nadefinujeme cestu, oddeľovač a kódovanie súboru. V ďalšom kroku vyberieme tabuľku, ktorú chceme exportovať a potvrdíme tlačidlom Export.
Pri exporte do SQL databázovej tabuľky musíme nadefinovať SQL server, databázu a spôsob autentifikácie.
V ďalšom kroku označíme tabuľky, ktoré chceme exportovať a potvrdíme tlačidlom Export.
Úspešný export máme zaznamenaný aj v logovacom okienku DAX Studia.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Export dát z prostredia Power BI appeared first on ACREA.
]]>The post Automatizované odstranění emoji z textu s využitím Pythonu appeared first on ACREA.
]]>Některé softwary neumí správně zpracovat všechny druhy vstupů. Programy mají často problém s texty obsahujícími netisknutelné znaky, speciálními formáty nebo například vloženými obrázky/emoji umístěnými přímo v textu. Dnešní článek je zaměřen na poslední uvedený případ neboli odstranění různých druhů emotikonů (definovaných pomocí Unicode, nikoliv obrázků) z textu uložených např. v Excelu.
Samozřejmě existuje více způsobů, jak se smajlíků z textu zbavit, např. lze jednoduše použít volbu Najít a Nahradit, kterou v dnešní době nabízí téměř každý program. Nevýhodou tohoto přístupu je však nutnost opakovat vyhledávání pro každý druh emotikony znova, takže v případě textu s desítkami až stovkami emoji se stává ruční práce velmi neefektivní.
Automatizovaný postup odstranění smajlíků z textu bude ukazován na následujících datech, ze kterých budeme chtít zanechat pouze text:
Odstranění emoji bude probíhat pomocí programovacího jazyka Python, proto je potřeba si nejprve Excel načíst do prostředí, ve kterém budeme spouštět kód pythonu (např. Visual Studio Code, Jupyter Notebook atd.). K načtení dat použijeme knihovnu pro manipulaci s daty Pandas. V úvodu práce si rovnou nainstalujme i knihovnu pro zadávání regulárních výrazů re, kterou využijeme v dalším kroku postupu.
Kód pro import knihoven:
import pandas as pd
import re
A pro načtení dat:
data_emoji = pd.read_excel(C:\odstraneni_emoji\emoji_seznam.xlsx‘, sheet_name= „seznam_emoji“)
K samotnému odstranění emoji budeme využívat nadefinovanou funkci, ve které jsou uvedeny Unicode pro různé druhy emotikon:
def remove_emoji(string):
emoji_pattern = re.compile(„[„
u“\U0001F600-\U0001F64F“
u“\U0001F900-\U0001F9FF“
u“\U0001F300-\U0001F5FF“
u“\U00002600-\U000026FF“
u“\U0001F680-\U0001F6FF“
u“\U0001F1E0-\U0001F1FF“
u“\U00002500-\U00002BEF“
u“\U00002702-\U000027B0″
u“\U00002702-\U000027B0″
u“\U000024C2-\U0001F251″
u“\U0001f926-\U0001f937″
u“\U00010000-\U0010ffff“
u“\U00002194-\U0000FE0F“
u“\U00002100-\U0000214F“
u“\U000000AE“
u“\U000020E3″
u“\U000000A9″
u“\U0000200D“
„]+“, flags=re.UNICODE)
return emoji_pattern.sub(r“, string)
Jakmile máme načtená data, připravené knihovny Pandas a re a zadefinovanou funkci, přejdeme ke spuštění funkce na našich datech. Zároveň je poté vhodné odstranit z počátku každého řádku mezeru, která zůstala po odstranění emotikonu (protože původní data byla ve formátu „emoji“+“mezera“+“textový popis emoji“).
data_emoji[„emoji“] = data_emoji[„emoji“].astype(str)
data_emoji[„emoji“] = data_emoji[„emoji“].apply(lambda x:remove_emoji(x))
data_emoji[„emoji“] = data_emoji[„emoji“].str.strip()
V našem případě byla původní data uložená ve formátu .xlsx, proto i po očištění byl při exportu zvolen formát .xlsx. Nicméně v praxi je mnohdy vhodnější používat spíše „obyčejnější“ formáty, např. .csv.
data_emoji.to_excel(„C:\odstraneni_emoji\Emoji_seznam_cisty.xlsx“, index=False, sheet_name= „seznam_emoji“)
Celý kód včetně zkušebního souboru lze stáhnout na tomto odkazu. Pozn.: Aby kód správně fungoval, je potřeba mít vytvořenou složku na disku C:\odstraneni_emoji\ a v ní uložený soubor Emoji_seznam.xlsx.
Vyčištění textu od všech emoji by se také dalo udělat opačným přístupem, a to povolením v kódu pouze ASCII znaků a případně české diakritiky. Ukázaný postup lze tedy využít zejména pro odstranění pouze vybraných emotikonů, a to jednoduchým ponecháním daného Unicode v Python kódu a smazáním řádků s ostatními Unicode.
Na závěr je nutné dodat, že i když v dnešní době je již velké množství emotikonů dostupných, tak se stále vytváří nové typy. Proto se může stát, že výše uvedený skript nedokáže nějaký emotikon odstranit. Pokud na takovou situaci narazíte, budeme rádi, když se o příslušný chybějící Unicode s námi podělíte prostřednictvím komentáře.
The post Automatizované odstranění emoji z textu s využitím Pythonu appeared first on ACREA.
]]>The post Co dělat, když Power Query (Excel, Power BI) automaticky nerozpozná názvy sloupců? appeared first on ACREA.
]]>Pokud již z náhledu okna Navigátoru je zřejmé, že názvy sloupců nebudou správně rozpoznány (místo původních názvů sloupců se zobrazí Column1, Column2 atd.), nedáváme ihned tlačítko Načíst, ale zvolíme možnost Transformovat data. Tím se dostaneme do editoru Power Query.
Poté stačí kliknout na kartě Domů na Použít první řádek jako záhlaví a je hotovo. Tato úprava se rovněž propíše do kroků Použitých postupů umístěných v pravé části obrazovky.
Zmíněný způsob je vhodný spíše pro jednorázové vyřešení problému s nenačtením názvů sloupců, protože v případě importu většího počtu souborů by bylo potřeba tento krok opakovat mnohokrát. Kromě toho tento postup často zbytečně navyšuje počet kroků úprav v editoru Power Query.
Ve většině případů je proto lepší Excel/Power BI rovnou nastavit tak, aby názvy sloupců byly automaticky rozpoznávány vždy. Toto nastavení najdeme v Excelu na záložce Data, kde rozklikneme tlačítko Načíst data a zvolíme poslední volbu Možnosti dotazu. V Power BI tuto položku nalezneme po kliknutí na Soubor – Možnosti a nastavení – Možnosti.
Dále (v Excelu i Power BI) zvolíme na záložce Načtení dat v oddíle Zjišťování typu první možnost, tedy Vždy rozpoznat typy a hlavičky sloupců pro nestrukturované zdroje.
Excel ani Power BI poté není potřeba restartovat, změna nastavení je ihned platná.
Nicméně existují situace, kdy nám nezbyde nic jiného než použít prvně zmíněný „jednorázový“ postup. A to například v případě, kdy všechny sloupce obsahují text, resp. u žádného ze sloupců není obsahem nějaké buňky pouze číslice.
V takové situaci výše zmíněná změna nastavení v oddíle Zjišťování typu bohužel nefunguje a pro správné zobrazení nadpisů je potřeba otevřít editor Power Query a manuálně určit, že má být první řádek použit jako názvy sloupců.
Pokud jste při své práci narazili na další případy, kdy nastavení automatického rozpoznání sloupců nefungovalo podle očekávání, budeme rádi, když se o ně s námi podělíte v komentářích tohoto článku.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Co dělat, když Power Query (Excel, Power BI) automaticky nerozpozná názvy sloupců? appeared first on ACREA.
]]>The post Analýza rozptylu a její předpoklady III appeared first on ACREA.
]]>ES je pro mnoho testů v podstatě testová statistika, ze které je odstraněn vliv počtu případů. U analýzy rozptylu je hodnota ještě odmocněna, druhá mocnina ES je rovna podílu vnitroskupinového (WSS) a meziskupinového (BSS) součtu čtverců. Jiné vyjádření velikosti efektu vychází z vysvětleného rozptylu, pak je velikost efektu rovna podílu vnitroskupinového a celkového součtu čtverců, podíl se nazývá η2. Mezi oběma formulacemi platí jednoduchý vztah.
V simulaci se uvažovaly hodnoty ES od 0 do 0,55, podle druhého vyjádření do 0,23. Horní hranice je již považována za silný efekt. Simulace byly provedeny pro 50 různých hodnot ES a pro každou bylo vytvořeno 40 000 simulací, zvlášť pro každý test a odlišné parametry simulace. To umožnilo stanovit podrobně vývoj silofunkce jednotlivých testů. Silofunkce závisí také na zvolené hladině významnosti testu a počtu případů. První hodnota je standardních 5 % a druhá 60 případů ve výběru, jako při ověřování testů při platnosti nulové hypotézy.
Silofunkce jsou různé pro každou kombinaci parametrů simulace a nelze je proto zde všechny uvést. Zaměříme se jen na reprezentanty typických situací. Na Obr. 1 je síla testu při splnění všech předpokladů testu ANOVA, graf zachycuje ideální situaci. Silofunkce v bodě 0 je vždy rovna empirické signifikanci. Pokud je ES rovna 0, jedná se vlastně o nulovou hypotézu a silofunkce má interpretaci empirické signifikance. Čím větší je ES, tím je silofunkce větší, protože nulová hypotéza je tím pravděpodobněji zamítnuta, čím více je porušena. Síla závisí také na počtu případů, proto je pro obecné závěry smysluplné jen porovnávat jednotlivé testy. Síla jednotlivých testů je při splnění předpokladů ANOVA téměř stejná, ale při podrobnějším pohledu si lze všimnout, že nejvyšší hodnoty dosahuje klasický test ANOVA. Hodnoty Silofunkcí v bodě 0 jsou 5 %, což odpovídá zjištěním v minulém článku Analýza rozptylu a její předpoklady II. V ideální situaci můžeme zvolit prakticky libovolný test. Srovnáním se situací, kdy jsou všechny skupiny navíc stejně veliké, bychom zjistili, že síla testu je stejná. Není tedy pravda, že síla testu je největší u stejně velkých skupin, jak se někdy traduje.
Na Obr. 2 je situace, kdy je výrazně porušena normalita, ale jsou zachovány stejné rozptyly ve skupinách. Data jsou sešikmena, přičemž je sešikmení ve všech skupinách stejné. V této situaci výrazně vyniká Kruskalův-Wallisův test. Taková data jsou pro jeho použití nejvhodnější, protože se srovnávají skupiny s nenormálním rozdělením, které se mezi sebou liší jen střední hodnotou, tvar rozdělení je stejný. Silofunkce v bodě 0 (signifikance) je u všech testů přibližně správných 5 %, což opět odpovídá závěrům z minulého článku.
Na Obr. 3 jsou silofunkce v situaci, kdy data mají normální rozdělení ve skupinách, ale rozptyly jsou různé. Z předchozích článků víme, že v této situaci je nutné použít robustní testy, aby byla signifikance spočtena správně. Vhodnost robustních testů dokládají i jejich silofunkce, které nejen začínají přibližně na správné hodnotě 5 %, ale nabývají i větších hodnot než u klasického testu ANOVA nebo neparametrického Kruskalova-Wallisova testu. Z robustních testů dosahuje lepších výsledků Welchův test.
Obr. 4 ukazuje nejméně příznivou situaci, kdy data mají různé rozptyly ve skupinách a pocházejí z výrazně šikmého rozdělení. Z předchozího článku víme, že signifikanci nepočítá správně žádný test, ačkoliv robustní testy jsou jí nejblíže. Z grafu je patrné, že nejsilnějším testem je klasická ANOVA, to je však jen díky tomu, že začíná na signifikanci okolo 20 % a ne na 5 %, které by měla správně dosáhnout. Protože nevíme, která hypotéza ve skutečnosti platí, je tento test v praxi nepoužitelný. Pokud by platila nulová hypotéza, byl by velmi zavádějící. Podobné je to s Kruskallovým-Wallisovým (KW) testem, signifikance opět neodpovídá 5 %. Test má i zvláštní průběh silofunkce, která nejprve klesá a teprve pak roste. Důvodem je odlišně formulovaná nulová hypotéza testu. Ta tvrdí, že skupiny pocházejí ze stejného rozdělení, rozdělení se mohou lišit i jinak než střední hodnotou, např. rozptylem nebo šikmostí. Náš efekt odráží odlišnost jen ve středních hodnotách a není to přesně ten efekt se kterým KW test počítá. Pro přesné chování KW testu by se musela použít specificky spočtená velikost efektu. Pokud nás zajímají jen střední hodnoty je v této situaci KW nejméně vhodnou variantou. Nejlepší možností zůstávají robustní testy. I ony mají skutečnou signifikanci odlišnou od 5 %, ale rozdíl je z uvažovaných testů nejmenší. Z průběhu silofunkce vychází jako nejlepší Welchův test. Malý pokles silofunkce je i u Brownova-Forsytheova testu, jeho nulová hypotéza je zde sice stejná jako u ANOVA, ale ES se počítá mírně odlišně, což vedlo k mírnému poklesu silofunkce.
Závěrem lze shrnout, že v případě splnění všech předpokladů pro ANOVA jsou testy téměř ekvivalentní. Při nesplnění se musíme nejprve řídit správností signifikance (viz Analýza rozptylu a její předpoklady I a II) a pak můžeme volit silnější test. Největší rozdíl v síle je při správném použití KW testu, tedy pro situaci, kdy rozdělení nejsou normální, ale jejich tvar je ve skupinách shodný a liší se jen posunutím. Pak je KW test silnější než klasická ANOVA nebo robustní testy.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Analýza rozptylu a její předpoklady III appeared first on ACREA.
]]>The post Využijte dotaci MPSV na vaše vzdělávání appeared first on ACREA.
]]>Výše dotace činí 82 % z ceny kurzu a každý takto může vyčerpat až 50 000 Kč během 3 let. V případě schválení požadavku uhradí samotný účastník pouze 18% ceny kurzu.
Každý, kdo si chce zvýšit své odborné dovednosti a zlepšit si svou pozici na trhu práce. Na kurzy se tedy mohou přihlásit:
Pokud jste již registrováni jako Uchazeč o zaměstnání v evidenci Úřadu práce, stačí si najít kurz a vyplnit přihlášku. Pokud pracujete, jste na mateřské nebo rodičovské dovolené, stačí se zaregistrovat jako tzv. Zájemce o zaměstnání – tato registrace je neveřejná a umožní vám čerpat prostředky pro zvyšování vaší kvalifikace a dovedností. Žádost o vedení v evidenci Zájemců o zaměstnání bude součástí vaší přihlášky. Při odeslání žádosti o kurz však máte možnost zakliknout, že po absolvování kurzu chcete být z evidence zájemců o zaměstnání vyřazeni.
Na kurz je nutné se přihlásit nejméně 30 dnů před konáním kurzu. Lhůta na schválení přihlášky je právě 30 kalendářních dnů – pokud úřad práce vaši přihlášku schválí, vystavíme na vaše jméno zálohovou fakturu na zaplacení doplatku kurzu ve výši 18% z ceny kurzu. Zálohovou fakturu je nutné uhradit před konáním kurzu.
Našich kurzů se můžete účastnit prezenčně nebo online. Úřad práce poskytne příspěvek na úhradu kurzu, pokud účastník kurzu absolvuje celý kurz, minimálně však 80 % vyučovacích hodin. Počet absolvovaných hodin musí být nejméně 16 vyučovacích hodin.
Přihlášku můžete podat vždy jen na jeden kurz. Na další kurz je možné se přihlásit až po absolvování předchozího kurzu.
Název kurzu | Termín konání | Prezenční forma | Online forma |
---|---|---|---|
Modelování statistických vztahů (IBM SPSS Amos) | 22. – 24. 1. 2024 | odkaz | odkaz |
Semestrální kurz: Datová věda a Python | 7. 3. – 16. 5. 2024 | odkaz | odkaz |
Semestrální kurz: Statistická analýza dat v praxi | 8. 3. – 14. 6. 2024 | odkaz | |
Analýza dat ve zdravotnictví | 18. – 20. 3. 2024 | odkaz | odkaz |
Základy statistiky pro analýzu dat | 25. – 27. 3. 2024 | odkaz | |
Korelační a Regresní analýza | 8. – 10. 4. 2024 | odkaz | odkaz |
Analýza a predikce časových řad v jazyce R | 13. – 15. 5. 2024 | odkaz | odkaz |
Analýza kategorizovaných dat | 3. – 5. 6. 2024 | odkaz | odkaz |
Těšíme se na vaší účast na kurzu.
Přehled všech kurzů nabízených společností ACREA najdete na www.kurzystatistiky.cz.
The post Využijte dotaci MPSV na vaše vzdělávání appeared first on ACREA.
]]>The post Analýza rozptylu a její předpoklady II appeared first on ACREA.
]]>V minulém článku Analýza rozptylu a její předpoklady I jsme se zabývali důsledky porušeného předpokladu pro testování hypotézy o shodě středních hodnot. Článek shrnoval hlavní závěry pro klasický ANOVA test, pro robustní testy Welchův a Brownův-Forsytheův a pro neparametrický Kruskalův-Wallisův test. V tomto článku se podrobněji seznámíme s parametry simulace i jejími výsledky.
Simulace byla provedena v programu IBM SPSS Statistics 28. Byly provedeny simulace pro kombinace několika vlastností simulovaných proměnných a skupin. Vždy byly uvažovány 3 skupiny, skupiny měly buď po 20 případech nebo 10, 20 a 30 případů, výběr měl tedy vždy velikost 60 případů. Data byla generována z normálního, Laplaceova a posunutého lognormálního rozdělení. U všech rozdělení se generovala data se stejným i s rozdílným rozptylem, ve druhém případě byly směrodatné odchylky ve skupinách 1, 2 a 4. U lognormálního rozdělení se navíc uvažovala různá šikmost, ta byla ve skupinách buď stejná a to 1 nebo 3, nebo v každé rozdílná a to pak 1, 2 a 3. Pro každou kombinaci parametrů simulace bylo vygenerováno 10 000 náhodných souborů. Na nich se pak spočítaly podle vzorce teoretické signifikance ANOVA, Welchova a Brownova-Forsythova testu a Kruskalova-Wallisova testu. V základní simulaci se pro ověření správnosti signifikance uvažovala stejná střední hodnota ve skupinách. V rozšířené variantě se sledovalo i chování testů při odlišných středních hodnotách (síla testu).
Z uvažovaných rozdělení je méně známé posunuté lognormální rozdělení. Náhodná veličina Y = X – m, kde m je parametr polohy, má posunuté lognormální rozdělení, když náhodná veličina X má lognormální rozdělení. Rozšíření lognormálního rozdělení bylo nutné, aby se mohlo dosáhnout všech kombinací střední hodnoty, rozptylu a šikmosti generovaných dat. Ze zvolených kombinací střední hodnoty (pro ověření signifikance vždy 0), rozptylu a šikmosti byly spočteny parametry všech rozdělení a nasimulována data. U normálního a Laplaceova rozdělení je vztah k jejich parametrům přímočarý, u posunutého lognormálního jde o složitější soustavu rovnic, která má naštěstí explicitní řešení.
Na každém nasimulovaném výběru byly spočítány teoretické signifikance zmíněných testů. Protože testů bylo pro každou kombinaci parametrů 10 000, bylo možné přesně odhadnout skutečné (empirické) signifikance pomocí empirické distribuční funkce. Výsledky lze zobrazit několika způsoby, nejpodrobnější je vykreslit testové teoretické signifikance vůči empiricky odhadnutým. Pokud jsou předpoklady testu správné, budou si teoretické a empirické signifikance rovny a v grafu budou ležet na ose prvního kvadrantu. Pro srovnání jednotlivých kombinací parametrů simulace je vhodnější vypočítat signifikanci v jednom bodě konkrétně pro 5 %. Zatím účelem byla vytvořena proměnná typu 0–1, která nabyla hodnoty 1, pokud spočtená signifikance byla menší než 5 %. Při správnosti použití testu by měl být podíl takových testů (empirická signifikance) 5 %. Uvedený výpočet umožňuje spočítat i intervaly spolehlivosti podílu signifikantních testů.
Podrobné výsledky
Výsledky jsou na Obr. 1 až Obr. 4. Parametry simulace jsou uvedeny v jednotném schématu. První část je typ simulovaného rozdělení, tři čísla v závorce za SD jsou směrodatné odchylky v první, druhé a třetí skupině, za SKW šikmosti a za N počty případů. Podnadpis grafu označuje druh testu. V grafu čtenář nalezne výsledky pro konkrétní parametry simulací. Empirická signifikance se příliš neliší od teoretické hodnoty 5 %. Při normalitě nebo symetrii rozdělení je situace nejlepší. Při šikmém rozdělení dosahuje nejlepších výsledků klasická ANOVA, použití robustních testů, zejména Welchova je v této situaci kontraproduktivní. Stejně málo vhodné je použít Kruskalův-Wallisův test, který je ale pro tuto situaci hojně doporučován. Při doporučení se mnohdy zapomíná na fakt, že nulová hypotéza testu není shoda středních hodnot, ale celková shoda rozdělení ve skupinách. Nulová hypotéza je zamítnuta i pokud se skupiny liší třeba rozptylem, šikmostí nebo obecně tvarem rozdělení. Jako analogie ANOVA testu se test dá použít, jen v případě, že odlišnost mezi skupinami je způsobena jen posunutím. V grafu na Obr. 4 jsou to situace, kdy se neliší ani šikmosti ve skupinách. Nejlepší výsledky pak v tomto případě Kruskalův-Wallisův test dosahuje při nenormalitě, ale to se projeví až v síle testu popisované v dalším článku Analýza rozptylu a její předpoklady III.
Obr. 1 Empirická signifikance při platnosti nulové hypotézy a homoskedasticitě – ANOVA
Obr. 2 Empirická signifikance při platnosti nulové hypotézy a homoskedasticitě – Brown-Forsythe
Obr. 3 Empirická signifikance při platnosti nulové hypotézy a homoskedasticitě – Welch
Obr. 4 Empirická signifikance při platnosti nulové hypotézy a homoskedasticitě – Kruskal-Wallis
Obr. 5 až Obr. 8 ukazují skutečnou signifikanci při heteroskedasticitě, kde na vodorovné ose je vynesen logaritmus empirické signifikance. Čtenář se může podívat na konkrétní parametry simulace. Celkově se dá shrnout, že nejlepších výsledků dosahují robustní testy, při normalitě nebo alespoň při symetrickém rozdělení jsou výsledky velmi dobré. Při sešikmeném rozdělení jsou horší, ale stále není nic lepšího k dispozici. Kruskalův-Wallisův test má skutečné signifikance mnohdy velmi odlišné od teoretických 5 %, což je opět důsledkem jinak formulované nulové hypotézy, než u ostatních testů.
Obr. 5 Empirická signifikance při platnosti nulové hypotézy a heteroskedasticitě – ANOVA
Obr. 6 Empirická signifikance při platnosti nulové hypotézy a heteroskedasticitě – Brown-Forsythe
Obr. 7 Empirická signifikance při platnosti nulové hypotézy a heteroskedasticitě – Welch
Obr. 8 Empirická signifikance při platnosti nulové hypotézy a heteroskedasticitě – Kruskal-Wallis
Pohled na chování testů pro 5 % hladinu významnosti jsou jen jedním, i když nejdůležitějším pohledem na dosažené signifikance. Podrobnější pohled nabízí již zmíněné srovnání teoretické a empirické distribuční funkce. Na Obr. 6 je ukázka grafu srovnávající distribuční funkce při splnění předpokladů analýzy rozptylu. Není překvapením, že teoretická funkce, spočtená podle vzorce, odpovídá v tomto ideálním případě empirické funkci. Shodu funkcí představuje černá linie, osa prvního kvadrantu.
Odlišná je situace pro sešikmené rozdělení ale se stejnými rozptyly. Na Obr. 7 je shoda rozptylů sice zachována, ale rozdělení je sešikmené, a navíc skupiny obsahují různý počet případů. Hodnoty pod linií shody znamenají, že skutečná (empirická) signifikance je menší než spočtená a naopak. Z grafu je patrné, že kromě Welchova testu je spočtená signifikance větší a test je konzervativní. Welchův test má v této situaci naopak ve skutečnosti vyšší hodnotu signifikance, než udává jeho vzorec. Místo 5 % je signifikance asi 7 % a aby byla skutečná signifikance 5%, musí test vyjít se signifikancí asi 3 %. Rozdíly jsou ale i u nejhoršího Welchova testu celkem nevelké. Opět se ukazuje, že nenormalita dat není příliš velikým problémem.
Zcela jiná situace nastává u heteroskedasticity, a to i když je zachována normalita dat. (Obr. 8). Zatímco u robustních testů vychází signifikance podle vzorce správně, u klasického testu ANOVA a také u Kruskalova-Wallisova testu je empirická signifikance výrazně odlišná od vypočtené. V tomto konkrétním případě je skutečná signifikance vyšší a test může chybně zamítnout nulovou hypotézu, např. u ANOVA testu je skutečná signifikance 20 % a podle vzorce vychází 5 %. Obecně nelze říci, zda test signifikanci nadhodnocuje nebo podhodnocuje.
Nejhorší kombinace je tehdy, když je s heteroskedasticitou spojena výrazná a navíc různá šikmost ve skupinách. Z předchozího článku Analýza rozptylu a její předpoklady I víme, že v tomto případě neexistuje uspokojivá volba testu. Obr. 12 to potvrzuje, v tomto případě je skutečná signifikance vždy vyšší. Nejmenší rozdíl je u robustních testů, ale např. klasická ANOVA dosahuje 20 % místo spočtených 5%. K této situaci je třeba přistoupit pragmaticky. V bodě, kdy je skutečná signifikance robustních testů 5 %, vychází u nich signifikance asi 3 %. Pokud je tedy signifikance nízká např nižší než 0,01%, je velmi nepravděpodobné, že skutečná by byla nad 5 %. V praxi se často stává, že vypočtená signifikance nabývá extrémně nízkých hodnot, pak můžeme považovat výsledky testu za správné i při nepříznivých kombinacích. Vždy je ale vhodné použít test, který je zkreslen nejméně.
Uvedené průběhy empirické a teoretické distribuční funkce jsou jen ukázkou, analogické grafy se dají zkonstruovat pro všechny kombinace parametrů simulace. Pro jejich množství je zde nelze uvést.
Obr. 9 Empirická a teoretická distribuční funkce signifikance při homoskedasticitě a normálním rozdělení
Obr. 10 Empirická a teoretická distribuční funkce při homoskaeasticitě a sešikmeném rozdělení
Obr. 11 Empirická a teoretická distribuční funkce při heteroskedasticitě a normálním rozdělení
Obr. 12 Empirická a teoretická distribuční funkce při heteroskedasticitě a sešikmeném a rozdělení
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Analýza rozptylu a její předpoklady II appeared first on ACREA.
]]>The post Analýza rozptylu a její předpoklady I appeared first on ACREA.
]]>Mezi uživateli statistických metod je rozšířen předpoklad, že normalita dat je u testů, které ji předpokládají, zásadní podmínka použití testu. Tento článek popisuje, že alespoň pro analýzu rozptylu to není pravda a normalita není zásadní, zásadní je ale požadavek na shodu rozptylu. Zjištění vycházejí z výsledků testů nad daty simulovaných z různých rozdělení. Kromě samotné analýzy rozptylu byly zkoušeny i její robustní varianty a také neparametrický Kruskalův-Wallisův test. Pro pragmaticky založeného čtenáře bude dostatečné seznámit se ze závěry simulace, zvídavější čtenář se může dočíst více o samotné simulaci.
Nejprve ale shrňme, co se testem analýzy rozptylu testuje a jaké jsou jeho předpoklady. Test se používá v situaci, kdy chceme potvrdit, že se zvolená proměnná mezi skupinami liší. Např. nás zajímá, zda se liší výsledek maturit žáků mezi jednotlivými druhy středních škol. Nulová hypotéza testu tvrdí, že střední hodnoty, jež se odhadují průměrem, jsou ve všech skupinách stejné. Alternativní hypotéza připouští alespoň u jedné skupiny odlišnou hodnotu. Z dat se počítá testové kritérium, které ukazuje míru nesplnění nulové hypotézy, a z něj se počítá signifikance. Ta se dá interpretovat jako pravděpodobnost, s jakou je spočtená odchylka od nulové hypotézy způsobena jen náhodou. Přesněji pravděpodobnost, že odchylka je alespoň tak veliká, jak se spočítalo z dat.
Standardně se podle zvyku pravděpodobnost pod 5 % považuje jako příliš malá a tvrdíme, že odchylka není způsobena jen náhodou, a že nulová hypotéza neplatí. Aby byla signifikance spočtena správně musí data splňovat určité předpoklady.
Hlavní závěry
ANOVA
Základní výsledky simulace pro analýzu rozptylu jsou shrnuty v následujících bodech. Data byla nasimulována při platnosti nulové hypotézy a pro tři skupiny. Velikost simulovaného souboru byla 60 případů. Vždy se porovnávala teoretická signifikance spočtená podle vzorce se skutečnou (empirickou) hodnotou zjištěnou ze simulovaných dat.
Na rozdíl od všeobecně rozšířené představy není normalita při splnění rovnosti rozptylů zásadní, i výrazně sešikmená data rychle konvergují s růstem počtu případů ke správným hodnotám signifikance. Například při šikmosti 3 a 20 případech v každé skupině je signifikance podhodnocena jen o půl procentního bodu. S dostatečnou mírou opatrnosti lze předpokládat, že když pro nenormální data vyjde signifikance pod 1 %, bude i skutečná signifikance pod 5%. Naopak, vyjde-li nad 10 %, bude i skutečná signifikance nad 5 %.
Rozdílné rozptyly (heteroskedasticita) mají na signifikanci větší dopad a situace se nezlepší ani s růstem počtu případů. Heteroskedasticita je ještě přijatelná při normálním, resp. symetrickém rozdělení a zároveň stejném počtu případů ve skupinách, např. při rozptylech 1, 2 a 4 a 20 případech ve skupině je signifikance nadhodnocena asi o 2 procentní body. Takové konstelace dat jsou ale v praxi vzácné. Typické jsou situace, kdy se k heteroskedasticitě přidá nenormalita nebo různá velikost skupin. Pak jsou spočtené signifikance daleko od skutečných. Výjimkou není ani situace, kdy skutečná signifikance není 5%, jak udává výpočet, ale 20 %. Test vede ke zcela chybnému zamítnutí nulové hypotézy.
Robustní testy analýzy rozptylu (Welchův a Brownův-Forsytheův test)
Co tedy dělat, pokud se rozptyly nerovnají? Nejjednodušší variantou je dnes spočítat robustní testy analýzy rozptylu, které shodu rozptylu nepředpokládají. V SPSS Statistics je implementován Welchův a Brownův-Forsytheův test. Následující body shrnují jejich vlastnosti.
Stručně lze shrnout, že testy opravdu vyřeší heteroskedasticitu, ale jsou citlivější na předpoklad normality dat, který je s nimi spojen. Jsou citlivější než klasická ANOVA. Ve vzácných případech, kdy data nejsou normálně rozdělena, ale mají stejné rozptyly je vhodnější klasická ANOVA. Protože je ale nenormalita obvykle spojena i s heteroskedasticitou, jsou obvykle lepší variantou robustní testy. Přesto je v takovém případně nutno vzít v úvahu, že skutečná signifikance se liší od té vypočítané podle testu, místo 5% může být až 10 %. Nicméně ve většině případů, lze učinit závěry i za této nepříznivé situace. Signifikance často vycházejí při zamítnutí nulové hypotézy velmi nízké, typicky nižší než 0,1%. V takovém případě lze spolehlivě předpokládat, že ani správná hodnota signifikance nepřekročí 5%, v nejhorším případě bude o řád větší. Pokud ale signifikance vyjde mírně pod 5 % nelze úlohu spolehlivě vyřešit.
Kruskalův-Wallisův test (KW)
Tradičním doporučením při nenormalitě nebo heteroskedasticitě je použít neparametrický Kruskalův-Wallisův test, dále jen KW test. Následující body shrnují výsledky simulace.
Z uvedených závěrů vyplývá, že při heteroskedasticitě nebo i různých šikmostech ve skupinách je KW test zcela nevhodný. Je to horší varianta než obyčejná ANOVA. Proč se tedy tak často doporučuje a v některých oborech je standardem při nenormalitě okamžitě použít KW test? Doporučení patrně plyne z chybné interpretace testu. KW test nemá nulovou hypotézu rovnost středních hodnot, ale shodu rozdělení ve skupinách. KW test tedy testuje, zda jsou celá rozdělení shodná, nejen, zda mají rozdílnou střední hodnotu. Skupiny se mohou lišit rozptylem, šikmostí nebo i dalšími parametry rozdělení, to vše KW test zahrnuje do alternativní hypotézy. KW test funguje správně, ale je špatně interpretován. Pro test o shodě středních hodnot ho lze použít jen, pokud je zaručeno, že ostatní vlastnosti rozdělení se neliší, a rozdělení jsou jen posunuta. V tom případě je při nenormalitě lepší variantou než ostatní testy.
Závěrečné doporučení na základě simulace
Neuspokojivé řešení situace při současné nenormalitě i heteroskedasticitě a odlišná intepretace KW testu otevírají možnost podívat se na srovnání skupin komplexněji. Pokud nás zajímá odlišnost skupin může být porovnávání jen středních hodnot příliš omezující. Střední hodnota dobře reprezentuje rozdělení jen u těch symetrických a i u nich může být různý rozptyl ve skupinách cenným poznatkem. Na shodu skupin je proto vhodné se podívat z více úhlů: graficky znázornit rozložení hodnot ve skupinách (populační pyramida), provést test středních hodnot (ANOVA, robustní ANOVA) i rozptylů (Levenův test) a otestovat i shodu celých rozdělení (KW test). Z výsledků testů a grafů si lze pak učinit komplexní závěr o rozdílnosti skupin. Nicméně, pokud je třeba přece jen provést a publikovat test o středních hodnotách, lze vhodný test zvolit podle následujícího schématu.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Analýza rozptylu a její předpoklady I appeared first on ACREA.
]]>The post Desatinná bodka alebo čiarka vo výstupných tabuľkách SPSS appeared first on ACREA.
]]>Existujú situácie, napríklad pri publikácií článku v zahraničnom časopise, kde sa vyžaduje aby vo výstupných tabuľkách bol desatinný oddeľovať bodka a taktiež aby oddeľovač tisícin bola čiarka. To je možné dosiahnuť tak, že nastavíme vhodné Locale v softvére IBM SPSS Statistics.
V tomto prípade sa hodí napríklad anglické US Locale. Zmenu Locale realizujeme v syntaxovom okne pomocou príkazu SET LOCALE en_US. a skontrolujeme túto zmenu pomocou príkazu SHOW LOCALE.
Požadovaný oddeľovač tisícin nastavíme, zaškrtnutím voľby Apply locale`s digit grouping format to numeric values v nastaveniach IBM SPSS Statistics, a to Edit – Options.
Tieto zmeny sa prejavia vo všetkých výstupných tabuľkách, ktoré boli vytvorené po spustení tohto príkazu a voľby v nastaveniach IBM SPSS Statistics.
V prípade, že nie je požadovaný oddeľovač tisícin čiarka, postačí odškrtnúť voľbu Apply locale`s digit grouping format to numeric values v nastaveniach IBM SPSS Statistics a výstupné tabuľky po uskutočnení tejto voľby budú zobrazené bez oddeľovača tisícin.
V prípade, že požadujeme aby vo výstupných tabuľkách SPSS bol nastavený ako desatinný oddeľovač čiarka a oddeľovač tisícin bola medzera nastavíme v softvéri IBM SPSS Statistics slovenské alebo české Locale.
Požadovaný oddeľovač tisícin nastavíme, zaškrtnutím voľby Apply locale`s digit grouping format to numeric values v nastaveniach IBM SPSS Statistics. V prípade že nie je požadovaný oddeľovač tisícin túto voľbu nezaškrtneme.
Často sa stáva, že pri exporte výstupných tabuliek SPSS napríklad do MS Excel nie je zachovaný ten istý desatinný oddeľovač, prípadne desatinné čísla sú v MS Excel uvádzané ako dátum.
Tento problém je možné odstrániť voľbou konkrétneho desatinného oddeľovača a konkrétneho oddeľovača tisícin v nastaveniach operačného systému MS Windows.
Exportovaná tabuľka do MS Excel má desatinný oddeľovač čiarku a oddeľovač tisícin je medzera.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post Desatinná bodka alebo čiarka vo výstupných tabuľkách SPSS appeared first on ACREA.
]]>The post 2. Jak efektivně sloučit listy/sešity Excelu dohromady? appeared first on ACREA.
]]>Ukázka bude opět prováděna na datech měsíční míry nezaměstnanosti v České republice za období 01/2022-03/2023 získaných ze stránek MPSV (https://www.mpsv.cz/web/cz/mesicni) s několika vstupními úpravami pro potřebu ukázky (rozbalení formátu .zip, přejmenování či přemístění souborů do jedné složky).
Jak sloučit několik listů z různých sešitů dohromady?
Stejně jako při spojování tabulek z jednoho listu v několika sešitech, i v případě slučování dat z více listů použijeme Excelový doplněk Power Query. Například v prázdném sešitu vybereme na kartě Data možnost Načíst data – Ze souboru – Ze složky a zvolíme příslušnou složku, ve které jsou soubory uloženy. V dalším kroku stiskneme možnost Transformovat.
Platí, že pro co nejjednodušší slučování musí být všechny soubory uložené v jedné složce, mít stejnou příponu (nikoliv kombinace .xls a .xlsx), údaje se musí nacházet ve všech Excelech ve stejných sloupcích a listy, které chceme spojovat, by měly mít stejný název ve všech sešitech.
Jakmile po výběru složky zvolíme možnost Transformovat data, otevře se editor Power Query. Vybereme typicky v pořadí první dva sloupce Content a Name (pomocí klávesy Shift) a pravým tlačítkem vybereme položku Odebrat ostatní sloupce.
Dále přidáme Vlastní sloupec a do zadávacího okna napíšeme příkaz Excel.Workbook([Content]).
Dále klikneme na symbol šipek u nově vytvořeného sloupce s názvem Vlastní a obsah sloupce rozbalíme prostřednictvím tlačítka OK.
Zkontrolujeme, že ve sloupci Vlastní.Kind se nachází pouze položky listů Sheet, nikoliv nic dalšího. Pokud tomu tak není, ostatní položky odebereme – v našem případě odškrtneme DefinedName.
V dalším kroku je potřeba odebrat všechny ostatní sloupce kromě názvu souboru Name, názvu listu Vlastní.Name a sloupce ukrývající samotná data Vlatní.Data.
Následně již rozbalíme jednotlivé tabulky ve sloupci Vlastní.Data prostřednictvím kliknutí na šipky ve hlavičce sloupce. Zejména pokud by se v načítaných sešitech Excelu nacházely nadpisy sloupců v prvním řádku, je vhodné rovněž odškrtnout volbu Používat původní název sloupce jako předponu.
Tímto postupem došlo k načtení dat z tabulek z jednotlivých listů ze všech sešitů uložených ve složce.
Jelikož se však načetla data z celých listů a v našem případě se nejednalo o základní tabulky, ve kterých by data začínala na prvním řádku a navíc obsahují několik sloupců, kdy se na každém listu nachází jiná proměnná, bylo potřeba takto načtená data dále upravit. Celý postup spojování včetně dalších úprav vhodných pro analýzu zachycuje následující video.
The post 2. Jak efektivně sloučit listy/sešity Excelu dohromady? appeared first on ACREA.
]]>The post 1. Jak efektivně sloučit listy/sešity Excelu dohromady? appeared first on ACREA.
]]>Spojit dohromady data ze dvou nebo tří souborů zpravidla není problém a zvládne jej každý analytik pomocí prostého kopírování CTRL+C a CTRL+V. Nicméně občas je vstupních souborů k dispozici opravdu mnoho a v takovém případě by již ruční práce byla velmi neefektivní, a to jak z ohledu časové náročnosti, tak pro riziko různých chyb. Z toho důvodu je často lepší vytvořit automatizované řešení, které sloučení souborů udělá za nás.
Jedním z vhodných nástrojů pro tuto činnost je Excelový doplněk Power Query. V tomto a navazujícím článku si postupně ukážeme, jak s pomocí Power Query poměrně jednoduše spojit dohromady:
Pozn.: Sloučení dat z několika listů jednoho sešitu dohromady lze pohodlně provést např. prostřednictvím funkce SVYHLEDAT().
Příklady budou názorně prezentovány na datech zachycujících měsíční míru nezaměstnanosti v České republice v období 01/2022-03/2023, jenž byly získány ze stránek MPSV (https://www.mpsv.cz/web/cz/mesicni) a následně vhodně upraveny pro potřeby ukázek (rozbalení formátu .zip, přejmenování či přemístění souborů do jedné složky).
Jak efektivně sloučit několik sešitů dohromady?
Cílem této části článku je získat jednu souhrnnou tabulku s měsíčními podíly nezaměstnaných osob ve všech okresech ČR od roku 2022. Konkrétně půjde o spojení tabulek jednoho konkrétního listu nacházejícího se v 15 samostatných excelovských souborech. Ke správnému načtení dat je zapotřebí, aby všechny soubory byly uloženy v jedné složce, měly stejnou příponu (tedy nikoliv např. kombinace .xls a .xlsx), údaje se nacházely ve všech Excelech ve stejných sloupcích a listy, které chceme spojovat, měly stejný název ve všech sešitech.
Pro načtení údajů z několika sešitů zvolíme (například v prázdném sešitu Excelu) na kartě Data možnost Načíst data – Ze souboru – Ze složky a vybereme složku, ve které jsou soubory uloženy.
Dále zvolíme možnost Kombinovat – Sloučit a transformovat data a v dalším okně vybereme název listu, jehož data chceme spojit dohromady.
Následně dojde k otevření editoru Power Query, ve kterém jsou již data sloučeny do jednoho dokumentu. Nyní je však při další práci potřeba dbát značné ostražitosti, jelikož se do programu načetly vždy celé tabulky z původních listů – tedy včetně opakujících se nadpisů nebo např. prázdných řádků mezi nadpisy a samotnými hodnotami. Identifikátor původního sešitu nalezneme v prvním sloupci (Zdroj.Název), který obsahuje názvy zdrojových Excelů.
Aby byla data lépe použitelná pro další analýzu, je nutné provést několik úprav, jako například odstranit prázdné nebo nezajímavé řádky/sloupce, vytvořit jednodušší sloupec označující příslušné období, vhodně pojmenovat sloupce nebo část tabulky transformovat do vhodnější podoby. Celý postup slučování a úprav, spolu s návrhem na transformaci vhodnou pro analýzu, je zachycen v následujícím videu.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.
The post 1. Jak efektivně sloučit listy/sešity Excelu dohromady? appeared first on ACREA.
]]>