Blog

Přinášíme vám články, tipy a rady z oblasti analýzy dat a datové vědy.

Zaměřujeme se zejména na témata sběru dat, přípravy dat pro jejich následnou analýzu, vysvětlení užití jednotlivých statistických a dataminingových metod i ovládání softwaru IBM SPSS, Power BI či programování v jazyce R, Python a dalších.

1. Jak efektivně sloučit listy/sešity Excelu dohromady?

To, že každá analýza začíná u dat, je vcelku jasné. Ať máme v plánu počítat základní popisné statistiky nebo vytvářet složitý predikční model, vždy je potřeba mít data na vstupu vhodně připravená. Dnešní článek je věnován úpravě vstupních dat, a to konkrétně spojování proměnných...

Celý článek

Úprava výstupov v podaní PS IMAGO PRO

V tomto článku si bližšie popíšeme procedúry z ponuky Predictive Solutions – Report. PS IMAGO PRO okrem štandardných nástrojov na úpravu výstupu, ktoré sú zahrnuté v štatistickom nástroji IBM SPSS Statistics obsahuje ďalšie procedúry na úpravu výstupu. Jednou z týchto procedúr je Output actions, pomocou ktorej...

Celý článek

Vyhodnocovanie kvality modelu klasifikácie viacerých tried

Pri vyhodnocovaní kvality modelu binárnej klasifikácie (binary classification) sa využívajú rôzne evaluačné metriky (evaluation metrics). Napríklad Accuracy, Precision, Recall, F1 score, Area Under the ROC Curve (AUC), Log loss atď. V tomto článku sa zameriame na vyhodnocovanie kvality modelu klasifikácie viacerých tried...

Celý článek

Tidyverse v jazyce R pro „Data Science“

V sérii několika navazujících článků si představíme tři nejčastěji využívané balíky z kolekce R balíků – tidyverse, navržených pro datovou vědu Hadley Wickhamem a jeho týmem. Jedná se o balík k vizualizaci dat – ggplot2, balík k manipulaci s daty – dplyr a balík k čištění dat – tidyr....

Celý článek

Ověření úspěšnosti predikčního modelu pracovních úrazů

Předchozí článek Kolik se stane v příštím roce v České republice pracovních úrazů? byl věnován vytváření predikčního modelu, jehož cílem bylo stanovit odhady počtu pracovních úrazů pro roky 2021-2023. I přesto, že byl model vytvářen až v průběhu roku 2022, tak k datu jeho vzniku stále nebyly k dispozici údaje...

Celý článek