Spolupráce IBM SPSS Statistics a R

Široká škála statistických procedur jazyka R na jedné straně a na druhé straně bohatá sada nástrojů pro přípravu dat, pokročilé výstupové rozhraní a výpočetní efektivita systému IBM SPSS Statistics vedly ke snaze propojit tyto systémy a užívat současně výhody obou. Výsledkem je integrace jazyka R do prostředí IBM SPSS Statistics.

Jazyk R

R je programovací jazyk a prostředí pro statistickou analýzu a vizualizaci dat. Je dostupný jako volně šiřitelný software. Lze ho považovat za implementaci programovacího jazyka S pod svobodnou licencí Free Software Foundation’s GNU General Public License. Ovládá se z příkazové řádky, je však možné využít několika volně dostupných programů s grafickým rozhraním (například RStudio).

R nabízí širokou škálu procedur se statistickými a grafickými nástroji. Uživatelé si mohou rovněž vytvářet vlastní knihovny, běžnější však je stahování hotových knihoven (balíčků) z internetu.

Jazyk R je zaměřený především na statistické analýzy a méně již na přípravu dat. Výstupem procedur je nejčastěji prostý text se záznamem odhadnutých hodnot. Z těchto důvodů je R méně uživatelsky přívětivé než běžné statistické balíčky a zároveň klade poměrně vysoké nároky na znalosti a schopnosti uživatele.

Instalace R v prostředí IBM SPSS Statistics

Aby bylo možné užívat jazyk R v rámci IBM SPSS Statistics, je nutné nejprve nainstalovat R a poté integrační plug-in IBM® SPSS® Statistics – Essentials for R, který zajistí propojení R a IBM SPSS Statistics. Instalaci provedete v následujících krocích:

  • Pro IBM SPSS Statistics 26 je doporučená verze R 3.5.x, kterou zdarma stáhnete například ze stránek http://www.r-project.org/ a nainstalujete.
  • Instalaci integračního plug-inu pro verzi 26 provedete v IBM SPSS Statistics pomocí nabídky Extensions, Extension Hub. K tomuto kroku je nutné rovněž připojení k internetu. V seznamu softwarových rozšíření vyhledáte STATS_R35_Configuration, označíme volbu Get extension a potvrdíte tlačítkem OK. V průběhu instalace je třeba potvrdit licenční podmínky. Následně v nabídce Extensions, R3.5 Configuration specifikujete umístění instalačního adresáře R 3.5.x (obvykle C:\Program Files\R\R-3.5.x).

Rozšiřující procedury v jazyce R

Po instalaci R a integračního pluginu je možné využívat rozšiřující procedury vytvořené pomocí R. Ty si můžete vytvářet sami nebo užívat hotové, kterých jsou aktuálně k dispozici desítky až stovky. Informace o nich naleznete pod nabídkou Extensions, Extension Hub, která je určena ke správě softwarových rozšíření a připojení k portálu pro sdílení těchto rozšíření mezi uživateli. Zde si můžete procedury zdarma stáhnout a nainstalovat. Zároveň získáte informace o tom, zda pro zprovoznění vyžadují také stažení dalších balíčků R. Procedury se následně začlenění do standardních nabídek programu IBM SPSS Statistics.

Rozšiřující procedury mají obvykle formu tzv. instalačních balíčků, tj. souborů s příponou *.spe, které slouží ke zjednodušené instalaci procedury, jejího dialogu a případných dalších komponent. Nainstalované soubory se standardně ukládají do defaultně skrytých složek:

C:\ProgramData\IBM\SPSS\Statistics\26\extensions a
C:\ProgramData\IBM\SPSS\Statistics\26\CustomDialogs.

Pro lokální instalaci rozšiřujícího balíčku uloženého na počítači či v rámci sítě lze využít volbu Extensions, Install Local Extension Bundle. Pokud byste se naopak rozhodli nepoužívané procedury odstranit, lze to udělat v dialogovém okně nabídky Extensions,Custom Dialog Builder for Extensions, v nabídce File, Uninstall.

Integrační příkazy pro jazyk R

Integrační plug-in zajišťuje propojení jazyka R a programu IBM SPSS Statistics. Poskytuje řadu funkcí, které mimo jiné dovolují:

  • načítat data z IBM SPSS Statistics do jazyka R (spssdata.GetDataFromSPSS),
  • načítat metadata z datového souboru IBM SPSS Statistics (spssdictionary.GetDictionaryFromSPSS),
  • přistupovat k výstupům procedur IBM SPSS Statistics vytvořených v OMS (spssxmlworkspace.EvaluateXPath)‚
  • zapisovat výsledky procedur jazyka R do výstupového okna ve formě pivotních tabulek (spsspivottable.Display),
  • zapisovat výsledky procedur jazyka R do datového souboru IBM SPSS Statistics (spssdictionary.SetDictionaryToSPSS, spssdata.SetDataToSPSS spssdictionary.EndDataStep).

Každý příkaz má několik volitelných nebo povinných parametrů. Přehled všech příkazů, jejich podrobný popis i další informace naleznete v nápovědě IBM SPSS Statistics (Help, Topics, témata Integration Plug-in for R nebo Working with R) a v manuálu R Integration Package for IBM SPSS Statistics (Help, Documentation in PDF Format). Nápověda k samotnému jazyku R není součástí nápovědy IBM SPSS Statistics, najdete ji například na webových stránkách věnovaných R.

Užití jazyka R v IBM SPSS Statistics

Jazyk R se v IBM SPSS Statistics zapisuje do syntaxového okna. Příkazy R musí být vždy uvnitř bloku ohraničeného příkazy BEGIN PROGRAM R a END PROGRAM. Přitom je možné libovolně kombinovat příkazy R ze všech nainstalovaných knihoven a příkazy syntaxového jazyka z integračního balíčku. Po spuštění syntaxe se výstupy zobrazují ve výstupovém okně IBM SPSS Statistics.

Jednoduchý syntaxový zápis, který pouze zobrazí hlavní stránku nápovědy programu R, tedy může vypadat například takto:

BEGIN PROGRAM R.
help.start()
END PROGRAM.

Jazyk R lze v syntaxi užívat dvěma způsoby. V prvním případě zapisujete veškeré příkazy přímo do syntaxového okna a kombinujete je s vlastními příkazy programu IBM SPSS Statistics. Hlavní výhodou tohoto přístupu je, že máte plnou kontrolu nad všemi prováděnými operacemi a můžete je snadno upravovat. Nevýhodami jsou především délka zápisu a menší přehlednost.

Druhou možností je integrovat příkazy R do vlastního instalačního balíčku, pro který definujete rovněž syntaxový příkaz. Výsledkem je nový syntaxový příkaz, který provádí zadané operace v R. Po nainstalování balíčku můžete příkaz užívat v syntaxi standardním způsobem jako jakékoliv jiné příkazy. Tento postup je vhodný zejména při vytváření nových procedur, které plánujete užívat opakovaně a případně je dát k dispozici i dalším uživatelům. Syntaxový zápis je výrazně jednodušší, přehlednější a hrozí menší riziko chyby. Na druhou stranu uživatel ztrácí možnost upravovat příkazy v jazyce R.

V obou případech lze navíc pro zadávání vstupů vytvořit uživatelský dialog a začlenit ho do menu programu IBM SPSS Statistics. Podrobný postup, jak vytvořit instalační balíček, vlastní syntaxový příkaz nebo uživatelský dialog naleznete v nápovědě programu IBM SPSS Statistics.

Kurz Úvod do jazyka R

Pokud Vás zaujaly možnosti spolupráce IBM SPSS Statistics a R, chcete se o jazyku R dozvědět více a začít s ním pracovat, ale uvítali byste na začátku pomoc, rádi bychom Vás pozvali na kurz Úvod do jazyka R.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.


společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů