
Už se vám někdy stalo, že jste nemohli řešit zadaný úkol, protože tomu bránila bezpečnostní opatření? Předpokládám, že většina z nás odpoví kladně a přidá nějakou absurdní historku z vlastní praxe. Podívejme se, jaké nástrahy na nás čekají při hromadném zpracování dat a jak by měla vypadat efektivní opatření umožňující datovým analytikům bezpečně vytěžovat i citlivá data.
My analytici a datoví vědci pro svou práci data potřebujeme, je to naše surovina. Naše data jsou data hromadná, kdy pracujeme s mnoha zákazníky, výrobky, transakcemi apod. Hledáme a popisujeme trendy, skryté vzory chování nebo třeba podobné skupiny. Naše závěry pak slouží k zefektivnění procesů v bankách, státní sféře či zdravotnictví. Při své práci však narážíme na některé překážky, vznikající v souvislosti se zabezpečením a obavami o možném zneužití dat. Popíši vám tři nejčastější.
Některá data jsou označena jako citlivá nebo důvěrná a přístup k nim je omezen. Data sice existují, ale nové poznatky nepřináší, organizace jen platí za jejich sběr, uložení a zabezpečení.
Správci dat se obávají porušení GDPR, mají strach, že se informace donese ke konkurenci nebo prostě nechtějí zveřejňovat vlastní problémy, které se však vyskytují téměř všude.
V praxi se popsaná rizika minimalizují pomocí smluv o mlčenlivosti, smluvních pokut nebo požadováním bezpečnostních prověrek. Tato opatření sice vyžadují jistou administrativní zátěž, ale nijak nesvazují ruce analytikům. Též se setkáváme s požadavkem, že analytik musí svou práci vykonávat v prostorách a na strojích, kde jsou data uložena, a které neumožňují kopírování dat mimo vyhrazená zařízení. Pokud správce dat umožní na těchto zařízeních používat efektivní analytické nástroje, jedná se rovněž o řešení neomezující analytiky a zároveň je zajištěna datová bezpečnost již na hardwarové úrovni.
Delegace extrakce, anonymizace a předzpracování dat na správce dat považuji za neefektivní bezpečnostní opatření. Datový analytik při své činnosti data připravuje a analyzuje ad-hoc. Předem nelze přesně vymezit, jaké konkrétní tabulky či atributy se budou zpracovávat a jaké datové manipulace se s nimi budou provádět. Analytik během práce zpravidla zjistí, že potřebuje jiná data nebo že data nejsou připravena podle požadavků. Vzniká ping-pong efekt, kdy si analytici a správci dat vzájemně vyměňují požadavky a nové verze datových matic. Je to pracné, časově náročné a prohlubuje to vzájemnou nedůvěru. Z podobných důvodů nefunguje ani předávání postupu zpracování dat jejich správci, kdy analytik postup navrhne pouze na základě znalosti struktury dat bez možnosti jejich analýzy, a správce navržený postup spustí. Takové běhy buď skončí chybou, nebo výstupy nebudou korektní, protože každá data obsahují něco neočekávaného, co se objeví až při jejich zpracování. Výsledkem je opět ping-pong efekt.
Datový analytik může data číst, ale nemůže používat analytický software. Znám mnoho nadějných analytiků, kteří jsou odkázáni pouze na databázi a tabulkový kalkulátor. Pokročilejší nástroje ať už komerční nebo open-source jistě zvyšují bezpečnostní riziko, ale zde je potřeba zvážit, jak velké. Datový analytik bez analytického softwaru je jako řemeslník bez nářadí.
Open-source analytické nástroje zvyšují riziko zanesení škodlivého softwaru. Pomocí pokročilých analytických nástrojů lze poměrně nenápadně detekovat nedostatky v zabezpečení procesů a zneužít je k nekalé činnosti.
Dobrý analytický software se vyznačuje tím, že kdokoli může snadno zkontrolovat, jaké postupy analytik používá a jak s daty manipuluje. Dokonce i každý datový analytik potvrdí, že potřebuje software, který mu umožní přehledně zaznamenávat jeho práci. Vždy je potřeba se k některým krokům vracet a postupy sdílet s kolegy. Softwary umožňující přehledný audit analytické práce ve spojení s vymezením práv modifikace dat datové analytiky neomezují. Datoví analytici je naopak vítají, neboť jim umožnují snadnou orientaci v množství analytických postupů, které navrhují.
Omezení přístupu analytiků pouze na databázový software umožní sledovat veškeré manipulace s daty. Záznam všech postupů v SQL je však těžko přehledný a tento jazyk nenabízí pokročilejší analytické postupy. Takové omezení skončí velkým množstvím nečtivého SQL kódu a neumožní produkci pokročilejších analytických výstupů.
Datový analytik připraví predikční model na zefektivnění nějakého rozhodovacího procesu, ale nemá právo model nasadit do produkčního prostředí. A nemusí se jednat o predikční model, produktem analytika může být třeba užitečný report nebo datová pumpa, která připraví data pro jiné procesy. Zaimplementování nové verze řešení týmem vývojářů trvá déle než samotná příprava nové verze.
Datový analytik by mohl nevhodným zásahem narušit fungování firemních procesů nebo záměrně nasadit řešení, které by vedlo k jeho nežádoucímu obohacení.
Bezpečnost a efektivitu práce zde opět zajistí pokročilý analytický software. Teď ovšem neposuzuji nabízené analytické a datové funkce softwaru, nýbrž možnosti exportu, monitorování a správy nasazených řešení. Tato důležitá funkcionalita analytického softwaru bohužel bývá při jeho výběru opomíjena. Komponenta nebo modul zodpovědný za provoz vytvořených modelů či reportů by opět měl podporovat auditování, aby bylo zřejmé, kdo a co do produkce zavedl. Důležité je též sledování nových verzí, abychom mohli všechna rozhodnutí rekapitulovat nebo se vrátit k nějaké starší funkční verzi. Provozní modul stačí nasadit do ostrého provozu jednou a datoví analytici mohou uvnitř modulu nejen bezpečně nasazovat nové a aktualizované modely, ale také sledovat jejich chování a výkonnost. Po jejich práci zůstává auditní stopa. A pravděpodobnost, že se něco nepovede nasadit se výrazně sníží, protože datový analytik je autorem modelu a rychle v něm najde, proč v provozním prostředí nefunguje.
Implementace nových modelů a reportů do provozního prostředí vývojovým týmem je pomalá a drahá. Zpravidla po takovém nasazení ještě následuje testování. Pokud nový model nasadí v provozním modulu datový analytik, jeho bezpečnost zajišťuje samotný provozní modul, jenž už byl jednou prověřen. Vývojáři, testeři a bezpečnostní manažeři se pak mohou soustředit na jiné provozní požadavky, o které nikde není nouze.
A na závěr bych se rád podělil o pozorování ze své mnohaleté praxe. Neznám žádného datového analytika, který by se snažil vynést citlivá data nebo zneužít poznatky získané analýzou dat k nezákonnému obohacení. Naopak datoví analytici často navrhují sofistikované systémy pro detekci podvodů a pomáhají tak organizacím předejít velkým ztrátám. A aby to mohli dělat ještě lépe, potřebují přistupovat k datům, používat skvělý analytický software a mít možnost svá řešení co nejrychleji nasadit, aby se jejich přínos mohl projevit co nejdříve.
Zajímá vás, jak může vypadat přehledný audit vaší analytické práce v dataminingovém nástroji PS Clementine PRO?

REZERVUJTE SI TERMÍN JEŠTĚ DNES!