RFM – praktická realizace

minulém článku jsme si řekli, co je to RFM. Než začneme analýzu využívat k další práci se zákazníky, je nutné RFM spočítat. Obecně se jedná o prostou datovou operaci, ale jako vždy nás čeká několik nástrah.

RFM analýzy vycházejí z tzv. transakčních dat. Transakční data jsou záznamem interakcí (např. nákup, obecně transakce) se zákazníkem v čase. Pro RFM analýzu stačí jen základní informace o transakcích, stačí mít identifikovaného zákazníka, znát datum transakce a částku.

Identifikace zákazníka je klíčový údaj, RFM analýzu nelze provádět, pokud jsou transakce anonymní. Uživatel RFM analýzy musí technicky zajistit identifikaci transakcí a informaci o tom ukládat do dat. Pokud se jedná o transakce prováděné přes internet, např. e-shop, je možno se pokusit identifikaci doplnit na základě IP adresy zákazníka nebo jeho emailu. Tato úloha je obecně dosti komplikovaná a její výsledky nejsou zcela přesné. Dále budeme předpokládat identifikované transakce.

Pro RFM analýzu potřebujeme mít data ve formátu, kdy jeden záznam (řádek v datové tabulce) je jedna transakce. Ve vstupních datech může mít ale řádek jiný význam, často je každý řádek jedna položka z rozsáhlejšího nákupu. Např. v rámci jedné objednávky se uskuteční nákup tří různých položek, které vedou k třem záznamům v datech (Obr. 1). Uvedený problém se týká výhradně ukazatele F. Pro R to nehraje roli, protože všechny položky se nakupují v jeden okamžik, takže datum je stejné. Pro M to v případě součtu také nevadí, protože částku nakonec sečteme a je jedno, z kolika položek se původně skládala. U ukazatele M jako průměru by to již výsledek ovlivnilo. Nejvíce zkreslen by byl při přímé aplikaci analýzy na uvedený formát dat ukazatel F. Ukazatel F má zachycovat četnost interakcí se zákazníkem a nakoupí-li např. zákazník tři položky v jedné objednávce je to jen jedna interakce.

Obr. 1 Výchozí položková data

V situaci, kdy řádek, je položka je běžné, že je na něm uvedeno množství v jednotkách odpovídající typu položky (kus, kg, m) a jednotková cena. Pak je zřejmé, že pro výpočet ukazatele M je nutné vynásobit cenu množstvím a dostat tak celkovou částku (Obr. 2). Abychom nyní získali data ve formátu nutném pro RFM analýzu musíme položky agregovat, neboli shrnout. V rámci jedné transakce sečteme částky jednotlivých položek a zaznamenáme také datum transakce a samozřejmě identifikaci zákazníka (Obr. 3).

Obr. 2 Výchozí položková data s dopočítaným obratem
Obr. 3 Data agregovaná na transakci, součet obratů z položek a stáří transakce jako počet dní k 31. 12.2017

Nyní máme data v kýženém formátu, kdy řádek tvoří identifikace zákazníka, datum transakce a celková částka transakce. Zbývá malý problém s datem transakce a z něj vycházejícího ukazatele R. S proměnnou typu datum se nepracuje snadno a je s ní spojené mnoho komplikací pramenících z nepravidelností našeho kalendáře. Před samotným výpočtem RFM je vhodné spočítat stáří transakce k pevnému datu. Pevné datum je výhodnější než datum aktuální, protože dostaneme stejné výsledky, pokud analýzu provedeme nad stejnými daty později, a pevné datum si také můžeme vhodně stanovit, např. konec roku. Stáří transakce vyjádříme ve vhodných časových jednotkách, obvykle dobře vyhoví dny.

Výpočet samotného RFM skóre je nyní snadnou záležitostí. Technicky se opět jedná o agregaci. V rámci zákazníka najdeme minimum ze stáří transakcí a vznikne ukazatel R, zjistíme počet transakcí (řádků v datech) a vznikne ukazatel F. U ukazatele M se rozhodneme, zda částky sečteme nebo z nich spočteme průměr. Z marketingového hlediska je spíš zajímavější součet, protože udává celkovou hodnotu zákazníka. Ze statistického hlediska je vhodnější průměr, protože je méně svázán s ukazatelem F a nese novou informaci. Rozhodnout se musíme podle své zkušenosti nebo vyzkoušet obě varianty.

  Zbývá dořešit jednu důležitou maličkost. Uvedený postup vede k ukazateli R, který má preferované malé hodnoty (zákazníci s nedávnými transakcemi), ukazatelé FM naopak mají preferované velké hodnoty (větší a častější transakce). Pro další práci je vhodné směr ukazatelů sjednotit. Nejsnáze tak, že vynásobíme ukazatel R číslem -1 a tím se jeho směr otočí (Obr. 4). Záporné hodnoty nejsou na závadu, komu by ale vadily, může si k ukazateli R přičíst dostatečně velkou kladnou konstantu.

Obr. 4 RFM skóre s otočenou škálou ukazatele R

Nyní máme základní ukazatele RFM v dalších článcích si povíme, jak ukazatele upravit a jak je použít pro popis zákazníků a jejich rozdělení do skupin.

Rádi vás na další pokračování článku o RFM analýze automaticky upozorníme. Přihlaste se k odběru našich blogových článků.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Ondřej Brom
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů