Zpět

ČMSS

Tvorba skórovacích karet

Tvorba skórovacích karet

Stejně jako většina evropských bank, tak i Českomoravská stavební spořitelna a.s., se připravuje na splnění požadavků metodologie Basel II (a příslušné evropské direktivy) stanovující nové principy řízení bankovních rizik a minimálního kapitálového požadavku. 

ČMSS jako největší stavební spořitelna v České republice poskytuje značné množství úvěru retailovým klientům (fyzickým osobám). Jedním z nejdůležitějších kroků při plnění metodologie Basel II proto byla kvantifikace úvěrového rizika banky modelováním rizikových charakteristik retailového portfolia – především tvorba behaviorálních skórovacích karet pro pravděpodobnost selhání klienta. 

Problém 

Banka hledala vhodný dataminingový nástroj, který by nejen nabízel širokou škálu modelovacích technik, ale také byl v rámci přípravy dat schopen manipulovat s rozsáhlými datovými maticemi (miliony případů a až stovka proměnných). V rámci výběrového řízení, kterého se zúčastnili hlavní dodavatelé dataminingových softwarů na českém trhu, byl vybrán nástroj IBM SPSS Modeler od firmy SPSS CR. 

Řešení 

Prvním krokem projektu bylo vytvoření databáze úvěrového rizika, tedy robustního datového skladu, který zachytí nejen kompletní historii každého úvěrového účtu a informace o vymáhání delikventních klientů, ale například i charakteristiky několika milionů klientů ve spořící fázi. Datový sklad jsme vytvořili (společně s analytiky firmy SPSS CR, kteří mají i v tomto oboru značné zkušenosti) na platformě MS SQL server a již při jeho prvotním plnění se IBM SPSS Modeler ukázala jako neocenitelný pomocník, například k identifikaci a vyřazení duplicitních informací z primárního systému. 

Hlavním účelem nově vytvořené databáze bylo modelovat behaviorální charakteristiky retailových klientů, tedy zjištění toho, jak chování klienta během spoření a následného splácení úvěru dokáže predikovat pravděpodobnost jeho selhání (nesplácení úvěru) za 12 měsíců. K tomuto záměru bylo třeba v IBM SPSS Modeler sestrojit velké množství odvozených proměnných. Celý programovací proces přípravy dat velmi zjednodušuje a zpřehledňuje schopnost softwaru zapsat či vlastně zakreslit složité datově-transformační výrazy na dvojrozměrnou plochu (vybavenou možností hlubšího noření do supernodů). 

Velmi důležitou vlastností IBM SPSS Modeler je její schopnost delegovat k určitým datovým operacím samotný server, na kterém databáze běží. Při operacích s velkým množství dat dojde k mnohonásobnému zkrácení doby výpočtu a podstatné úspoře diskových kapacit. Interaktivní vizualizační techniky (překryvové histogramy a distribuční grafy, multiploty) byly neocenitelnými pomocníky při analýze jedné proměnné či odhalování závislostí na modelované proměnné. 

Při vlastním modelování jsme používali tři modelovací techniky: neuronové sítě a rozhodovací stromy pro selekci nejsilnějších proměnných, k stanovení vlastní skórovací funkce poté logistickou regresi. (Díky schopnosti softwaru snadno kategorizovat spojité proměnné jsme zvolili stabilnější multinomickou logistickou regresi). 

Celková tvorba tří behaviorálních skórovacích karet, tedy od fáze přípravy behaviorálních proměnných až po výsledné testování stability skórovacích karet trvala odhadem tři měsíce, z toho asi 80% výpočtů probíhalo v softwaru IBM SPSS Modeler . Bez možnosti využít tohoto všestranného dataminingového nástroje si tvorbu kvalitní skórovací karty v ČMSS dokáži těžko představit.