Luottoriskimallin yleiskatsaus

Yleiskatsaus

Nykyisessä epävakaassa rahoitusympäristössä yritysten luottoriskin arvioiminen täsmällisesti on tärkeämpää kuin koskaan. Tekoälypohjainen luottoriskialustamme asettaa uuden markkinastandardin tarjoamalla vertaansa vailla olevaa tarkkuutta, selitettävyyttä ja luotettavuutta. Palkitun XGBoost-koneoppimiskehyksen päälle rakennettu mallimme auttaa yrityksiä ja rahoituslaitoksia tekemään älykkäämpiä, nopeampia ja kannattavampia luottopäätöksiä.

Toisin kuin perinteiset mallit, jotka nojaavat kiinteisiin kaavoihin ja rajalliseen määrään muuttujia, ratkaisumme arvioi jokaista yritystä yli 30 dynaamisen taloudellisen tunnusluvun perusteella ja tunnistaa hienovaraisia riskikuvioita, jotka jäävät tavanomaisilta työkaluilta näkymättömiin. Tämän ansiosta asiakkaamme voivat pienentää luottotappioita jopa 60 % ja tunnistaa korkean riskin yritykset luotettavasti jo ennen ongelmien syntymistä.

Mallia testataan, validoidaan ja hienosäädetään jatkuvasti markkinadatalla yhteistyössä teknologiakumppanimme Valuatumin kanssa. Kehittynyt tekoälymme tarjoaa markkinoiden johtavan ennustekyvyn lisäksi ratkaisun yhteen koneoppimisen suurimmista haasteista: selitettävyyteen. Selkeiden visualisointien ja automaattisesti tuotettujen, selkokielisten yhteenvetojen avulla varmistamme täyden läpinäkyvyyden jokaisen luokituksen taustalla.

Olipa kyse tuhansista luottopäätöksistä kuukaudessa tai yksittäisistä, suurta panosta vaativista B2B-analyyseistä, alustamme on rakennettu tuottamaan luotettavaa tietoa, mitattavia tuloksia ja kilpailuetua.

Visuaalinen näyttö ennustekyvystä

Alla oleva kuvaaja tarjoaa selkeän visuaalisen vahvistuksen mallimme ennustevoimasta.

Konkurssiin ajautuneiden yritysten lukumäärä luottoluokitusdesiileittäin vuonna 2024, Valuatumin malli vs. logistinen regressio — Konkurssiin ajautuneiden yritysten lukumäärä luottoluokitusdesiileittäin vuonna 2024: Valuatumin malli (vihreä) vs. logistinen regressio (sininen).

Kuvaaja esittää konkurssiin ajautuneiden yritysten lukumäärän luottoluokitusdesiileittäin vuonna 2024. Valtaosa konkursseista keskittyy heikoimpiin desiileihin — selvä osoitus siitä, että malli kohdistaa riskin sinne, minne se kuuluu.

Luottokelpoisimman 30 %:n joukossa ero mallien välillä on merkittävä: logistinen regressio päästäisi tähän joukkoon 140 myöhemmin konkurssiin ajautunutta yritystä, kun Valuatumin mallilla niitä on vain 47. Tämä vastaa noin 66,4 % pienempiä mahdollisia luottotappioita.

Näin jyrkkä ero mallien välillä vahvistaa Valuatumin kyvyn erottaa terävästi riskialttiit ja vakaat yritykset toisistaan. Lisää vertailutuloksia esitetään osiossa 3.2.

1. XGBoost-malli

XGBoost-malli (lyhenne sanoista eXtreme Gradient Boosting) on koneoppimisalgoritmi, joka tunnetaan laajasti erinomaisesta suorituskyvystään ennustavassa mallintamisessa, erityisesti luottoriskin arvioinnissa. XGBoost rakentuu päätöspuualgoritmille, jossa data jaetaan eri kohdissa yksittäisestä juuresta haarautuen tiettyjen ehtojen perusteella. Esimerkiksi ensimmäinen päätös voisi perustua taloudelliseen tunnuslukuun, kuten ”Onko liikevaihto > 30 miljoonaa euroa?”. Jos vastaus on ”kyllä”, puu voi haarautua seuraavaan kysymykseen, kuten ”Onko velkaantumisaste alle 0,5?”. Jokainen päätös jakaa datan pienempiin ja tarkempiin ryhmiin, mikä johtaa lopulta ennusteeseen puun ”lehdissä” eli haarojen päätepisteissä (ks. Kuva 1 alla yksinkertaistetusta päätöspuun esityksestä).

Kuva 1: Yksinkertaistettu visualisointi päätöspuualgoritmista

XGBoostissa algoritmi ei nojaa yksittäiseen päätöspuuhun, vaan rakentaa kokonaisen puiden ”metsän”, jossa jokainen uusi puu on suunniteltu korjaamaan edellisten tekemiä virheitä. Tämä yhdistelmämalli (ensemble) mahdollistaa erittäin tarkat ennusteet, kun malli oppii virheistään ja tarkentaa päätöksiään jokaisessa vaiheessa. Lopuksi malli yhdistää kaikkien puiden tulokset lopulliseksi ennusteeksi. Menetelmä antaa mallin oppia datan monimutkaisia kuvioita, mikä tekee siitä erittäin tehokkaan esimerkiksi konkurssiriskin ennustamisessa.

XGBoost-mallimme hyödyntää yli 30:tä eri tilinpäätösmuuttujaa luottoriskin arvioinnissa. Muuttujat on valittu sen perusteella, kuinka olennaisia ne ovat yrityksen taloudelliselle terveydelle ja kuinka hyvä niiden ennustevoima on konkurssiriskin mallintamisessa. Keskeisiä käytettyjä muuttujia ovat muun muassa:

Omavaraisuusaste: mittaa, kuinka suuri osa yrityksen varoista on rahoitettu omalla pääomalla. Korkea omavaraisuusaste kertoo vahvemmasta taloudellisesta perustasta, sillä se viittaa siihen, että yritys nojaa vähemmän velkaan. Tunnusluku on keskeinen yrityksen pitkän aikavälin vakavaraisuuden ja vakauden ymmärtämisessä.
ROA-% (kokonaispääoman tuotto): arvioi, kuinka tehokkaasti yritys käyttää varojaan tuottaakseen voittoa. Se on kriittinen mittari yrityksen yleiselle taloudelliselle suorituskyvylle ja kertoo, kuinka hyvin johto hyödyntää yrityksen varoja tuloksen tuottamiseen.
Quick ratio: tunnetaan myös happotestinä. Tunnusluku arvioi yrityksen kykyä selviytyä lyhytaikaisista velvoitteistaan likvideimmillä varoillaan. Korkea quick ratio kertoo paremmasta maksuvalmiudesta, eli yritys pystyy kattamaan lyhytaikaiset velkansa nopeasti ilman vaihto-omaisuuden myyntiä.

Muuttujamme on valittu sadoista mahdollisista vaihtoehdoista niiden ylivertaisen ennustevoiman perusteella eri mittareilla, kuten PR-AUC ja ROC-AUC (lisää tuloksistamme ja suorituskykymittareista osiossa 3.2). Useimmat valitsemamme muuttujat mittaavat yrityksen kannattavuutta, maksuvalmiutta, vakavaraisuutta, velkaantuneisuutta, kokoa tai operatiivista tehokkuutta.

Mallimme on kehitetty yhteistyössä Valuatumin kanssa. Lisätietoja löydät Valuatumin verkkosivuilta:

Ratkaisumme pähkinänkuoressa — tuo esiin koneoppimismenetelmien edut ja kuvaa, miten ratkaisemme mallin päätösten selitettävyyden puutteen
Konkurssiriskin yleiskatsaus — antaa näkymän mallimme arkkitehtuuriin, käytettyihin muuttujiin, koulutusprosessiin ja muuhun
Whitepaper — yksityiskohtainen tekninen selitys mallistamme

2. XGBoostin teoreettinen perustelu

XGBoostille rakennettu tekoälypohjainen luottoriskimallimme on suunniteltu optimoimaan sekä ennustetarkkuutta että tehokkuutta, mikä tekee siitä tehokkaan työkalun luottoriskin arviointiin. Verrattuna vanhempiin, perinteisiin menetelmiin XGBoost on osoittautunut johdonmukaisesti paremmaksi useiden suunnitteluunsa liittyvien keskeisten erojen ansiosta.

Miksi XGBoost on parempi?

Dynaamiset muuttujapainot: perinteiset mallit käyttävät kiinteää kaavaa riskin arviointiin, jolloin jokaista yritystä arvioidaan samalla tavalla. XGBoost on kuitenkin joustavampi. Se säätää taloudellisten muuttujien, kuten maksuvalmius- tai velkaantuneisuustunnuslukujen, painoarvoa kunkin yrityksen tilanteen mukaan. Tämä johtaa tarkempiin, kullekin yritykselle räätälöityihin ennusteisiin (ks. Esimerkki 1 alla).
Mallin muuttujien määrä: XGBoost tukee suuren muuttujamäärän käyttöä ilman ennustettavuuden heikkenemistä. Sen sijaan perinteiset regressiomallit kärsivät, kun muuttujia on paljon: niiden lisääminen johtaa usein epävakaisiin ennusteisiin ja ylisovittamiseen. Tämän välttämiseksi perinteiset mallit nojaavat tyypillisesti vain muutamaan keskeiseen muuttujaan, mutta tällöin tärkeitä tekijöitä voi jäädä pois (ks. Esimerkki 2 alla).
Poikkeamien sietokyky: yksinkertaisemmissa malleissa muutama epätavallinen havainto (poikkeama) voi vääristää ennusteita. XGBoost sietää tätä paremmin. Se tunnistaa, kun yrityksen taloudellinen data on poikkeuksellista, ja mukautuu vastaavasti, jolloin ennusteet pysyvät luotettavina, vaikka jotkin luvut olisivat äärimmäisiä.

Vaikka XGBoost on erittäin tarkka, koneoppimismalleja pidetään joskus ”mustina laatikoina”, eli aina ei ole selvää, miten ne päätyvät päätöksiinsä. Toisin kuin perinteisissä malleissa, joissa kunkin taloudellisen muuttujan rooli on selkeä, XGBoostin päätöksentekoprosessi on monimutkaisempi. Tämän ratkaisemiseksi tarjoamme selkeitä visualisointeja ja automaattisia tekstiyhteenvetoja, jotka selittävät mallin päätökset helposti ymmärrettävällä tavalla (ks. Esimerkki 3 alla).

Esimerkki 1: Dynaamiset muuttujapainot

Yrityksellä A on erittäin hyvä vakavaraisuus ja kannattavuus oheisen Kuvan 2 mukaan. Yrityksellä B taas on erittäin heikko vakavaraisuus, ja se on tappiollinen. Näiden yritysten luottoriskiä arvioitaessa selittävillä muuttujilla, kuten maksuvalmiudella, tulisi olla eri painot.

Yrityksen A ei tarvitse olla hyvää maksuvalmiutta, koska se pystyy rahoittamaan itsensä liiketoiminnallaan tai lainaamalla rahaa. Sen sijaan yritys B tekee tappiota eikä saa lainaa. Sen tärkein ominaisuus on maksuvalmius.

Selvästi nähdään, että vaihtelevat painot ovat välttämättömiä onnistuneessa luottoriskin arvioinnissa. Logistisessa regressiossa painot ovat vakioita, joten se ei pysty ottamaan huomioon näitä yrityskohtaisia piirteitä. Koneoppimisalgoritmit sen sijaan voivat tunnistaa, että maksuvalmiuden merkitys kasvaa tappiollisilla yrityksillä, ja säätävät luottoluokituksiaan vastaavasti.

Satunnaisotos suomalaisista yrityksistä kannattavuuden ja vakavaraisuuden mukaan — Kuva 2: Satunnaisotos suomalaisista yrityksistä järjestettynä kannattavuuden (x-akseli) ja vakavaraisuuden (y-akseli) mukaan. Kunkin pisteen väri kuvaa yrityksen luottokelpoisuutta: punainen kuvaa korkeimman luottoriskin ja tummanvihreä matalimman riskin yrityksiä.

Esimerkki 2: Mallin muuttujien määrä

Kuvassa 3 korostetulla yrityksellä on erinomainen kannattavuus ja korkea omavaraisuusaste sekä muita keskeisiä muuttujia, kuten maksuvalmius. Perinteinen logistinen regressiomalli, joka huomioi vain nämä päämuuttujat, arvioisi todennäköisesti yrityksen erittäin luottokelpoiseksi.

Koneoppimismalli voi kuitenkin arvioida laajempaa joukkoa muuttujia. Se saattaa havaita, että yrityksen myyntisaamiset suhteessa liikevaihtoon ovat nousseet merkittävästi viime vuosina. Tämä voi viitata siihen, että osa saamisista voi jäädä saamatta, mikä on riski yrityksen luvuille.

Jos näin on, yrityksen todellinen kannattavuus ja vakavaraisuus voivat olla merkittävästi alhaisempia kuin miltä ne ensisilmäyksellä näyttävät. Tekoälymallimme voi automaattisesti ottaa tämän huomioon arviossaan. Perinteiset mallit vaativat luottoriskiasiantuntijan säätämään kannattavuus- ja vakavaraisuuslukuja manuaalisesti etukäteen mahdollisten saamatta jäävien erien huomioimiseksi.

Esimerkki 3: Visualisointi ja automaattinen teksti

Automaattisesti tuotettu teksti

Kuvassa 4 korostetulla yrityksellä on erinomainen kannattavuus ja vakavaraisuus. Esimerkiksi vuonna 2020 yrityksen X ROA-% oli 23,1 % ja omavaraisuusaste 81,7 %. Liikevaihto vuonna 2020 oli 845 tEUR, mikä edustaa 13,1 %:n kasvua edellisvuodesta. Vaikka yrityksellä on erinomaiset luvut näiltä osin, luottoriskimalli on luokitellut yrityksen huomattavasti matalammalle kuin muut vastaavan kannattavuuden ja vakavaraisuuden yritykset. Korkeampi luottoriski johtuu seuraavista mallin tunnistamista heikkouksista:

Kasvavat lyhytaikaiset lainasaamiset: vuodesta 2016 vuoteen 2020 lyhytaikaiset lainasaamiset kasvoivat 22 t€:sta 186 t€:oon, mikä viittaa siihen, että yritys lainaa ulos yhä enemmän rahaa. Tämä voi johtaa luottotappioihin, jos lainanottajat eivät maksa takaisin.
Matala kassa ja rahavarat: yrityksellä on jatkuvasti matalat kassavarat — vuoden 2020 lopussa vain 5 t€ käteistä — mikä voi vaikeuttaa lyhytaikaisten velvoitteiden tai yllättävien menojen kattamista.
Korkeat korottomat velat: vuonna 2020 korottomat velat nousivat 68 t€:oon, mikä rasittaa yrityksen maksuvalmiutta ja voi lisätä konkurssiriskiä, jos niitä ei kyetä maksamaan.

Edellä mainittujen tekijöiden perusteella luottoriskimallimme on arvioinut, että yrityksellä on korkea konkurssiriski 0,947 %, mikä vastaa luottoluokitusta BB (heikko).

Visualisointi

3. XGBoost-mallin empiiriset tulokset

3.1. Akateemiset tulokset

Useat akateemiset tutkimukset osoittavat XGBoostin tehokkuuden luottoriskin mallintamisessa:

Jabeur ym. (2023) — ”Bankruptcy Prediction using the XGBoost Algorithm and Variable Importance Feature Engineering” (Computational Economics): tutkimuksessa havaittiin, että XGBoost ylitti merkittävästi perinteiset tilastolliset mallit, kuten logistisen regression, tarjoamalla suuremman ennustetarkkuuden. Tutkimus korosti mallin kykyä käsitellä epätasapainoisia aineistoja sekä sen sisäänrakennettuja muuttujien tärkeyttä kuvaavia ominaisuuksia.
Xia ym. (2017) — ”A Boosted Decision Tree Approach Using Bayesian Hyper-Parameter Optimization for Credit Scoring” (Expert Systems with Applications): tämä uraauurtava tutkimus osoitti, että XGBoost-pohjainen luottomalli ylitti useita vertailumalleja mittareilla kuten tarkkuus ja AUC. Tutkimus korosti, että hyperparametrien huolellinen virittäminen Bayesilaisella optimoinnilla parantaa merkittävästi XGBoostin suorituskykyä.
Robisco & Martinez (2022) — ”Measuring the Model Risk-Adjusted Performance of Machine Learning Algorithms in Credit Default Prediction” (Financial Innovation): tutkimus totesi, että XGBoost ylitti johdonmukaisesti muut koneoppimismallit, ja huomautti, että sen ennusteet ovat tarkkojen lisäksi myös tulkittavia esimerkiksi SHAP-tekniikoiden ansiosta.

3.2. Omat testitulokset

Esitämme vertailuanalyysejä suomalaisten ja tanskalaisten yritysten datalla, mikä osoittaa mallin ylivertaisen suorituskyvyn logistiseen regressioon nähden useilla mittareilla ja käytännön luotonantotilanteissa.

Vertasimme XGBoost-tekoälymalliamme perinteiseen logistiseen regressioon noin 200 000 suomalaisen yrityksen aineistolla. Tulokset osoittivat, että tekoälymalli tunnisti yli 200 konkurssiin ajautunutta yritystä enemmän korkeimman riskin desiilissä kuin logistinen regressio.

Luottokelpoisimman 30 %:n joukossa logistinen regressio luokitteli virheellisesti 65 konkurssiyritystä, kun tekoälymallilla vastaava luku oli vain 24.

Konkreettinen esimerkki havainnollistaa eroa: luotonantaja, joka myöntää 10 miljardia euroa luottokelpoisimmalle 30 %:lle, kohtaisi logistisella regressiolla noin 25 miljoonan euron tappiot, mutta tekoälymallilla vain noin 9,2 miljoonan euron tappiot — eli noin 63 % pienemmät luottotappiot.

Tanskalaisella aineistolla tehty analyysi vahvisti mallin tehokkuuden myös eri aineistossa.

AI-luokituksen ja logistisen regression vertailu suomalaisten konkurssien osalta — AI-luokitus vs. logistinen regressio (suomalaiset konkurssit)

Suomalaisen ja tanskalaisen aineiston konkurssivertailu — Suomalaisen ja tanskalaisen aineiston vertailu

ROC-AUC-suorituskykyvertailutaulukko — ROC-AUC-suorituskykyvertailu

4. Laskentamenetelmät

Mallimme tuottaa kolme keskeistä tulosta:

Luottoluokitus (Credit Rating): seitsenportainen asteikko (AAA–C), joka johdetaan konkurssiriskin arviosta. AAA edustaa matalinta ja C korkeinta riskiä.
Luottopisteet (Credit Score): vaihtelevat välillä 0–100 ja kertovat yrityksen suhteellisen sijoituksen (persentiilin) muihin yrityksiin verrattuna. Korkeampi pistemäärä tarkoittaa matalampaa riskiä.
Luottorajasuositus (Credit Limit): määritetään laskemalla yrityskohtainen enimmäismäärä omasta pääomasta ja kassasta, jota sitten lasketaan alaspäin konkurssiriskin todennäköisyyden perusteella. Mitä korkeampi konkurssiriski, sitä pienempi suositeltu luottoraja.

Konkurssiriskin todennäköisyys puolestaan ennustaa konkurssin todennäköisyyttä seuraavan 24 kuukauden aikana noin 30 muuttujan perusteella. Tämä todennäköisyys toimii pohjana sekä luottoluokitukselle, luottopisteille että luottorajasuositukselle.

Luottorajasuosituksen muodostumisen havainnekuva — Luottorajasuosituksen havainnekuva