Sammenhængen mellem Nicolas Cage og drukneulykker
Når man begynder at dykke ned i data, dukker der ofte sjove sammenfald op. Men det er langtfra ensbetydende med, at der er en reel korrelation mellem tingene.

af IDA Learning
Indenfor statistik er en falsk korrelation et matematisk forhold, hvor to eller flere begivenheder eller variabler er forbundet, men ikke årsagsrelaterede, enten på grund af en ren tilfældighed eller tilstedeværelsen af en tredje, usynlig faktor.
Et klassisk eksempel er, at når der sælges meget is, er der også flere drukneulykker. Drukner folk, fordi de spiser for meget is? Eller er der en tredje faktor på spil - som det gode vejr, der frister folk til både is og badning?
Amerikanske Tyler Vigen har samlet en række falske korrelationer, som er ret underholdende at dykke ned i.
Fx er der tilsyneladende en korrelation mellem antal af film med Nicolas Cage fra 1999 og 2009, og hvor mange folk der er druknet i swimming pools i samme periode.

En anden smuk men falsk sammenhæng er forbruget af ost og antal af personer, der dør ved at blive viklet ind i deres sengetøj.

I disse eksempler er korrelationerne tydeligvis langt ude, men i professionelle sammenhænge kan det være sværere at få øje på, om der er tale om tilfældige sammenfald eller ægte korrelationer - og det kan være farligt.
Og jo større din datamængde, desto større er risikoen for, at der dukker besnærende men falske sammenhænge op.
Så hvis dine data viser korrelationer, der kommer helt bag på dig, kan det være, at du ikke kender dine kunder, dit marked etc så godt som du troede.
Men inden du laver om på hele din virksomhed kan det være værd at tjekke, om der er en usynlig, tredje faktor på spil, eller om der er tale om et simpelt tilfælde - inden du pludselig får skabt dig et meget misvisende billede af virkeligheden.