luk

Data-mangler

Farlige mangler: Når huller i data kan koste både liv og forretning

Under 2. Verdenskrig var det ikke unormalt, at britiske bombefly kom tilbage fra missioner i en noget mere hullet udgave, end da de lettede. Kugler havde banket sig ind i skroget, og de kloge hoveder på jorden begyndte straks at analysere, hvor skaderne var værst.

Planen var ligetil: Forstærk de steder, hvor flyene var blevet ramt – så ville fremtidige fly få bedre chancer for at overleve. Genialt, ikke?

Nej.

For de havde glemt noget ret vigtigt: Hvad med de fly, der ikke kom hjem? De fly, der tog de afgørende skud, men aldrig nåede tilbage til basen? De var ikke med i analysen, for de lå allerede smadret i en mark i Frankrig eller på bunden af Den Engelske Kanal.

Det, de troede, var svaret, var faktisk et kæmpe blindspot. Og det er præcis den fejl, virksomheder i dag stadig begår, når de træffer beslutninger baseret på ufuldstændige data.

(Hvis du vil nørde helt ned i historien, kan du læse mere her: Trevor Bragdon: When Data Gives the Wrong Solution)

 

Fraværende data koster dyrt

Problemet dengang er præcis det samme i dag: Vi træffer beslutninger baseret på de data, vi har – men vi glemmer at spørge: Hvad med de data, vi ikke har?

Yahoo begik en af de største brølere i tech-historien, da de takkede nej til at købe Google. De så på de data, de havde, og konkluderede, at søgemaskiner ikke var en big deal. En dyr beslutning, der viste, hvor farligt det kan være at overse de data, man ikke har.

For mange virksomheder er de kunder, de ikke har, mindst lige så vigtige som dem, de har. Men hvor meget ved de egentlig om dem? Svaret er ofte: skræmmende lidt. Hvis data aldrig bliver indsamlet, sejler man i blinde – og det kan få katastrofale følger.

Forestil dig, at din virksomhed er et skib på vej gennem isfyldt farvand uden information om isbjerge. Uden den viden kan selv små fejl føre til store katastrofer. Dette er ikke kun et problem for virksomheder, men også for forskere og analytikere, der konstant må navigere i ufuldstændige datasæt.

Manglende data opstår på forskellige måder:

  1. Tilfældigt manglende data (MAR) – Data mangler, men der er en systematik. For eksempel har vi ikke CPR-numre fra før 1968, fordi det Centrale Personregister ikke fandtes. Disse mangler kan ofte kompenseres matematisk.
  2. Fuldstændig tilfældigt manglende data (MCAR) – Her er fraværet af data helt tilfældigt og ikke relateret til de værdier, der mangler.
  3. Ikke tilfældigt manglende data (MNAR) – Dette er den farligste kategori. Her mangler data på en måde, der hænger sammen med de uobserverede data. Vi ved med andre ord ikke, hvad vi går glip af – og det kan koste dyrt.

At forstå, hvorfor data mangler, er første skridt til at lukke hullerne. Når vi lokaliserer de skjulte mangler, kan vi ikke bare undgå Yahoo’s fejl – vi kan opdage nye muligheder, der ellers ville være usynlige.

 

Schweizerost-Dilemmaet

I virkeligheden er de fleste datasæt fyldt med huller ligesom en klassisk schweizerost. Det er vores opgave at identificere disse huller, forstå hvorfor de er der, og finde ud af, hvad vi kan gøre ved dem. At ignorere manglende data kan være som at navigere gennem tågen: uden en klar retning risikerer vi at fare vild.

Derfor er det tid til at give de manglende data den opmærksomhed, de fortjener.

I min karriere inden for Business Intelligence har jeg endnu ikke deltaget i et kundemøde, der handlede om de data, vi ikke har.

Er det ikke på tide, vi begynder at stille de rigtige spørgsmål?

Måske kan vi håbe på, at det snart ændrer sig.