Derfor fejler dine ML-projekter: 7 typiske fejlkilder
For meget, for lidt eller for beskidt data - der er meget, der kan føre til fejlbehæftet machine learning. Vi har samlet 7 typiske fejlkilder, du bør prøve at undgå, samt 3 gode råd til at højne din datasikkerhed.

af IDA Learning
De seneste år er det blevet meget lettere at arbejde med machine learning i praksis. Det skyldes, at computer hardware er blevet hurtigere og billigere og at data bliver indsamlet og gemt i et hidtil uset omfang. Derudover har open source software gjort det langt lettere at komme i gang med at træne avancerede machine learning modeller.
Men der er også meget, der kan gå galt, og mange ML-løsninger ender med ikke at blive brugt i praksis. Her er nogle typiske fejlkilder:
- Du har for meget data: Selvom du i teorien ikke kan have for meget data, er det en kæmpe opgave at finde og udvælge de relevante data (og selvfølgelig opbevare dem sikkert, uden at overtræde GDPR). Derfor er for meget data en potentiel fælde, der kan afspore dit data science-projekt.
- Du har for lidt data: Nogle gange kan det være svært at få adgang til relevante data, fx inden for life science eller finanssektoren, hvor de mest interessante datasæt ofte er så følsomme, at adgangen til dem er meget begrænset.
- Du har beskidte data: Hvis dine data er unøjagtige eller beskidte, kan selv de bedste modeller føre til dårlige forudsigelser. For at du reelt kan bruge dem til noget, er du nødt til at være sikker på betydningen af dine data og kunne stole på deres kvalitet.
- Du bruger den forkerte model: Der er ikke én rigtig model til alle problemer. Du skal nøje overveje trade-off’et mellem hastighed, nøjagtighed og kompleksitet for forskellige modeller og algoritmer for at finde den model, der fungerer bedst for dit specifikke problem.
- Du stiller de forkerte spørgsmål: Det lyder indlysende: Hvis du stiller de forkerte spørgsmål, får du de forkerte svar. Jo mere præcis du kan formulere dit problem, jo skarpere bliver din løsning også.
- Du mangler en målestok: Det er vigtigt, du kan evaluere, hvordan dine trænede model klarer sig, fx i forhold til træningsdata og testdata. Disse oplysninger kan du bruge til at vælge model - og til bagefter at afgøre om modellen er klar til brug.
- Du løser det forkerte problem: Hold altid fokus på, hvordan din ML-løsning tilfører værdi til din virksomhed. Sørg for at undersøge, om der fx er et marked for din løsning, inden du begynder at designe og kode den.
Lær at indsamle, oprense, lagre, analysere og rapportere dine data – og lær hvordan du skal reagere og handle på baggrund af dem.
Som det fremgår af ovenstående, er data nøglen. For at undgå upålidelige data, bør dine data derfor være veldokumenterede, blandt andet med hensyn til data- og begrebsdefinitioner, datastruktur, syntaks, aktualitet, opdateringsstatus, nøjagtighed mm.
Her følger vores tre bedste råd til at kvalitetssikre dine data:
Etabler en klar governance
Der skal etableres et reelt samarbejde og governance omkring dine data, så medarbejdere i forskellige afdelinger altid kan regne med kvalitet, dokumentation (hvad data siger noget om, hvor præcise de er, hvor gamle de er, hvem der ejer dem, osv.) mv.
Få styr på klare begrebsdefinitioner og kvalitets- og dokumentationskrav
Få fodarbejdet i orden: 1) Formaliser processer og samarbejde og 2) få styr på klare begrebsdefinitioner og kvalitetskrav til data.
Der bør fra centralt hold defineres præcise definitioner af begreber samt klare krav til datakvalitet og til dokumentation. Sørg for at der er bred opbakning til præcise krav og standarder for interoperabilitet mellem datasystemer for at sikre tilgængelighed og optimal anvendelse af data på tværs.
Etabler et løbende evaluerings-setup
Etabler et evaluerings-setup, der løbende evaluerer udbud og efterspørgsel af data, herunder hvilke data, der er tilgængelige og hvilke der bliver brugt.
Hvilke opgaver egner sig til machine learning? Lær at forberede dine data og træn en klassifikationsmodel på IDAs introduktionskursus til machine learning.