IT og digitalisering

Overfitting: Måske den største fare for din data modeling

Overfitting er den største faldgrube i arbejdet med prædiktiv modellering. Og selvom det er en simpel fejl, kan den ødelægge hele din machine learning-model. Få forklaringen på hvad overfitting er, og hvordan du kan undgå det med enkle teknikker.

Overfitting: Data modelling og prædiktiv modellering
Billede: IDA

Hvad er 'overfitting' i machine learning?

Når en statistisk model beskriver en tilfældig fejl eller støj i stedet for de underliggende forhold, kalder man det 'overfitting'. 

Problemet er, at det påvirker modellens evne til at ”predicte” nye data. 

Din model vil med andre ord virke fint med dine træningsdata men kan give dig helt misvisende resultater, når du begynder at bruge nye data, som ikke er set før. 

Forestil dig, at du opbygger en model til at forudsige et fysisk eller biologisk fænomen baseret på måledata fra et enkelt eksperimentelt setup. Modellen passer perfekt til de data, du har indsamlet: residualerne er små, og præcisionen ser imponerende ud.

Når modellen anvendes på data fra et nyt setup – fx med en anden sensor, en let ændret temperatur eller et andet prøvemateriale – falder præcisionen markant.

Modellen har ikke lært den underliggende sammenhæng i systemet, men har i stedet tilpasset sig støj, systematiske målefejl eller særlige betingelser i det oprindelige datasæt. Det er essensen af overfitting: en model, der beskriver træningsdataene bedre end den beskriver virkeligheden.

I den modsatte ende af faldgruberne finder vi underfitting. Underfitting opstår, når en model er for enkel - måske er der for få funktioner eller den er normaliseret for meget - så den hverken kan modellere træningsdataene eller generalisere til nye data. 

Underfitting er dog mindre tricky end overfitting, fordi det ofte er indlysende allerede med træningsdataene, at modellen performer dårligt. 

4 teknikker til at undgå overfitting

For at forbedre din model og sikre, at den ikke overtilpasses, er der flere teknikker, du kan implementere: 

  1. Cross validation 
    Krydsvalidering eller cross validation er en god teknik til at undgå overmontering, hvor du bruger dine oprindelige træningsdata til at generere flere små train-test split. Disse opdelinger kan du så bruge til at fintune din model. Dette giver dig mulighed for at indstille hyperparametre uden at bruge andre data end dit oprindelige træningssæt.

  2. Brug flere observationer
    Hvis du træner med flere data, kan det hjælpe din algoritme til at bedre at opfange signaler. Problemet er selvfølgelig, at du risikerer, bare at tilføje mere støj sammen med dine data - og så hjælper flere data ikke. Derfor skal du altid sikre dig, at dine data er rene og relevante.

  3. Fjern features (eller ”variables”)
    Er din algoritme unødvendig kompleks? Ved at fjerne irrelevante features kan du manuelt forbedre din models generaliserbarhed. Beskæring, reducering af parametrene i et neuralt netværk og brug af dropouts er nogle af de teknikker, du kan overveje her.

  4. Regularisering
    Regularisering dækker over en række forskellige teknikker, der bruges til at tvinge din model til at forenkle sig selv med mindst muligt tab af information. Dette gør den ved at tilføje en ekstra straf- eller regulariseringsperiode i fejlfunktionen, hvilket forhindrer koefficienterne i at medtage ekstreme værdier.

Overfitting kan underminere din machine learning-models præcision, men med de rigtige teknikker kan du balancere kompleksitet og generaliserbarhed. Ved at anvende metoder som krydsvalidering, brug af flere observationer, fjernelse af irrelevante features og regularisering kan du skabe robuste og pålidelige modeller, der præsterer godt på nye data.

Kursus

Data Science med Python

Lær hvordan du forbereder og udleder resultater fra data med Python på bare 3 dage. Brug Python til at bearbejde og visualisere data effektivt, forstå de basale principper ved data science og opbyg simple prædiktive modeller med Python.

Kursus

Data Science med Python

Lær hvordan du forbereder og udleder resultater fra data med Python på bare 3 dage. Brug Python til at bearbejde og visualisere data effektivt, forstå de basale principper ved data science og opbyg simple prædiktive modeller med Python.

Læs mere:

Tema

IT og digitalisering

Se IDAs tilbud IT-arkitektur, cybersikkerhed, UX, UI, AI og machine learning, programmering og softwareudvikling, datascience, compliance og datasikkerhed.

Tema

Kursusoversigt

Få adgang til et bredt udvalg af kurser hos IDA, skræddersyet til STEM-uddannede. Sikr din markedsværdi og udvikl dine kompetencer hele karrieren

Kontakt

Få hjælp nu

Find relevante, kvalitetssikrede kurser og efteruddannelse.