Hvordan tackler du ubalancerede datasæt i machine learning?

Hvad er ubalancerede datasæt i machine learning og hvordan håndterer du dem? Læs om effektive teknikker, der kan forbedre præstationen af dine ML-modeller.

Af IDA Learning

15. januar 2025

Ubalancerede datasæt kan føre til suboptimale modeller og misvisende resultater, hvis ikke de håndteres korrekt. I denne artikel ser vi nærmere på, hvad ubalancerede datasæt er, hvorfor de udgør et problem i ML, og hvordan du kan tackle denne problemstilling effektivt.

Hvad er et ubalanceret datasæt?

Et ubalanceret datasæt opstår, når nogle klasser af data er kraftigt underrepræsenteret i forhold til andre. Dette sker ofte i klassifikationsopgaver, hvor én eller flere klasser i træningsdataene er væsentligt færre end de andre.

Et klassisk eksempel på et ubalanceret datasæt er i sygdomsdiagnostik, hvor sundhedstilstande som kræft kan være meget sjældne i forhold til raske tilfælde.

Hvis en ML-model trænes på et sådan datasæt, vil den have tendens til at favorisere de mere hyppige klasser, hvilket kan føre til dårlige præstationer på de underrepræsenterede klasser.

Hvorfor er ubalancerede datasæt et problem?

Når en ML-model trænes på et ubalanceret datasæt, vil den ofte blive biased mod den dominerende klasse. Dette resulterer i, at modellen præsterer dårligere på den sjældnere klasse. Det kan være kritisk, især når det kommer til medicinske diagnoser men også i situationer som kreditkortsvindel, hvor de sjældne hændelser er de mest relevante at identificere.

Desuden kan standardevalueringsmetoder som nøjagtighed (accuracy) give et misvisende billede af modellens præstation.

En model, der hele tiden forudsiger den dominerende klasse, vil fx stadig opnå høj nøjagtighed, men den vil ikke være brugbar i praksis, da den ignorerer den sjældnere, men mere kritiske klasse.

Hvordan kan ubalancerede datasæt håndteres?

Der findes flere metoder til at håndtere ubalancerede datasæt i machine learning, og valget af metode afhænger af problemets natur og datamængden.

Her er nogle af de mest anvendte teknikker:

1. Resampling

Oversampling: Denne metode indebærer at tilføje flere eksempler fra den underrepræsenterede klasse ved at duplikere eller generere syntetiske data (fx ved hjælp af SMOTE - Synthetic Minority Over-sampling Technique).

Undersampling: Her reducerer du i stedet antallet af eksempler fra den dominerende klasse for at balancere datasættet. Denne metode kan dog medføre tab af vigtige data, så den bør anvendes med forsigtighed.

2. Vægtede klasser

Ved at justere vægtene på klasserne kan du signalere til modellen, at det er vigtigere at klassificere den underrepræsenterede klasse korrekt.

Dette indebærer, at fejl for den sjældne klasse vægtes højere end fejl for den dominerende klasse, hvilket gør modellen mere opmærksom på de sjældnere observationer.

3. Generering af syntetiske data

Teknikker som SMOTE og ADASYN (Adaptive Synthetic Sampling) kan anvendes til at generere syntetiske data for de underrepræsenterede klasser.

Dette skaber en mere balanceret datadistribution, som kan hjælpe med at forbedre modellens præstation på den sjældnere klasse.

4. Brug af alternative evalueringsmetoder

I stedet for at bruge nøjagtighed som evalueringsmetode, er det ofte bedre at bruge mål som præcision, recall, F1-score eller ROC-AUC, som giver en mere detaljeret vurdering af modellens præstation på begge klasser.

5. Anvendelse af ensemblemetoder

Ensemblemetoder som Random Forest og XGBoost kan håndtere ubalancerede datasæt bedre, da de kombinerer flere beslutningstræer, hvilket kan forbedre modellens evne til at identificere den underrepræsenterede klasse.

Flere af disse metoder inkluderer muligheder for at vægte klasserne eller tilpasse træningsdataene for at håndtere ubalancen.

6. Modificering af algoritmen

Nogle ML-algoritmer har specifikke justeringer for at håndtere ubalancerede datasæt. For eksempel kan du justere grænseværdien for beslutningstræet i en klassifikationsmodel, så den bedre håndterer ubalancerede data.

Hvordan vælger man den rette tilgang?

Valget af metode afhænger af flere faktorer, herunder datasættets størrelse, type og den specifikke opgave. I praksis anbefales det ofte at eksperimentere med flere metoder og evaluere dem ved hjælp af de relevante metrikker for at finde den bedste tilgang til at håndtere ubalancerede datasæt.

Håndtering af ubalancerede datasæt er en essentiel færdighed i machine learning, da det kan have stor indflydelse på modellens præstation og anvendelighed i virkelige scenarier.

Ved at anvende teknikker som resampling, vægtning af klasser og syntetisk dataforøgelse kan du forbedre modellerne og sikre, at de ikke bliver biased mod de mere dominerende klasser.

Det er også vigtigt at vælge de rette evalueringsmetoder, så man kan få en nøjagtig vurdering af modellens præstation.

Kursus

Machine Learning - get value out of your data

På kurset 'Machine Learning - get value out of your data' lærer du praktiske teknikker som resampling, vægtede klasser og syntetisk dataforøgelse – perfekt for dig, der vil optimere arbejdet med komplekse datasæt.

Kursus

Machine Learning - get value out of your data

Læs mere:

Tema

IT og digitalisering

Se IDAs tilbud IT-arkitektur, cybersikkerhed, UX, UI, AI og machine learning, programmering og softwareudvikling, datascience, compliance og datasikkerhed.

Tema

Kursusoversigt

Få adgang til et bredt udvalg af kurser hos IDA, skræddersyet til STEM-uddannede. Sikr din markedsværdi og udvikl dine kompetencer hele karrieren

Kontakt

Få hjælp nu

Find relevante, kvalitetssikrede kurser og efteruddannelse.

Book en kompetencerådgivning

Hvordan tackler du ubalancerede datasæt i machine learning?

Hvad er et ubalanceret datasæt?

Hvorfor er ubalancerede datasæt et problem?

Hvordan kan ubalancerede datasæt håndteres?

1. Resampling

2. Vægtede klasser

3. Generering af syntetiske data

4. Brug af alternative evalueringsmetoder

5. Anvendelse af ensemblemetoder

6. Modificering af algoritmen

Hvordan vælger man den rette tilgang?

Machine Learning - get value out of your data

Machine Learning - get value out of your data

Læs mere:

IT og digitalisering

Kursusoversigt

Kontakt

Kontakt IDA

Medlemskab

Om IDA

Andre sider

Andre sider