Mads Christiansen

Solution architect, Trustworks

Billede af oplægsholder Mads Christiansen

Evaluering: Elefanten i maskinrummet 

I klassisk maskinlæring er vi vant til at have konkrete metrikker til at evaluere vores modeller. Disse metrikker er fundamentet for modeludvikling og performancevurdering. Når det kommer til generative modeller, såsom store sprogmodeller (LLMs), står vi over for en helt ny udfordring: Hvordan evaluerer vi output, der er åbent og varieret?

Generative modeller genererer output, der kan være uendeligt varierende, hvilket gør traditionelle evalueringsmetoder utilstrækkelige. Mens LLM leaderboards giver et overblik over generelle præstationer, fortæller de os meget lidt om, hvordan en given model vil klare sig i specifikke forretningskontekster.

I oplægget vil Mads Christiansen dykke ned i problemet gennem en konkret case, hvor han i samarbejde med Energistyrelsens jurister udviklede en POC AI-løsning til kvalitetssikring af lovforslag. En af de absolut største udfordringer i projektet var at etablere et evalueringsdataset, der kunne måle systemets performance pålideligt. I den forbindelse vil Mads præsentere forskellige tilgange og metoder til evaluering af GenAI løsninger og samtidig udfordre deres validitet. 

Med oplægget vil deltagerne gå hjem med en forståelse for:

  • Hvordan GenAI adskiller sig fra klassisk maskinlæring ift evaluering.
  • Evaluerings betydning for succesfuld AI implementering.
  • Udfordringerne ved mange af de forslåede evalueringsframeworks.
  • Hvordan ser fremtiden ud for evaluering af GenAI løsninger?

Bio: Mads er solution architect i konsulenthuset Trustworks. Jeg hjælper virksomheder og organisation med at løse konkrete forretningsproblemer med AI. Mads har undervist i maskinlæring på ITU og holder en masse talks og oplæg om AI for tiden – senest på Computerworld Summit i fællesskab med Energistyrelsen - LinkedIn 

Driving IT Konference

Driving IT er IDA IT's store årlige 4-spors konference, hvor alt det vigtige og fremadrettede om IT tages op på en dag.