Solution architect, Trustworks
I klassisk maskinlæring er vi vant til at have konkrete metrikker til at evaluere vores modeller. Disse metrikker er fundamentet for modeludvikling og performancevurdering. Når det kommer til generative modeller, såsom store sprogmodeller (LLMs), står vi over for en helt ny udfordring: Hvordan evaluerer vi output, der er åbent og varieret?
Generative modeller genererer output, der kan være uendeligt varierende, hvilket gør traditionelle evalueringsmetoder utilstrækkelige. Mens LLM leaderboards giver et overblik over generelle præstationer, fortæller de os meget lidt om, hvordan en given model vil klare sig i specifikke forretningskontekster.
I oplægget vil Mads Christiansen dykke ned i problemet gennem en konkret case, hvor han i samarbejde med Energistyrelsens jurister udviklede en POC AI-løsning til kvalitetssikring af lovforslag. En af de absolut største udfordringer i projektet var at etablere et evalueringsdataset, der kunne måle systemets performance pålideligt. I den forbindelse vil Mads præsentere forskellige tilgange og metoder til evaluering af GenAI løsninger og samtidig udfordre deres validitet.
Med oplægget vil deltagerne gå hjem med en forståelse for:
Bio: Mads er solution architect i konsulenthuset Trustworks. Jeg hjælper virksomheder og organisation med at løse konkrete forretningsproblemer med AI. Mads har undervist i maskinlæring på ITU og holder en masse talks og oplæg om AI for tiden – senest på Computerworld Summit i fællesskab med Energistyrelsen - LinkedIn