07.08.2019
4 min læsetid

Arbejder du med data science? Så burde du elske Python

Hvad enten du arbejder med datavask, visualisering eller machine learning, er der en god chance for, at Python er som skabt for dig

IDA Learning

af IDA Learning

Pythons brugervenlighed, omfattende biblioteker og aktive community har gjort det til et af verdens mest populære programmeringssprog. Også når det kommer til data science, er Python et af de mest udbredte sprog.

Det skyldes dels ovenstående pointer - det er nemt at gå til, og så længe du kan skrive ren, logisk kode, er du godt på vej til at lave dataanalyser med Python. Den simple syntaks gør, at du kan fokusere på dine data i stedet for tekniske nuancer i sproget. Og skulle du sidde fast, er det relativt nemt at løse problemer takket være den store mængde af fri tilgængelig dokumentation og ikke mindst det store, aktive community, hvor der altid er hjælp at hente.

Datavask

Når du beskæftiger dig med store datamængder, skal du bruge meget tid på at rense ustrukturerede data - faktisk siges det at udgøre 80 % af alt dataarbejde. Før du kan foretage din dataanalyse, skal du altså nedbryde dine data til en formular, som du kan arbejde med.

Når det fx gælder manglende værdier, gælder det først om at opdage dem. Nogle felter vil være tomme, men sommetider har en bruger måske tastet en tankestreg ind i stedet for et svar, eller har sat et tal ind, hvor der spørges efter et ja/nej.

Herefter vil du typisk skulle opsummere dine manglende værdier for at få et overblik, inden du kan beslutte, hvad du vil gøre med de manglende værdier - skal de bare slettes, eller skal de erstattes (fx ved hjælp af en median)?

Det kan også være en god ide at profilere dine kolonner - hvilke kolonner kunne blive nøglevariabler? Hvad er ren støj? Hvordan er datakvaliteten på disse kolonner? Hvilke skridt skal du tage for at få renset dine data?

Her kan du fx bruge pandas, et open source dataanalyse- og modelleringsbibliotek med brugervenlige datastrukturer og dataanalyseværktøjer til Python, eller udvidelsesmodulet NumPy (Numerical Python), der tilbyder hurtige, forkompilerede funktioner til numeriske rutiner.

Lær at programmere i Pyhton

Har du de rigtige værktøjer til at arbejde med komplekse modeller og dataanalyse? Lær at udvikle applikationer i Python og bliv klædt på til domænespecifikke opgaver.

Data visualization

Når dine data er rensede, begynder det sjove for alvor. Data visualization er et af de steder, hvor Python udmærker sig, fordi sproget er så fremragende til at visualisere data og sammenhængene mellem data. På den måde bliver mønstre, tendenser og korrelationer, der ellers er svære at få øje på, synlige.

Dette gælder især, hvis du arbejder med større, højdimensionelle datasæt. Derudover er visualisering en god måde at præsentere data for andre på en klar, præcis og overskuelig måde.

Python Package Index er fuld af biblioteker, hvor du praktisk talt kan finde enhver form for data visualisering - fra forskning i øjenbevægelser til realtids-visualiseringer af neuralt netværkstræning. De mest populære biblioteker inden for data visualization er nok:

Matplotlib (MPL) var det første Python data visualization library, og derfor er mange andre biblioteker bygget på dette - så hvis du har lært at bruge MPL, kan du begå dig i mange biblioteker. Det er et low-level bibliotek med en Matlab-lignende grænseflade, der giver dig masser af frihed - men som dog kræver at du skriver mere kode. MPL er særligt godt til at skabe grundlæggende grafer som linjediagrammer, stregdiagrammer, histogrammer mm.

Pandas Visualization, der bygger på Matplotlib, er et meget brugervenligt open source-bibliotek, der leverer datastrukturer, såsom dataframes og dataanalyseværktøjer. Pandas har en API på højere niveau end MPL, og derfor kan du nøjes med mindre kode for de samme resultater. På pandas.pydata.org kan du se et overblik over objekter, funktioner og metoder, du kan bruge i pandas - alt fra simple konverteringer som SQL til JSON til Missing data handling. Du kan også lade dig inspirere ved at se, hvad andre gør med deres datasæt.

Seaborn bygger også på MPL, og har et high-level interface. På få linjer kan du skabe grafer, der ville kræve meget kode i MPL. Seaborns standarddesign er fremragende, og det har også en god grænseflade til at arbejde med pandas dataframmer.

Machine Learning

Python bruges også i vid udstrækning til kunstig intelligens med pakker til en række applikationer, herunder General AI, Machine Learning, Natural Language Processing og Neural Networks.

Hvis du arbejder med AI og/eller Machine Learning, bruger du givetvis meget af din tid på at udpakke, behandle, definere, rense, arrangere og derefter forstå dataene for at kunne udvikle intelligente algoritmer. Og som det forhåbentlig fremgår af ovenstående, er du allerede godt på vej til at lykkes med de opgaver med Python.

Som altid i Python er der et hav af målrettede biblioteker, du kan ty til for at forenkle udviklingsprocessen og reducere udviklingstiden. Også her vil du komme langt med pandas, NumPy og MLP, men det mest brugte bibliotek til machine learning og AI er nok Scikit-Learn. Dette bibliotek implementerer en bred vifte af maskinlæringsalgoritmer og gør det nemt at slutte dem til egentlige applikationer. Du kan bruge en hel række funktioner her som regression, clustering, modelvalg, forbehandling, klassificering og meget mere.

Vil du i gang med machine learning?

Kan machine learning hjælpe din virksomhed? Lær at forberede dine data og træn en klassifikationsmodel på IDAs introduktionskursus til machine learning.

Tilmeld dig Technorama

I Technorama får du et overblik over de vigtigste historier fra teknologiens verden, hvad end det handler om etiske dilemmaer, nye teknologiske landvindinger eller spæde opfindelser.
  • Aktuelle artikler
  • Det bedste vi har set
  • Ugens nyhedsoverflyvning
Tilmeld dig nyhedsbrevLæs det seneste nyhedsbrev