Python-pakker til dataanalyse

Pythons væld af pakker og biblioteker, der er dedikerede specifikt til dataarbejde, er en af grundene til, at sproget er blevet så udbredt inden for data science. Her er de 5 vigtigste Python-pakker til dig, der arbejder med data science.

Af IDA Learning

16. april 2021

Python-pakker til dataanalyse

Python er blevet et af de mest populære sprog til datavidenskabsopgaver. Det kan bruges til at forudsige resultater, automatisere opgaver, strømline processer og tilbyde vigtig forretningsinformation.

En af de ting, der gør Python så velegnet til data science, er sprogets mange pakker og biblioteker, der giver dig al den nødvendige funktionalitet til dit data-arbejde. (Pakker er i denne sammenhæng en samling af moduler, mens biblioteker er en samling af pakker.)

Nedenfor har vi samlet de nok vigtigste Python-biblioteker for dig, der arbejder med data science:

SciPy og Numpy - til grundlæggende videnskabelige beregninger
pandas - til databehandling og analyse
Matplotlib - til plotning og visualisering
Scikit-Learn - til machine learning og datamining
StatsModels - til statistisk modellering, test og analyse

1. SciPyog NumPy

SciPy (Scientific Python) er et Python-baseret økosystem med open source-software til matematik, naturvidenskab og teknik.

Det er bygget på NumPy-udvidelsen og giver dig mulighed for at manipulere og visualisere data med en bred vifte af kommandoer på højt niveau.

Brug SciPy til

optimering
lineær algebra
integration
interpolation specialfunktioner
FFT
signal- og billedbehandling
løsning af differentialligninger

NumPy (Numerical Python) er en pakke til generel matrixbehandling. Den tilbyder hurtige, forkompilerede funktioner til numeriske rutiner samt værktøjer til at arbejde med arrays.

NumPy bruges til at behandle arrays, der hukommelses-effektivt gemmer værdier af samme datatype. Ved at lette matematiske operationer på arrays og deres vektorisering, forbedrer NumPy ydeevnen betragteligt og fremskynder udførelsestiden tilsvarende.

Brug NumPy til:

grundlæggende matrixoperationer: add, multiply, slice, flatten, reshape
avancerede array-operationer: stack, split, broadcast, mask
linear algebra, såsom ligningssystemer og egenværdiproblemer
arbejde med DateTime format

2. pandas

pandas er et open source dataanalyse- og modelleringsbibliotek med brugervenlige datastrukturer og dataanalyseværktøjer.

pandas er et perfekt værktøj til data wrangling. Det er designet til hurtig og nem datamanipulation, læsning, sammenlægning og visualisering.

pandas tager data fra en CSV- eller Excel-fil eller en SQL-database og opretter et Python-objekt med rækker og kolonner kaldet en dataramme, der meget ligner en tabel i statistisk software, f.eks. Excel eller SPSS.

Brug pandas til:

indeksering, manipulering, omdøbning, sortering, fletning af datarammer
opdatering, tilføjelser, sletning af kolonner fra en dataramme
filtrering og imputering af manglende data eller NAN'er
Plotning af data med histogram eller boks plot

3. Matplotlib

Matplotlib (MPL) er et plotting-bibliotek, der giver dig en objektorienteret API til indlejring af plots i applikationer.

MPL var det første Python data visualization-bibliotek, og derfor er mange andre biblioteker bygget på dette - så hvis du har lært at bruge MPL, kan du begå dig i mange biblioteker. Det er et low-level bibliotek med en Matlab-lignende grænseflade, der giver dig masser af frihed - men som dog kræver, at du skriver mere kode.

Brug MPL til en bred vifte af visualiseringer som

grundlæggende grafer som linjediagrammer, stregdiagrammer, histogrammer mm.
søjlediagrammer, spredningsdiagrammer, areal plot til pie plot
og til at lette arbejdet med etiketter, gitre, legender

Det er også værd at fremhæve Seaborn, hvilket er effektivt redskab til statistisk data visualisering. Det er et intuitivt plottebibliotek til at lave flotte visualisering, der bygger på både Pandas og Matplotlib.

4. Scikit-Learn

Scikit-Learn er et bibliotek med enkle og effektive værktøjer til machine learning og predictive data analysis. Fokus er på modellering, ikke behandling af data (her er NumPy og pandas bedre bud).

Scikit-Learn indeholder en bred vifte af maskinlæringsalgoritmer som SVM’er, k-means clustering, random forrests, special clustering, mean shift, cross-validation, m.m., og gør det nemt at slutte dem til egentlige applikationer.

Du kan bruge en hel række funktioner her som regression, clustering, modelvalg, forbehandling, klassificering og meget mere.

Brug Scikit-Learn til

klassifikation, fx spam-detektion, billedgenkendelse
klynger, fx lægemiddelrespons, aktiekurs
regression, fx kundesegmentering, gruppering af testresultater
dimensionsreduktion, fx visualisering, øget effektivitet
modelvalg: Forbedret nøjagtighed via parameterindstilling
forbehandling: Forberedelse af inputdata som en tekst til behandling med algoritmer til maskinindlæring.

5. statsmodels

statsmodels er et Python-modul, der stiller klasser og funktioner til rådighed til estimering af forskellige statistiske modeller såvel som til udførelse af statistiske tests og udforskning af statistiske data.

En omfattende liste over resultatstatistikker er tilgængelig for hver estimator. Resultaterne testes i forhold til eksisterende statistiske pakker for at sikre, at de er korrekte.

Brug statsmodels til

generaliserede lineære modeller og lineære regressionsmodeller
ikke-parametriske statistikker
robust regression
generelle estimeringsligninger
tidsserieanalyser
prognoser
multivariate metoder

Vil du i gang med at bruge Python til dit dataarbejde?

IDA har udviklet et 3-dages kursus, hvor du lærer at forberede og udnytte data ved hjælp af Python.

Her lærer du blandt andet at læse, skrive og transformere data med Pandas, at visualisere data med Matplotlib og at lære af dine data ved hjælp af SciKit-learn.

Efter dette kursus vil du være i stand til at:

læse, skrive og behandle data fra en lang række datakilder,
udvikle rene og effektive programmer i Python,
visualisere dine data
forstå de forskellige typer prædiktive modeller,
benytte de pakker, der er mest brugbare i dit daglige arbejde som dataingeniør eller dataforsker.

Kursus

Data Science med Python

Lær hvordan du forbereder og udleder resultater fra data med Python på bare 3 dage. Brug Python til at bearbejde og visualisere data effektivt, forstå de basale principper ved data science og opbyg simple prædiktive modeller med Python.

Kursus

Data Science med Python

Læs mere:

Tema

IT og digitalisering

Se IDAs tilbud IT-arkitektur, cybersikkerhed, UX, UI, AI og machine learning, programmering og softwareudvikling, datascience, compliance og datasikkerhed.

Tema

Kursusoversigt

Få adgang til et bredt udvalg af kurser hos IDA, skræddersyet til STEM-uddannede. Sikr din markedsværdi og udvikl dine kompetencer hele karrieren

Kontakt

Få hjælp nu

Find relevante, kvalitetssikrede kurser og efteruddannelse.

Book en kompetencerådgivning

Python-pakker til dataanalyse

Python-pakker til dataanalyse

1. SciPyog NumPy

2. pandas

3. Matplotlib

4. Scikit-Learn

5. statsmodels

Vil du i gang med at bruge Python til dit dataarbejde?

Data Science med Python

Data Science med Python

Læs mere:

IT og digitalisering

Kursusoversigt

Kontakt

Kontakt IDA

Medlemskab

Om IDA

Andre sider

Andre sider