Python-pakker til dataanalyse
Pythons væld af pakker og biblioteker, der er dedikerede specifikt til dataarbejde, er en af grundene til, at sproget er blevet så udbredt inden for data science. Her er de 5 vigtigste Python-pakker til dig, der arbejder med data science.

af IDA Learning
Python-pakker til dataanalyse
Python er blevet et af de mest populære sprog til datavidenskabsopgaver. Det kan bruges til at forudsige resultater, automatisere opgaver, strømline processer og tilbyde vigtig forretningsinformation.
En af de ting, der gør Python så velegnet til data science, er sprogets mange pakker og biblioteker, der giver dig al den nødvendige funktionalitet til dit data-arbejde. (Pakker er i denne sammenhæng en samling af moduler, mens biblioteker er en samling af pakker.)
Nedenfor har vi samlet de nok vigtigste Python-biblioteker for dig, der arbejder med data science:
- SciPy og Numpy - til grundlæggende videnskabelige beregninger
- pandas - til databehandling og analyse
- Matplotlib - til plotning og visualisering
- Scikit-Learn - til machine learning og datamining
- StatsModels - til statistisk modellering, test og analyse
1. SciPyog NumPy
SciPy (Scientific Python) er et Python-baseret økosystem med open source-software til matematik, naturvidenskab og teknik.
Det er bygget på NumPy-udvidelsen og giver dig mulighed for at manipulere og visualisere data med en bred vifte af kommandoer på højt niveau.
Brug SciPy til
- optimering
- lineær algebra
- integration
- interpolation specialfunktioner
- FFT
- signal- og billedbehandling
- løsning af differentialligninger
NumPy (Numerical Python) er en pakke til generel matrixbehandling. Den tilbyder hurtige, forkompilerede funktioner til numeriske rutiner samt værktøjer til at arbejde med arrays.
NumPy bruges til at behandle arrays, der hukommelses-effektivt gemmer værdier af samme datatype. Ved at lette matematiske operationer på arrays og deres vektorisering, forbedrer NumPy ydeevnen betragteligt og fremskynder udførelsestiden tilsvarende.
Brug NumPy til:
- grundlæggende matrixoperationer: add, multiply, slice, flatten, reshape
- avancerede array-operationer: stack, split, broadcast, mask
- linear algebra, såsom ligningssystemer og egenværdiproblemer
- arbejde med DateTime format
2. pandas
pandas er et open source dataanalyse- og modelleringsbibliotek med brugervenlige datastrukturer og dataanalyseværktøjer.
pandas er et perfekt værktøj til data wrangling. Det er designet til hurtig og nem datamanipulation, læsning, sammenlægning og visualisering.
pandas tager data fra en CSV- eller Excel-fil eller en SQL-database og opretter et Python-objekt med rækker og kolonner kaldet en dataramme, der meget ligner en tabel i statistisk software, f.eks. Excel eller SPSS.
Brug pandas til:
- indeksering, manipulering, omdøbning, sortering, fletning af datarammer
- opdatering, tilføjelser, sletning af kolonner fra en dataramme
- filtrering og imputering af manglende data eller NAN'er
- Plotning af data med histogram eller boks plot
3. Matplotlib
Matplotlib (MPL) er et plotting-bibliotek, der giver dig en objektorienteret API til indlejring af plots i applikationer.
MPL var det første Python data visualization-bibliotek, og derfor er mange andre biblioteker bygget på dette - så hvis du har lært at bruge MPL, kan du begå dig i mange biblioteker. Det er et low-level bibliotek med en Matlab-lignende grænseflade, der giver dig masser af frihed - men som dog kræver, at du skriver mere kode.
Brug MPL til en bred vifte af visualiseringer som
- grundlæggende grafer som linjediagrammer, stregdiagrammer, histogrammer mm.
- søjlediagrammer, spredningsdiagrammer, areal plot til pie plot
- og til at lette arbejdet med etiketter, gitre, legender
Det er også værd at fremhæve Seaborn, hvilket er effektivt redskab til statistisk data visualisering. Det er et intuitivt plottebibliotek til at lave flotte visualisering, der bygger på både Pandas og Matplotlib.
4. Scikit-Learn
Scikit-Learn er et bibliotek med enkle og effektive værktøjer til machine learning og predictive data analysis. Fokus er på modellering, ikke behandling af data (her er NumPy og pandas bedre bud).
Scikit-Learn indeholder en bred vifte af maskinlæringsalgoritmer som SVM’er, k-means clustering, random forrests, special clustering, mean shift, cross-validation, m.m., og gør det nemt at slutte dem til egentlige applikationer.
Du kan bruge en hel række funktioner her som regression, clustering, modelvalg, forbehandling, klassificering og meget mere.
Brug Scikit-Learn til
- klassifikation, fx spam-detektion, billedgenkendelse
- klynger, fx lægemiddelrespons, aktiekurs
- regression, fx kundesegmentering, gruppering af testresultater
- dimensionsreduktion, fx visualisering, øget effektivitet
- modelvalg: Forbedret nøjagtighed via parameterindstilling
- forbehandling: Forberedelse af inputdata som en tekst til behandling med algoritmer til maskinindlæring.
5. statsmodels
statsmodels er et Python-modul, der stiller klasser og funktioner til rådighed til estimering af forskellige statistiske modeller såvel som til udførelse af statistiske tests og udforskning af statistiske data.
En omfattende liste over resultatstatistikker er tilgængelig for hver estimator. Resultaterne testes i forhold til eksisterende statistiske pakker for at sikre, at de er korrekte.
Brug statsmodels til
- generaliserede lineære modeller og lineære regressionsmodeller
- ikke-parametriske statistikker
- robust regression
- generelle estimeringsligninger
- tidsserieanalyser
- prognoser
- multivariate metoder
Vil du i gang med at bruge Python til dit dataarbejde?
IDA har udviklet et 3-dages kursus, hvor du lærer at forberede og udnytte data ved hjælp af Python.
Her lærer du blandt andet at læse, skrive og transformere data med Pandas, at visualisere data med Matplotlib og at lære af dine data ved hjælp af SciKit-learn.
Efter dette kursus vil du være i stand til at:
- læse, skrive og behandle data fra en lang række datakilder,
- udvikle rene og effektive programmer i Python,
- visualisere dine data
- forstå de forskellige typer prædiktive modeller,
- benytte de pakker, der er mest brugbare i dit daglige arbejde som dataingeniør eller dataforsker.
Lær at bruge Python til at behandle og visualisere data effektivt. Forstå de grundlæggende begreber inden for data science og opbyg enkle prædiktive modeller med Python. Læs mere her.