R eller Python til data science?
R og Python er stadig de to mest populære programmeringsværktøjer inden for data science, og de er essentielle for enhver, der er interesseret i maskinlæring, i at arbejde med store datasæt eller skabe komplekse datavisualiseringer.

af IDA Learning
Begge programmeringssprog er gratis og open source, begge har store communities og et væld af biblioteker og værktøjer tilknyttet, og der kommer løbende nye til. De kan også begge håndtere enorme databaser.
Så hvad skal du vælge?
For at opklare dette, kan du først spørge dig selv:
- Hvilket sprog bruger dine kolleger?
Hvis dine kolleger allerede arbejder med data science i et af sprogene, vil fordelene ved at kunne dele og vedligeholde en fælles kode, i de fleste tilfælde opveje fordele og ulemper ved de enkelte sprog. - Hvem er det, der arbejder med data?
Python er udviklet som et allround sprog med en let forståelig syntaks, så hvis du har gode it-kundskaber er det et intuitivt sprog, hvor du nemt kan implementere matrixberegninger og optimering til at bygge modeller fra bunden.
R derimod er udviklet specifikt med statistikere i tankerne, og har gode værktøjer til at importere, manipulere, visualisere og rapportere data, der er nemme at bruge for folk uden særlige it-kundskaber.
Derfor er Python ofte det foretrukne sprog inden for computer science, mens R typisk foretrækkes indenfor forskning til at analysere eksperimentelle resultater. - Hvilken slags opgaver vil du løse?
Mens både Python og R stort set kan løse enhver opgave, du kan finde på, er der stadig områder, hvor det ene sprog er stærkere end det andet.
Her er Python stærkest:
- Det meste deep learning research udføres i Python, så værktøjer som Keras og PyTorch bliver udviklet til Python først.
- Python er typisk det bedste valg, hvis dine resultater skal bruges i en applikation eller et website. Du kan nemlig skrive hele applikationen i Python og derefter indarbejde din model i web-miljøet uden større problemer.
- Python har det største økosystem af folk der sidder og udvikler, både kernesproget og alskens pakker til forskellige anvendelser.
Her er R stærkest:
- Meget statistisk modelleringsforskning udføres i R, så der er et bredere udvalg af modeltyper at vælge imellem. Hvis du regelmæssigt har spørgsmål om den bedste måde at modellere data på, er R nok det bedste valg for dig.
- Det er nemt for folk uden megen teknisk erfaring at oprette og dele dashboards f.eks. ved hjælp af Shiny.
Har du valgt “forkert”?
Det er heldigvis svært at vælge forkert mellem R og Python.
De to sprog skæver nemlig løbende til hinanden. Så hvis der er en genial funktion i det ene sprog, er den givetvis snart på vej i det andet sprog.
Og så er der faktisk en glimrende interoperabilitet mellem Python og R. Det vil sige, du kan køre R-kode fra Python ved hjælp af rpy2-pakken, og du kan køre Python-kode fra R ved hjælp af reticulate.
På den måde kan alle funktioner i det ene sprog altså tilgås fra det andet sprog.
Lær at forberede og udnytte data på IDAs kurser: Data Science with Python eller Data Science with R.