10.01.2020
4 min læsetid

Fordele og ulemper ved R til Data science

Hvis du arbejder med data science, er programmeringssproget og statistikprogrammet R svært at komme uden om. Læs hvorfor det er så populært.

IDA Learning

af IDA Learning

R er et open source programmeringssprog og miljø til statistisk databehandling og grafik.

Det blev udviklet i 1995 af Ross Ihaka and Robert Gentleman, og det er specifikt designet til at arbejde med data science. Navnet R stammer i øvrigt fra de to herrers fælles forbogstav.

I dag er R vidt udbredt blandt data miners og statistikere til statistisk computing og grafiske teknikker inden for dataanalyse og datavidenskab.

R tilbyder en bred vifte af statistiske værktøjer hertil, herunder:

  • lineær og non-lineær modellering,
  • klassiske statistiske test,
  • tidsserieanalyser,
  • klassifikation,
  • klyngedannelse

Visualiseringer og modeller

Noget af det, R er virkelig god til, er flotte visualiseringer.

En god visualisering kan vise dig sammenhænge, du ikke forventede, og rejse nye spørgsmål om dine data. Den kan også fortælle dig, at du måske stiller det forkerte spørgsmål, eller at du er nødt til at indsamle andre data.

Som dataforsker skal du være i stand til at visualisere data ved hjælp af datavisualiseringsværktøjer såsom ggplot, d3.js og Matplottlib og Tableau, der forvandler komplekse resultater fra dine projekter til et format, der er let at forstå, også for udenforstående.

I modsætning hertil er modeller et grundlæggende matematisk værktøj. Det betyder, at de skalerer godt - i modsætning til visualiseringer, der kræver et menneske til at fortolke dem.

Når du har stillet dine spørgsmål tilstrækkelig præcise, kan du bruge en model til at besvare dem. Men enhver model laver antagelser, og modellen kan ikke selv sætte spørgsmålstegn ved sine egne antagelser.

Fordele - og ulemper - ved R

For nu at starte med ulemperne, så er R ikke nemt at lære, og du skal være indstillet på, at det tager tid at lære. Sværheden ligger i høj grad i, at det er et statistisk sprog - så erfaring med statistikker er en fordel, når du skal lære R. Til gengæld er syntaksen relativt enkel, så du har faktisk en chance for både at huske og forstå R.

Der er heller ingen officiel supportlinje. Heldigvis er det et mindre problem, fordi R har et stort community af hjælpsomme brugere, der kan hjælpe dig videre samt omfattende biblioteker, hvor du kan finde svar på næsten alt.

Derudover er der en række klare plusser:

  • R er open source. Det betyder blandt andet, at et hav af udviklere løbende ændrer og forbedrer kildekoden, så R er meget stabil og pålidelig.

  • R kan køre på stort set alt - såvel Windows og Mac som Unix-systemer.

  • de nyeste algoritmer, der offentliggøres i videnskabelige publikationer, er som regel tilgængelige i R, før de er i andre sprog som f.eks. Python.

  • R kan tale sammen med en række andre sprog. Eftersom meget af R oprindeligt var baseret på Fortran og C, kan kode fra disse sprog nemt kaldes med R. Efterhånden har C ++, Java, Python og andre populære programmeringssprog også fået tættere forbindelse til R

  • R letter interaktionen med andre databaser vha add-on-pakker såsom RODBC-pakken til at læse fra databaser ved hjælp af Open Database Connectivity-protokollen (ODBC) og ROracle-pakken til at læse Oracle-databaser. Der er også en udvidelse til MySQL, som hedder RMySQL.

  • R lader dig arbejde med og kombinere flere forskellige datasæt (i modsætning til f.eks. Stata, hvor du kun kan have ét datasæt åbent af gangen).

  • R lader dig reproducere dine resultater. Fordi du arbejder med kommandoer, der er nemme at dokumentere, kan du nemt sende script og datasæt til fx en kollega, som så kan køre samme script på de samme data.

  • CRAN (Comprehensive R Archive Network)-repositoriet har et rigt udvalg af biblioteker (der er omkring 12.000 tilgængelige pakker), så der er et bibliotek til nærmest en hvilken som helst analyse, du vil foretage.
Vil du i gang med R til data science?

Lær at forberede og udnytte data med R på IDAs 3-dages kursus Data Science with R.