10.01.2020
4 min læsetid

Analyser dine ustrukturerede data med Hadoop

Ustrukturerede data kan være en udfordring for big data-programmer. Her kan et program som Hadoop, der ikke kræver, at dine data er pænt struktureret i tabeller med feltnavne, være til god hjælp.

IDA Learning

afIDA Learning

Filsystemet Hadoop er en open source, Java-baseret programmeringsramme, der lader dig behandle ​​store datasæt i et distribueret computermiljø. Det er baseret på Google File System (GFS).

Hadoop er blevet go-to-programmet til håndteringen af store mængder af data, fordi det kan behandle data, der både er ekstremt store, meget komplekse og forandrer sig hurtigt.

Så hvis du har en mængde data, der overstiger dit systems hukommelse, eller du brug for at sende data til forskellige servere, kan Hadoop være en god løsning. Derudover kan du bruge Hadoop til dataudforskning, -filtrering, -prøver og opsummering.

Ved du på forhånd, hvad dine data skal bruges til?

En af de største fordele ved Hadoop er dog, at det både kan håndtere strukturerede og ustrukturerede data. Systemet kræver nemlig ikke, at dine data er pænt struktureret i tabeller med feltnavne.

Det betyder, at du med Hadoop kan gemme og søge i alt. Også ting, du ikke på forhånd vidste, du ville få brug for.

For hvor dataarkitekten i traditionelle systemer skal opbygge et skema ud fra de analyser, du i forvejen har besluttet dig for at køre - med fare for at bruge uger eller endda måneder på at ændre analyserne undervejs, når dataen tikker ind - er der intet skema i Hadoop.

Så du kan lave en ny analyse på få timer.

Hvad er ustrukturerede data?

Groft sagt består strukturerede data af klart definerede datatyper, hvis mønster gør dem nemme at søge frem. De kan f.eks være gemt i feltform i databaser eller semantisk tagget i dokumenter.

I modsætning hertil står de ustrukturerede data, der enten ikke har en foruddefineret datamodel eller ikke er organiseret på en foruddefineret måde.

Ustrukturerede data kan indeholde alt fra datoer og tal til lyd, videoer, blogs, kunde-anmeldelser, posts på sociale medier etc. De er ofte meget uregelmæssige, og det gør det vanskeligt at forstå dataene ved hjælp af traditionelle programmer.

Faktisk omtales arbejdet med ustrukturerede data også som “dark analytics”, fordi kompleksiteten er så stor.

Bemærk, at selvom disse slags filer muligvis har en intern struktur, betragtes de stadig som "ustrukturerede", fordi de data, de indeholder, ikke passer pænt i en database.

Hvad kan Hadoop i forhold til ustrukturerede data?

  • Hadoop er designet til at understøtte data, der er for store til, at traditionelle databaseteknologier kan rumme dem. Ustrukturerede data har nemlig en tendens til at være virkelig store.

  • Af samme grund har Hadoop både distribueret lagring og behandlingsramme, så den kan håndtere både størrelsen og kompleksiteten af de ustrukturerede data.

  • I modsætning til traditionelle relationsdatabasestyringssystemer (RDBMS) er NoSQL et ikke-relationelt DMS (document management system). Det betyder, det ikke kræver et fast skema, undgår sammenføjninger og er let at skalere - og det er derfor særligt nyttigt til lagring af ustrukturerede data. I Hadoop-miljøer bruges NoSQL-databaser til indtagelsen og administrationen af indgående data og præsentationen af analytiske resultater.

  • Applikationer som Sqoop, HIVE, HBASE osv. gør det muligt at importere og eksportere data fra andre databaseformer. Dermed kan du bruge Hadoop til at strukturere dine ustrukturerede data og derefter eksportere de semistrukturerede eller strukturerede data til traditionelle databaser til yderligere analyse.
Få hands on-erfaring med big data-værktøjer

Lær hvordan du håndterer store datamængder - og får indsigten til at reagere og handle på baggrund af dem på IDAs 2-dages kursus Big data.

Her kan du finde svar på nogle af de spørgsmål, som vi oftest bliver stillet

Jeg er ikke medlem af IDA, kan jeg deltage alligevel?

Alle vores kurser henvender sig til både medlemmer og ikke-medlemmer.

Er der stadig ledige pladser på kurset?

Der er ledige pladser på kurset, hvis der er markeret med en grøn cirkel ud for datoerne. Hvis der er få pladser tilbage, er det markeret med en gul cirkel. Er der en rød cirkel ud for datoerne er kurset enten fyldt eller tilmeldingsfristen er overskredet.

Hvornår er tilmeldingsfristen for kurset?

Tilmeldingsfristen kan variere fra kursus til kursus, alt efter hvor meget forberedelse der er på det enkelte kursus. Du finder fristen for tilmeldingen under tilmeldingsknappen. Vi beslutter en måned før afholdelsesdatoen, om kurset kan gennemføres. Det vil derfor være optimalt, hvis du tilmelder dig inden. Hvis tilmeldingsfristen skulle være overskredet, kan du sende en forespørgsel til den kursusansvarlige, som vil vurdere om det er muligt stadig at blive tilmeldt.

Kan jeg komme på en venteliste, hvis kurset er fyldt?

Ja det kan du sagtens. Du tilmelder dig ventelisten på samme måde som, du tilmelder dig et kursus. Dog kan vi ikke garantere, at du kan få en plads, da der kan være andre på listen før dig. Hvis ikke du får en plads, vil du blive kontaktet og tilbydes en plads på næste afholdelse.

Er der en frist for afmelding?

Afmeldingsfristen er en måned inden kurset starter, med mindre andet er anført under det enkelte kursus. Efter denne frist hæfter du 100 % for deltagergebyret. Hvis du ikke selv har mulighed for at deltage, er du velkommen til at sende en kollega i stedet. Du bedes oplyse dette til den kursusansvarlige inden kursusstart af hensyn til forberedelse, kursusbevis/certificering mm.

Jeg er blevet syg, hvad gør jeg?

Hvis du bliver syg bedes du orientere den kursusansvarlige, så vi kan orientere underviser samt kursussted. Du hæfter fortsat for deltagerbetalingen og kan ikke automatisk rykkes til næste afholdelse. Du er velkommen til at give pladsen videre til en kollega, så længe du holder den kursusansvarlige underrettet.

Hvornår modtager jeg information om kursusforberedelse og praktisk info?

Du vil modtage et link til IDAs læringsportal ca. 2-4 uger før kursusstart. På nogle kurser vil der være forberedelse fx i form af en test og/eller et forberedelsesskema, som skal afleveres en uge inden kursusstart. Du vil i så fald blive orienteret i god tid. I kursusbeskrivelsen kan du læse om du skal afsætte tid til dette.

Hvornår modtager jeg en faktura?

Du vil modtage en faktura ca. tre måneder før kursusstart. Tilmelder du dig senere vil du modtage fakturaen kort tid efter din tilmelding. Betalingsfristen på IDAs fakturaer er løbende måned + 5 dage.

Hvad er inkluderet i kursuspakken?

Kursuspakken består af fuld forplejning på alle kursusdagene, samt de materialer som vil blive benyttet i undervisningen. Forplejningen på vores heldagskurser består af morgenbuffet, frokost, eftermiddagsbuffet med kaffe/the og vand hele dagen. Overnatning er ikke inkluderet i prisen, men ønskes der overnatning kan vi være behjælpelig med anbefaling af hoteller i nærheden af afholdelsesstedet. Vi har også en række rabataftaler med forskellige hotelkæder.

Får jeg et bevis på, at jeg har været på kursus?

Ja, inden du forlader kurset, modtager du et kursusbevis. Her er anført, hvilket kursus du har deltaget på, kursusdato etc. På nogle kurser vil du i stedet modtage en certificering.