Overslaan naar hoofdinhoud
Pulse
Leestijd, 3 min.

Er wordt ontzettend veel data verzameld en dat wordt alleen maar meer, zoveel was me al duidelijk. Soms gestructureerd, maar vaak ook niet. We noemen het Big Data of advanced analytics en het staat verdeeld over enkele of zelfs honderden servers. Dat je met de juiste tooling verborgen schatten uit die data tevoorschijn kan toveren, haalde de avonturier in mij naar boven. Met een schatkaart in de vorm van een zoekmachine ging ik op zoek naar gereedschap.

Hoe moeilijk kan het zijn?

Al snel kwam ik erachter dat Hadoop en Big Data bijna onlosmakelijk met elkaar verbonden zijn. Mooi, want Hadoop wordt ondersteund op Microsoft Azure door middel van HDInsight. “Hoe moeilijk kan het zijn?”, dacht ik. Ik installeer simpelweg een Hadoop-cluster met de bijbehorende tools en ik kan aan de slag. Ik had er een middag voor ingeruimd. Mensen die dit ook hebben geprobeerd moeten nu waarschijnlijk lachen, want inderdaad: een Hadoop-cluster installeren, dat doe je niet even. Een Hadoop-cluster configureren en beheren? Dat is helemaal een verhaal apart.

Het kan natuurlijk aan mij liggen, maar ik vind Hadoop echt ontzettend complex. Nadat ik uitgevist had hoe de data gestructureerd was, moest het nog geprepareerd worden om een analyse te kunnen maken. Dat alles via scripting en de Command Line. Dat moet toch makkelijker kunnen, dacht ik zo. Als Microsoftie ben ik immers dol op interfaces ?

En ja, het kan dus inderdaad makkelijker, met Cloudera! Dit is een van de Hadoop-distributies die het leven een stuk eenvoudiger maken. Cloudera geeft mij een grafische interface om Hadoop heen, precies waar ik naar op zoek was. Je kunt het vergelijken met een grafische interface voor bijvoorbeeld Linux. Misschien vind je me nu een watje, maar ik hou ervan. Het mooie aan Cloudera is dat er automatisch een aantal tools worden bijgeleverd, die je anders zelf zou moeten installeren.

Cloudera Analysetools

Big Data kan van alles zijn en het kan overal staan. Dat is wat plat gezegd, maar waar het op neerkomt is dat het kan gaan om zowel gestructureerde data als ongestructureerde data, bijvoorbeeld zowel foto’s als tweets. En dan kan het ook nog eens op verschillende servers opgeslagen staan, met verschillende filesystems. Cloudera zorgt ervoor dat je hier niets van merkt. Het helpt je de data te structureren en biedt bovendien Hive, een tool om gestructureerde data te analyseren. De syntax van Hive lijkt veel op de query-taal SQL, die ik gelukkig wel kende. Het geeft me zelfs de mogelijkheid om mijn tabellen vanuit Cloudera naar SQL of MSAcces te importeren.

Bovendien kan ik op Cloudera met MapReduce alle typen data analyseren. Praktisch! Helaas kom ik er in de praktijk al snel achter, dat ik bij lange na niet genoeg ervaring met Java heb om hiermee aan de slag te kunnen. Zelfs voor de meest eenvoudige instructie is een flinke lap code nodig. Te veel om even aan de buurjongen te vragen. Gelukkig is er PiG, dat qua syntax op SQL lijkt. Het genereert MapReduce code, een buurjongen in toolvorm. PiG bevat uitgebreide datamanipulatie en -statistiekcommando’s, maar je kunt ook relatief eenvoudig gestructureerde data maken van semi-gestructureerde data. Met Hive analyseer je die vervolgens verder. Het heeft wel wat beperkingen ten opzichte van MapReduce, maar daar staat het tegenover dat het alle soorten data kan verwerken.

Met Hadoop en Cloudera, sta ik aan het begin van mijn data-avontuur. En het mooiste is dat het gewoon in de Azure Marketplace staat. Voor de echte liefhebbers is zelfs de Enterprise Data Hub editie in de Marketplace beschikbaar. Dankzij Cloudera was mijn Hadoop-omgeving écht up & running in een middagje. Ik ben benieuwd naar jouw ervaringen. Waar loop jij tegenaan? Laat het me weten in de comments!

Meer weten over Cloudera? De CTO van Cloudera legt alles uit over zijn bedrijf in dit interview:

Leer van klantervaringen met het gratis Cloud Strategy eBook

Ontdek de bewezen methoden om je business in de cloud te brengen

Educatie

Financiële dienstverlening

  • een persoon die bij een lijst met laptop voor een venster zit

    Migreren naar de cloud: 4 strategieën voor financiële instellingen

    De financiële dienstensector staat voor veel uitdagingen. Zo heb je als organisatie te maken met hoge klantverwachtingen, cybercriminelen die steeds geraffineerder worden en fintech-organisaties die de markt transformeren. Tel daar de steeds strengere regelgeving nog bij op, in combinatie met verouderde systemen. Gelukkig kan technologie ons bij veel van deze uitdagingen helpen. Waarom migreren naar […]

  • Vergadering met twee mannen en één vrouw die naar een scherm wijst.

    AI, a key enabler to accelerate the digital transformation

    The financial-services industry is rapidly adopting Artificial Intelligence (AI), thus taking a key step on the road to staying competitive while complying with new regulations. Once the transition has been made, the amazing benefits of AI solutions are immediately apparent. More about this journey of opportunity and tremendous potential. The financial-services landscape is rapidly transforming […]

Overheid

  • Twee mensen gebruiken Surface Go op kantoor

    Hoe technologie het werk van overheden transformeert

    Overheden hebben de ultieme verantwoordelijkheid voor hun burgers. Mensen zijn afhankelijker van de diensten van overheidsinstellingen dan van welke andere instellingen ook. Of het nu gaat om gezondheidszorg, onderwijs, bedrijfsleven, weg- en waterbeheer; overheidsinstellingen moeten altijd vooroplopen bij sociale en digitale trends. Cloudtechnologieën spelen een belangrijke rol in het helpen van overheidsinstellingen om de manier […]

  • een trein die onderaan treinsporen dichtbij een gebied reist

    Nederlandse Spoorwegen: De verandering van vervoer met datagedreven innovaties

    “Door alle data te centraliseren, naar één plek in de cloud – wordt het maximale uit alle data gehaald. Deze digitale transformatie zorgde ook voor een andere verandering: een nieuwe proactieve cultuur, vol met innovatie.” Ontdek de customer case van NS “We zagen steeds meer data over onze treinen binnenkomen, via onze passagiers en online […]

Productie

  • Nieuwe feiten: 4 belangrijke trends  voor de buitendienst in 2018

    Nieuwe feiten: 4 belangrijke trends voor de buitendienst in 2018

    Welke trends in een veranderende wereld met innovatieve nieuwe technologie, verbonden apparaten en wisselende behoeften van werknemers en klanten bepalen de toekomst van de buitendiensten hoe kun je ze omarmen? Trend 1: De juiste middelen aan de juiste personen geven “Het gaat erom dat je de buitendiensttechnicus meer geeft dan alleen wat hij nodig heeft […]

  • Hoe AI de strijd aangaat tegen voedselverspilling

    Hoe AI de strijd aangaat tegen voedselverspilling

    Je kent het wel: je trekt je koelkast open en ziet dat een deel van het eten dat je gisteren hebt gekocht al niet meer goed is, ondanks het feit dat het volgens de houdbaarheidsdatum nog weken goed zou moeten zijn. Zonde. Voedselverspilling treft je niet alleen in je portemonnee, maar heeft ook een brede […]

Retail

  • Stel wordt geadviseerd door verkoopster

    De klantreis van de toekomst

    De hele retail en tech-wereld is samengekomen in New York voor NRF 2018. Samen met de 33.000 bezoekers maak ik op deze retailbeurs de klantreis van de toekomst. Het is een inspirerende, digitale reis waar beleving en gemak naadloos hand in hand gaan. Van een robot die je schappen in de gaten houdt tot chatbots […]

  • Big data boost de omzet bij drankenproducent

    Big data boost de omzet bij drankenproducent

    Denk eens aan al die opties waaruit je kunt kiezen als je iets wilt drinken. Water? Vruchtensap? Frisdrank? Wil je een los blikje of een sixpack? Of misschien pak je gewoon een literfles. Feit is dat wij als consument een heleboel opties verwachten en de wereldwijde markt voor alcoholvrije frisdranken die verwachting waarmaakt. Arca Continental, […]

Zorg

  • een groep mensen die zich bovenop een metaalomheining bevinden

    Migreren naar de cloud: 3 strategieën voor de gezondheidzorg

    De gezondheidszorg staat voor veel uitdagingen. Zo heb je de patiënten met steeds hogere verwachtingen, cyberbeveiliging en een tekort aan zorgpersoneel. Maar gelukkig kan technologie ons bij veel van deze uitdagingen helpen. In deze blog vertellen we je over de voordelen van het migreren van data naar de cloud, met 3 slimme strategieën voor de […]

  • een meisjeszitting op een lijst

    Gezondheidszorg vanuit huis

    De afgelopen weken heeft de wereld een steile leercurve doorgemaakt wanneer het gaat om gezondheidszorg op afstand. Maar wat kunnen we nu leren van degenen die al enige tijd op afstand voor hun patiënten zorgen? We nemen een kijkje in de wereld van gezondheidszorg vanuit huis. Voor een derde van de Europeanen die een chronische […]