Overslaan naar hoofdinhoud
Pulse
Leestijd, 3 min.

Er wordt ontzettend veel data verzameld en dat wordt alleen maar meer, zoveel was me al duidelijk. Soms gestructureerd, maar vaak ook niet. We noemen het Big Data of advanced analytics en het staat verdeeld over enkele of zelfs honderden servers. Dat je met de juiste tooling verborgen schatten uit die data tevoorschijn kan toveren, haalde de avonturier in mij naar boven. Met een schatkaart in de vorm van een zoekmachine ging ik op zoek naar gereedschap.

Hoe moeilijk kan het zijn?

Al snel kwam ik erachter dat Hadoop en Big Data bijna onlosmakelijk met elkaar verbonden zijn. Mooi, want Hadoop wordt ondersteund op Microsoft Azure door middel van HDInsight. “Hoe moeilijk kan het zijn?”, dacht ik. Ik installeer simpelweg een Hadoop-cluster met de bijbehorende tools en ik kan aan de slag. Ik had er een middag voor ingeruimd. Mensen die dit ook hebben geprobeerd moeten nu waarschijnlijk lachen, want inderdaad: een Hadoop-cluster installeren, dat doe je niet even. Een Hadoop-cluster configureren en beheren? Dat is helemaal een verhaal apart.

Het kan natuurlijk aan mij liggen, maar ik vind Hadoop echt ontzettend complex. Nadat ik uitgevist had hoe de data gestructureerd was, moest het nog geprepareerd worden om een analyse te kunnen maken. Dat alles via scripting en de Command Line. Dat moet toch makkelijker kunnen, dacht ik zo. Als Microsoftie ben ik immers dol op interfaces ?

En ja, het kan dus inderdaad makkelijker, met Cloudera! Dit is een van de Hadoop-distributies die het leven een stuk eenvoudiger maken. Cloudera geeft mij een grafische interface om Hadoop heen, precies waar ik naar op zoek was. Je kunt het vergelijken met een grafische interface voor bijvoorbeeld Linux. Misschien vind je me nu een watje, maar ik hou ervan. Het mooie aan Cloudera is dat er automatisch een aantal tools worden bijgeleverd, die je anders zelf zou moeten installeren.

Cloudera Analysetools

Big Data kan van alles zijn en het kan overal staan. Dat is wat plat gezegd, maar waar het op neerkomt is dat het kan gaan om zowel gestructureerde data als ongestructureerde data, bijvoorbeeld zowel foto’s als tweets. En dan kan het ook nog eens op verschillende servers opgeslagen staan, met verschillende filesystems. Cloudera zorgt ervoor dat je hier niets van merkt. Het helpt je de data te structureren en biedt bovendien Hive, een tool om gestructureerde data te analyseren. De syntax van Hive lijkt veel op de query-taal SQL, die ik gelukkig wel kende. Het geeft me zelfs de mogelijkheid om mijn tabellen vanuit Cloudera naar SQL of MSAcces te importeren.

Bovendien kan ik op Cloudera met MapReduce alle typen data analyseren. Praktisch! Helaas kom ik er in de praktijk al snel achter, dat ik bij lange na niet genoeg ervaring met Java heb om hiermee aan de slag te kunnen. Zelfs voor de meest eenvoudige instructie is een flinke lap code nodig. Te veel om even aan de buurjongen te vragen. Gelukkig is er PiG, dat qua syntax op SQL lijkt. Het genereert MapReduce code, een buurjongen in toolvorm. PiG bevat uitgebreide datamanipulatie en -statistiekcommando’s, maar je kunt ook relatief eenvoudig gestructureerde data maken van semi-gestructureerde data. Met Hive analyseer je die vervolgens verder. Het heeft wel wat beperkingen ten opzichte van MapReduce, maar daar staat het tegenover dat het alle soorten data kan verwerken.

Met Hadoop en Cloudera, sta ik aan het begin van mijn data-avontuur. En het mooiste is dat het gewoon in de Azure Marketplace staat. Voor de echte liefhebbers is zelfs de Enterprise Data Hub editie in de Marketplace beschikbaar. Dankzij Cloudera was mijn Hadoop-omgeving écht up & running in een middagje. Ik ben benieuwd naar jouw ervaringen. Waar loop jij tegenaan? Laat het me weten in de comments!

Meer weten over Cloudera? De CTO van Cloudera legt alles uit over zijn bedrijf in dit interview:

Leer van klantervaringen met het gratis Cloud Strategy eBook

Ontdek de bewezen methoden om je business in de cloud te brengen

Educatie

Finance

  • uitzicht op een stad

    Gegevens verzamelen is water besparen

    Het ruim 140 jaar oude financiële dienstverleningsbedrijf Ibercaja zet zich volledig in voor de noordoostelijke regio van Spanje. Om de klanten op het platteland te steunen en de lokale problemen met waterschaarste op te lossen, helpt het bedrijf de boeren nu met de digitale transformatie van hun gewasbeheer. Essentieel in deze transformatie zijn de Internet […]

  • Een vergadering waar een man en vrouw de hand schudden

    Sure thing: Banks will have to move to a flexible Datacenter based largely on Public Cloud capabilities

    The banking sector is caught in the middle of the digital transformation. Under pressure from PSD2, Basel III, Instant Payments, GDPR and wildly spiraling costs for digital infrastructure, banks are having to make major changes. How can these modern requirements be turned into a strategic advantage? Banks are bracing themselves for the introduction of PSD2. […]

Government

  • Twee mensen gebruiken Surface Go op kantoor

    Hoe technologie het werk van overheden transformeert

    Overheden hebben de ultieme verantwoordelijkheid voor hun burgers. Mensen zijn afhankelijker van de diensten van overheidsinstellingen dan van welke andere instellingen ook. Of het nu gaat om gezondheidszorg, onderwijs, bedrijfsleven, weg- en waterbeheer; overheidsinstellingen moeten altijd vooroplopen bij sociale en digitale trends. Cloudtechnologieën spelen een belangrijke rol in het helpen van overheidsinstellingen om de manier […]

  • skyline den haag

    Kunstmatige intelligentie: hoe beleidsmakers AI verantwoord kunnen omarmen

    Hoe werkt kunstmatige intelligentie, ook wel AI genoemd, nou precies? Wat voor typen algoritmes zijn er, en hoe weet je of gebruikte data representatief is? En nog belangrijker: kan AI van toegevoegde waarde zijn bij besluitvorming, terwijl menselijke controle, transparantie en privacy leidend blijven? Deze en andere vragen stonden in week vier centraal in de […]

Manufacturing

  • Een groep mensen die een virtuele kaart van een zee gebruikt

    De data berg bedwingen met Microsoft Azure

    Met de certificering van inmiddels 12.000 schepen staat DNV GL voor een hele opgave om tijdens de bouw en de hele levensloop de veiligheid van de schepen te garanderen. Vooral als je bedenkt dat er elk jaar ruim 50.000 inspecties moeten worden uitgevoerd. Dankzij de zelflerende algoritmen in Microsoft Azure groeit niet alleen de efficiëntie […]

  • Gele machines van Komatsu

    Databasemigratie waardoor je 'beter wordt dan de beste'

    De Japanse term dantotsu is moeilijk te vertalen, maar betekent ongeveer ‘beter dan de beste’. Sinds de oprichting van Komatsu, een Japans multinational in bouw- en mijnbouwapparatuur, bijna 100 jaar geleden, wil dit bedrijf de klanten een service bieden waarmee dit wordt bereikt. In het kader van deze missie lanceerde Komatsu in 2003 de Dantotsu-strategie, […]

Retail

Zorg

  • Verleen betere zorg dankzij technologie

    Verleen betere zorg dankzij technologie

    Stel dat je als huisarts je patiënten die op afspraak komen automatisch een melding kunt versturen dat de wachttijd iets oploopt, en ze dus niet te vroeg van huis vertrekken. Of dat je van een patiënt kunt bijhouden hoe hoog zijn bloeddruk is, zonder dat hij daarvoor langs hoeft te komen op consult. Het zijn […]

  • Two people working in Healthcare with a Windows device

    Leverancier van medische hulpmiddelen bouwt toekomstbestendig Azure-platform

    Het Deense bedrijf Coloplast maakt innovatieve zorgproducten voor mensen met intieme gezondheidsproblemen. Coloplast wilde een blijvende, productieve relatie onderhouden met klanten en de behoeften van patiënten beter doorgronden. Om dat te bewerkstelligen besloot het bedrijf van een on-premises datawarehouse- en BI (Business Intelligence)-oplossing over te stappen op Microsoft Power BI, Azure SQL Data Warehouse en […]