Big Data
Wat is big data?
De term big data verwijst naar de veelzijdige mogelijkheden (technologieën) die we tegenwoordig hebben om een grote hoeveelheid aan informatie te analyseren en te verwerken. Hierdoor zijn bedrijven in staat om een compleet beeld te vormen van hun doelgroep en kunnen zo makkelijker inspelen op de behoeften van deze specifieke groep mensen.
Big data heeft betrekking op informatietechnologie en managementinformatie. Een big data systeem is een productiesysteem dat nieuwe data verzamelt en opslaat. Deze data wordt primair gebruikt voor analyse en niet direct voor het tot stand komen van de bedrijfsprocessen. Voor een retailer kunnen dit de beelden zijn uit een camerasysteem om te analyseren welke route de klanten door een winkel lopen. Voor een multinational kan dit de communicatie zijn op social media om inzichten te krijgen hoe er over het bedrijf gedacht en geschreven wordt. De voorwaarde is dat big data digitaal is zoals audio, video, cijfers en teksten.
Er zijn diverse definities die de betekenis van big data omschrijven in omloop, maar er is geen enkele definitie die volledig de lading weet te omschrijven. Daarom wordt er vaak gekozen om de betekenis van big data te specificeren op basis van de belangrijkste kenmerken. Deze kenmerken worden onderverdeeld in termen die beginnen met de letter V.
Het belangrijkste kenmerk van big data is het volume. Dit heeft uiteraard betrekking op de grote hoeveelheid gegevens die organisaties binnenkrijgen van interne bronnen als de website en externe bronnen zoals de social media kanalen. Er is zelfs zoveel data beschikbaar dat de traditionele databasetechnologie dit niet meer aankan en dat de opslag onderverdeeld moet worden.
De term variety verwijst naar het verschil in karakter van de gegevens. Dit komt doordat de gegevens worden aangeleverd uit verschillende bronnen. De gegevens kunnen gestructureerd zijn, maar in de meeste gevallen is dit ongestructureerd. Met behulp van de nieuwste big data technologie worden we in staat gesteld om data te analyseren en te structureren.
Velocity betekent snelheid. Hiermee wordt gerefereerd aan de snelheid dat nieuwe data wordt gegenereerd. Het intensieve gebruik van social media is hiervan een sprekend voorbeeld. Het is van belang om deze gegevens snel te analyseren. Hierdoor worden trends, GPS-data en live data over een persoon direct beschikbaar gesteld. Een bedrijf dat met big data werkt, kan hier direct op acteren en profiteren van deze snelle beschikbaarheid.
De term veracity heeft betrekking op de geloofwaardigheid van de informatie. Big data technologieën combineren diverse bronnen met elkaar om tot de meest waardevolle resultaten te komen bij het analyseren van gegevens. Op deze manier wordt er betrouwbare informatie verstrekt.
Ook de waarde van de informatie is vanzelfsprekend van belang. De Term Value verwijst naar de grote waarde die big data voor een organisatie kan hebben. De beschikbaarheid van data is alleen maar interessant als hier een bepaalde waarde uitgehaald kan worden. Met moderne analysetechnieken kunnen patronen en relaties worden vastgesteld en betrouwbare voorspellingen worden gedaan.
Bij Big Data gaat het om het bewerken en analyseren van hoeveelheden gegevens die te groot zijn om op de traditionele manier te bewerken in databases. De term komt voort uit de exponentieel groeiende hoeveelheid gegevens. Denk voor hele grote jongen bijvoorbeeld aan de data die Google verzamelt over alle zoekopdrachten ter wereld, Netflix over alle bekeken programma’s e.d. De definitie van big data is niet altijd duidelijk en de term big data wordt vaak ten onrechte gebruikt.
Volgens Gartner gaat het om drie factoren:
- de hoeveelheid data;
- de snelheid waarmee de data binnenkomen en/of opgevraagd worden;
- de diversiteit van de data. Hiermee wordt met name bedoeld dat de data ongestructureerd zijn en niet in een traditionele database opgeslagen kunnen worden.
Als aan minimaal twee van bovenstaande factoren is voldaan, spreekt men in het algemeen over big data.
Drie andere factoren zijn:
- de variatie in de data. M.a.w. verschillende bronnen kunnen elkaar tegenspreken en het geheel extra compliceren;
- de kwaliteit van de data: de ene bron is minder betrouwbaar dan de andere;
- de complexiteit van de data: de mate waarin ongestructureerde data van verschillende bronnen met elkaar te combineren zijn.