Zoeken

Boekbespreking: Data Teams van Jesse Anderson

Voor succesvolle big data projecten zijn drie teams nodig

Waarom zijn big data projecten bij het ene bedrijf succesvol en waarom falen ze bij andere bedrijven? Dit was een zekere frustratie van Jesse Anderson en hij wilde achterhalen hoe de kans op succes verbeterd kon worden. Hij bespreekt de resultaten van zijn onderzoek in zijn boek Data Teams, dat in 2020 verscheen.

Boekbespreking: Data Teams van Jesse Anderson

Definitie

Het boek begint met een definitie wat big data is. “Vergeet de 3, 4, 5 of 10 V’s (Volume, Velocity, Variety,….)”, zegt Anderson. Big data is wat begint als je in data projecten tegen technische limieten aan loopt: taken duren te lang of kosten te veel resources.

Big data kan dat probleem oplossen, maar big data is ook veel complexer en vergt een andere manier van denken. De crux van big data zit hem in het gebruik van gedistribueerde systemen: grote hoeveelheden data worden in stukken gehakt en verdeeld over vele machines, die ieder hun eigen deel verwerken. Dat is makkelijker gezegd dan geprogrammeerd. En big frameworks komen en gaan. Zo waren MapReduce en Hadoop ooit de hype, maar ze zijn al weer uit de mode.

Drie teams

Om de uitdaging van big data aan te gaan zijn volgens Anderson drie teams nodig:

  • Data scientists
  • Data engineers
  • Operators
 

Data scientists zijn inmiddels wijd en zijd bekend: ze zijn goed in wiskunde en statistiek en begrijpen het belang van data. Programmeren doen ze om hun werk gemakkelijker te maken, maar het is niet hun primaire focus. Technical debt in de programmatuur is volgens Anderson vaak hun zwakte.

Data engineers zorgen voor data producten die opgeschoond zijn, valide zijn en onderhoudbaar. Volgens Anderson zijn deze medewerkers experts in programmeren van voornamelijk pipelines. Ze hebben daarbij te maken met technologie die niet altijd volwassen is. Belangrijk om in gedachte te houden is dat Anderson, zelf een data engineer, big data engineering ziet als iets wat anders is als het bouwen van data warehouses. Je komt daarbij niet meer weg met alleen SQL skills.

Operators zijn de minst bekende van de drie. Ze zorgen ervoor dat alles stabiel blijft draaien. Ze kunnen een apart team vormen, maar ze maken ook vaak deel uit van het data engineering team. 

Het succes en falen van data teams

Succesvolle big data projecten lossen echt een vraag van de business op. Ze draaien in productie. En dat is minder vanzelfsprekend dan je zou denken. Veel big data projecten halen dat stadium niet. Het hogere management is vaak betrokken bij succesvolle projecten en zorgt dat de business en data teams samen blijven werken.

 

Het ontbreken van een van de drie rollen, zegt Anderson, vaak de reden van het falen van big data projecten. Je ziet dan data teams keihard werken en toch nergens komen. Alleen de simpelste projecten krijgen aandacht, want al het andere is gewoon te moeilijk. En als het er dan eindelijk is, is het iets waar de business niet om gevraagd heeft.

 

Maar er is ook nog een derde categorie: projecten die ondermaats performen. Deze projecten leveren “Hello world” achtige resultaten. Voor de wereld buiten de data teams is het zonneklaar dat ze vast zitten. Nieuwe technologie is “on hold”. En de business ziet minimale waarde van de data projecten.

Ontbreken van teams

Het falen van data projecten komt vaak omdat een van de drie teams ontbreekt. Vaak gezien is het ontbreken van data engineers. Het resultaat: data producten zijn niet schaalbaar en er is een berg aan “technical debt.” Dat wil zeggen dat bij de bouw de nodige shortcuts zijn genomen, wat suboptimale oplossingen opgeleverd heeft. Maar niemand heeft tijd om ze te verbeteren. 

Bij het ontbreken van data scientists krijgt de organisatie slechts zeer eenvoudige analytische oplossingen. Machine learning maakt daar geen onderdeel van uit.

Bij gebrek aan operators kan niemand eigenlijk op de gebouwde data producten vertrouwen. Ze vallen voortdurend om of anders wel de infrastructuur die er aan ten grondslag ligt.

DataOps

Anderson gaat in zijn boek ook nog in op DataOps. DataOps is een methodologie waarbij in korte cycli data producten geleverd worden door cross-functional teams met data scientists, data engineers en operators. Wat Anderson betreft gaan die niet alle data science en data engineering teams vervangen. DataOps teams hergebruiken vaak eerder gebouwde data producten, maar het bouwen daarvan zijn het werk van een langere adem. Hij zegt dat voor beide soorten teams een plaats kan zijn in een organisatie.

Voor wie is het boek?

Data Teams is interessant voor iedereen die mee wil praten over big data projecten in een organisatie, maar het is voornamelijk gericht op diegenen die besluiten hierover nemen. Het is duidelijk gebaseerd op de nodige ervaring. 


Anderson heeft wel een aantal duidelijke meningen. Zo is hij niet erg enthousiast over het omscholen van medewerkers tot data scientists of data engineers, tenzij ze al een stevige basis hebben in wiskunde of gedistribueerde systemen. Voor een ander perspectief zijn er aan het eind van het boek wel een aantal cases van mensen die ervaring hebben met het opbouwen van data teams in diverse organisaties. En die hebben soms een andere invalshoek.


Het boek leest ook vrij makkelijk. Het jargon dat gebruikt wordt wordt over het algemeen goed uitgelegd.

Al met al zeker een boek dat de moeite waard is om te lezen. Zeker voor management dat met slecht lopende big data projecten in hun maag zit.

Titel: Data Teams

Auteur: Jesse Anderson

Uitgever: Apress

Het ebook is hier verkrijgbaar:

https://link.springer.com/book/10.1007/978-1-4842-6228-3