Cursisten die aan de DIKW Academy een opleiding volgen moeten een theorie examen doen en vervolgens die theorie in de praktijk brengen via een case. Dat geldt ook voor de cursus CDEP (Certified Data Engineering Professional). Doel is om de geleerde stof in de praktijk te kunnen toepassen. Hieronder delen we drie cases van cursisten. Ze geven een kijkje in de keuken. De docenten waren zeer verrast door hun vindingrijkheid en oplossingen.
Luchtkwaliteit data
De eerste case was bedoeld om aan te tonen dat gegevens over de luchtkwaliteit gedeeld kunnen worden met drie doelgroepen: data scientists, data analisten en gebruikers van een app. De wensen en behoeften van bepaalde data verschilt namelijk per doelgroep. Voor een data scientists wilde de cursist zorgen dat deze veel beschikbare relevante data kregen. Voor een data analist regelde hij verschillende rapportages en realtime geografische dashboards. En voor een gewone gebruiker ontwikkelde de cursist een app die een notificatie geeft als de luchtkwaliteit in een omgeving een bepaalde waarde overschrijdt.
Om dit voor de verschillende doelgroepen beschikbaar te maken had de cursist veel verschillende technologieën gebruikt, zoals Kafka, Apache Flink, Elasticsearch en Kibana Kibana biedt visualisatiemogelijkheden bovenop de inhoud. Gebruikers kunnen staaf-, lijn- en spreidingsplots of cirkeldiagrammen en kaarten maken bovenop grote hoeveelheden gegevens. Deze technologieën draaide in zijn data pipeline op Docker. En tijdens de presentatie van de demo werkte alles.
Reisgedrag openbaar vervoer
Hoe kun je het reisgedrag van iemand die het openbaar vervoer (OV) gebruikt inzetten voor rapportage, maar voorkomen dat de gebruiker aan het reisgedrag is terug te herleiden. Dit in het kader van de AVG. De cursist bedacht een digitale ‘vergeetput’ voor data. Om dit concept uit te testen bouwde hij een eigen REST API in Python. De REST API kan over verschillende domeinen er voor zorgen dat data wel toegevoegd kan worden, maar dat ook wordt voldaan aan de richtlijnen van de AVG. De cursist hoopt dit concept aan zijn werkgever voor te leggen.
Afvalstromen in kaart brengen
Het blijkt lastig om afvalstromen naar rioolwaterzuiveringsinstallaties te vatten in relationele databases. Maar toen de cursist tijdens de opleiding hoorde over graph databases viel alles op zijn plek. De cursist besloot om de afvalstromen in kaart te brengen en te verwerken in Neo4J, een bekende graph database. Wat zonder deze database lastige rapportages waren geweest bleek nu eenvoudig op te vragen. Het doel was om uit te zoeken hoeveel stappen er zitten tussen een woonwijk en een rioolwaterzuiveringsinstallatie. Die vraag was nu eenvoudig op te vragen met een commando van een regel. De cursist nam in het proces van de case naar de oplossing ook de datakwaliteit onder de loep. Naast de implementatie in Neo4J onderzocht de cursist ook hoe de verschillende Python bibliotheken ingezet kunnen worden op Neo4J. Voorzien wordt dat deze toepassing in de toekomst een grote rol gaat spelen binnen de wereld van data science.
Dit zijn voorbeelden van drie uiteenlopende cases die cursisten in de opleiding CDEP hebben uitgewerkt. Ze laten zien hoe theorie in de praktijk kan worden toegepast en de docenten van de DIKW Academy steeds weer positief verrast.
Wil jij ook een Certified Data Engineering Professional worden? Schrijf je dan in voor deze opleiding van de DIKW Academy.