Zoeken

Data Science waardeketen

Hoe creëren we waarde met data science?

Data science waardeketen

Het Data Science waardeketen model is een model dat de verschillende aspecten beschrijft die nodig zijn voor het succesvol inzetten van data science om waarde te creëren voor uw organisatie.

 

Het model combineert twee bekende methoden (CRISP-DM en DELTA) tot 1 succesvol raamwerk voor het optimaliseren van de Data Science waardeketen.

Transformeren naar een analytische winnaar

Om een analytische speler te worden is het verstandig om als organisatie uw analytische assets in kaart te brengen. In het boek Analytics at work beschrijft Thomas Davenport vijf assen waarlangs een organisatie een meetlat kan zetten om haar analytische ambities in kaart te brengen. DIKW Intelligence heeft vanuit de praktijk een eigen specifieke invulling gegeven aan dit raamwerk (meer over dit raamwerk zie ACMM model). Het resultaat van dit raamwerk is een inschatting van de analytische capaciteiten van uw organisatie.

 

Om echt het volle potentieel van data science voor uw organisatie te kunnen gebruiken zal uw organisatie moeten uitgroeien tot een analytische winnaar. In ons model kunt u zien welke stappen nodig zijn om deze ontwikkeling door te maken.

Standaard data science proces

Al in de jaren ’90 van de vorige eeuw is er een cyclus ontworpen waarmee iteratief waarde uit data kan worden gehaald. Deze cyclus is nog steeds waardevol en bruikbaar. Het oorspronkelijke CRISP-DM proces is een iteratief proces van vijf stappen. DIKW Intelligence heeft deze stappen verder verfijnd en verwerkt in dit model.

Vanuit het business vraagstuk nadenken over welke bronnen beschikbaar zijn en welke bronnen mogelijk interessant kunnen zijn voor het data science vraagstuk. Ook dient men al rekening te houden met de beschikbaarheid van deze bronnen tijdens de toepassing van een algoritme. En natuurlijk moet men kijken hoeveel historie er per bron beschikbaar kan worden gesteld. 

Bronnen prepareren, opschonen en koppelen is een noodzakelijk onderdeel van de data science pijplijn. Belangrijk hierbij is dat we geen “opschoningsacties” doen waardoor we entropie uit de data verwijderen waar we later spijt van krijgen.

Het organiseren van de datalogistiek is initieel en niet heel erg belangrijk, maar als we eenmaal overtuigd zijn van de waarde van een bepaalde oplossing is het essentieel dat we de data pijplijn productie rijp kunnen maken. Dat betekent dat we de betrouwbaarheid en de kwaliteit van de data pijplijn moeten zien als onderdeel van het op te leveren werk, iets dat niet iedere data scientist tot haar taak ziet en waar ook data engineers een belangrijke rol spelen.

Met integreren wordt bedoeld het opnemen van een algoritme in een business proces met alles wat daar bij hoort. Dit heeft natuurlijk een belangrijke technische component, maar ook aan de organisatorische en procesmatige kant hoort hier een aantal aanpassingen bij waardoor de business daadwerkelijk de uitkomst van het algoritme vertrouwd en begrijpt, zodat zij beslissingen nemen met vertrouwen in het onderliggende algoritme.

In de CRISP-DM cyclus is het analyseren van de data natuurlijk de kern competentie van de data scientist, hier gebeurd het creatieve proces, hoe gaan we chocola maken van deze berg data? Wat is er mogelijk? Hoe goed kunnen we voorspellen? Welke methodiek kunnen we toepassen en hoe heeft dat impact op de business case? Allemaal vragen die langskomen gedurende de analyse fase.

Hebben we de analyse eenmaal afgerond en een model of algoritme getraind met voldoende voorspelkracht dan is het zaak dat resultaat zo vorm te geven dat “normale stervelingen” ook begrijpen en kunnen zien wat de waarde is van het resultaat. “Storytelling” met data is een niet te onderschatten skill waarmee je je verhaal verkoopt.

De belangrijkste stap en het uiteindelijke resultaat van het project beklijft pas als je ergens een beslissing kunt beïnvloeden met een algoritme of voorspel model. Als je de product eigenaar kunt overtuigen om op basis van de analyses en het voorspelmodel voortaan een bepaalde actie anders/beter/slimmer te doen dan voorheen heb je daadwerkelijk waarde gecreëerd!

Conclusie

Het DIKW Data Science waardeketen model beschrijft alle componenten die nodig zijn voor het succesvol implementeren van data science in de praktijk. In dit model zijn de benodigde rollen verwerkt die nodig zijn, de analytische competenties die beschikbaar moeten zijn en een proces methode die iteratief verbeteren ondersteunt. Aan de hand van dit model helpt DIKW Intelligence uw organisatie met het opzetten en uitnutten van uw data gedreven waardeketen.