Data science is een veel omvattend vak. Een data scientist maakt gebruik van veel verschillende tools om zo goed mogelijk analyses en voorspellingen te kunnen doen op de beschikbare data. Machine learning is een onderdeel in de gereedschapskist van een data scientist. Om duidelijk te maken op wat voor manier machine learning kan worden ingezet maken gebruik van een metafoor: de timmerman.
Een timmerman gaat een tafel bouwen. De timmerman moet bedenken wat hij allemaal nodig heeft en moet keuzes maken. Voor welk hout kiest hij en van welke kwaliteit moet dat hout zijn? Daarnaast moet hij letten op de hoeveelheid planken die hij kan zagen uit de gekwalificeerde boom die het juiste hout levert. Hij zal voor de tafel verschillende planken van verschillende lengte en dikte nodig hebben.
Vervolgens moet de timmerman ook bedenken hoe hij de tafel gaat maken. Gebruikt hij een hamer om de verschillende planken aan elkaar te spijkeren of kiest hij voor schroeven of lijm? Als de tafel in elkaar is gezet zal deze nog niet af zijn. Wordt de tafel alleen geschuurd of wordt de tafel nog gelakt of geverfd? En als men kiest voor verf, voor welke kleur(en) kiest men dan?
Daarnaast zal het waarschijnlijk niet bij één tafel blijven. Er zullen meer tafels worden gemaakt en ook met verschillende afmetingen. De timmerman zal dan moeten kijken welk productieproces het beste past bij de vraag naar tafels, als de tafel een succes wordt zal hij een zaagmachine aanschaffen en de tafel niet meer handmatig fabriceren.
Er zijn dus verschillende keuzes en opties die van invloed zijn op het proces. Een data scientist heeft die keuzes en opties ook. Het gaat bij het maken van analyse ook om de keuze voor het juiste algoritme en het ontwikkelen van een toepassing die bruikbare resultaten geeft of met zo min mogelijk fouten. Een data scientist heeft daarbij de keuze uit verschillende tools uit de machine learning gereedschapskist, zoals een regressie of een cluster algoritme om te komen tot een waardevolle analyse van de data. Als de gerealiseerde oplossing succesvol blijkt zal de data scientist na moeten denken over de (grootschalige) implementatie van zijn/haar algoritme. Zeker als het om een grote hoeveelheid data gaat en dit veelvuldig herhaald moet worden zijn de tools uit de machine learning gereedschapskist onmisbaar, zoals een hamer onmisbaar is voor een timmerman.
De gereedschapskist van een data scientist bestaat uit meer tools dan machine learning. Elke organisatie vraagt om andere oplossingen en beschikt over verschillende data en heeft verschillende doelstellingen met die data. De data scientist zoekt en gebruikt dan ook het meest geschikte gereedschap om te zorgen dat de klant meerwaarde creëert uit haar data.
DIKW Intelligence
Wattbaan 1
3439 ML Nieuwegein