Zoek

Bayesiaanse Statistiek

Wiskundig raamwerk voor ouderwets leren

Onderzoek doen betekent kennis integreren en leren van het verleden. Dat is wat wij mensen doen vanaf het moment dat wij onze ogen openen. Informatie wordt opgezogen en verwerkt met de informatie die er al was. Deze nieuwe informatie geeft dan, als het goed is, ook weer een nieuwe kijk op de wereld. Toch wil dat niet altijd lukken door sterke overtuigingen of het geloof dat de nieuwste informatie substantieel afwijkt van de reeds beschikbare informatie. Wat ‘substantieel’ betekent kan heel subjectief zijn en het hoeft ook niet verdedigbaar te zijn. Wij mensen leren op een manier die persoonlijk het beste bij ons past. Ook als er van ‘leren’ maar weinig terecht komt.

 

De Bayesiaanse Statistiek biedt een wiskundig raamwerk rondom de term ‘leren’. Dit betekent dat de Bayesiaanse Statistiek zich uitsluitend bezighoudt met het verwerken van nieuwe informatie met oude kennis om zo nieuwe kennis te vervaardigen. Voor subjectieve overtuigingen is weinig plaats want oude kennis (de prior) wordt wiskundig samengesmolten met nieuwe informatie (de likelihood) om zo nieuwe kennis (de posterior) te worden.  Mocht er weer nieuwe informatie beschikbaar komen dan wordt onze huidige kennis automatisch oude kennis en begint de cyclus opnieuw.

 

De stelling van Bayes die ten grondslag ligt aan de Bayesiaanse Statistiek is al meer dan 250 jaar oud, maar heeft pas zijn herintrede kunnen doen met de komst van krachtige computers. De stelling van Bayes draait namelijk om het integreren van kansen zodat we conditionele kansen krijgen – kansen met context – en daar is geen gesloten formule voor. Het is niet gek dat veel van de machine learning modellen van vandaag hun oorsprong vinden in de Bayesiaanse statistiek. Deze leer draait namelijk om iteratief kennis verzamelen en leren net als dat machine learning modellen dat doen.

 
blog. Bayesiaanse statistiek 1

Als je met Bayesiaanse Statistiek aan de slag gaat dan ga je ook aan de slag met het loslaten van de term statistische significantie. Het maakt je niets meer uit of een bepaalde bevinding statistisch significant is, maar veel meer hoe zeker je kunt zijn van de richting en de grootte van een bepaald effect. Het zal je om onzekerheid gaan en om de bijdrage van nieuwe informatie bovenop oude kennis. Het leerproces staat centraal en niet de bevinding uit één enkele dataset.

 

Mijn ervaring is dat al het bovenstaande heel spannend is voor iedereen die op de klassieke manier (statistisch significant) geschoold is. Vooral het bepalen van de prior is extra spannend, want met die prior kun je de informatie die je hebt verzameld beïnvloeden. Nieuwe kennis is namelijk het product tussen oude kennis en nieuwe informatie en als ik heel veel gewicht toe ken aan die oude kennis dan zal elke nieuwe informatie van mij afvloeien. In de psychologie heeft men een naam bedacht voor het niet kunnen opnemen van nieuwe informatie ter behoud van het eigen zelfbeeld: cognitieve dissonantie. En het is niet moeilijk om te denken dat cognitieve dissonantie dan ook op de loer ligt in de Bayesiaanse Statistiek.

 

Bayesiaanse statistiek staat gelijk aan leren, omdat nieuwe kennis gecombineerd wordt met oude’ kennis op een statistische manier. Het betekent verder kijken dan wat je had, of hebt, en het integreren van verschillende bronnen van informatie. Bij mensen gebeurt dit proces vaak onbewust en zien we alleen de actie, maar wanneer je onderzoek doet (in een wetenschappelijke of business setting) dan dient dat transparant te gebeuren. Aannames dienen helder gecommuniceerd te worden en het is de bedoeling dat je kunt laten zien waarom je voor een bepaalde stelling of hypothese hebt gekozen. De resultaten dienen herleidbaar te zijn naar de inzet van de data en de gekozen methode. Dit alles vergt gedegen kennis en ervaring.

 

De opleiding Bayesiaanse Statistiek zorgt voor een compleet andere kijk op modellen, onzekerheid en statistische significantie. Je zult in staat zijn om verder te kijken dan jouw huidige dataset, omdat het besef komt dat die ene dataset maar een momentopname is. Uiteindelijk ben je in staat om meer holistisch naar data en modellen te kijken. Ook zul je onzekerheid meer gaan omarmen.  Het zal wellicht wat tijd kosten om statistische significantie en p-waardes los te laten, zeker bij klanten of werkgevers die daarom vragen, maar uiteindelijk ben jij wel diegene die in staat is om alle beschikbare kennis te integreren in een gedegen toekomstperspectief.