skip to Main Content

Mystery repeats: data science van bron naar inzicht

Bij Active Collective worden we enthousiast van data vraagstukken. We vertellen graag over het PICTURE project in samenwerking met Amsterdam UMC. Of de toepassing van text mining om de belangrijkste onderwerpen uit grote hoeveelheden tekst te halen. Mooie voorbeelden en hoewel er nog veel meer op te noemen zijn, nemen we je graag eerst mee in de ontstaansgeschiedenis van Data Science.

Auteur
Jorrit van Den Berg
8 min read

John Snow

Waarom data science

Uit data van meerdere casussen kun je inzichten verkrijgen die je op basis van individuele gevallen waarschijnlijk niet gehad zou hebben. Hoe dit er in de praktijk uit kan zien laat ik je graag zien aan de hand van één van eerst bekende voorbeelden: een cholera uitbraak. Misschien een vreemd voorbeeld in deze tijden van pandemie, maar wel een dat goed de kracht van data science weergeeft.

Londen 1854

We gaan even terug naar het Londen van 1854, waar op dat moment een cholera uitbraak was. Men wist toen nog weinig over hoe ziektes zich verspreiden en men vermoedde dat dit door slechte lucht/stank kwam.

De Cholera map van John Snow

Een groot cluster van de uitbraak zat in een buurt in Soho. De arts John Snow deed onderzoek naar de uitbraak en constateerde dat veel van de gevallen van de ziekte in de buurt van de waterpomp op Broad Street ontstonden. In afbeelding 1. kun je de tellingen zien als streepjes op de plek waar mensen de eerste symptomen kregen.

Cholera map by John Snow

Snow overtuigde de gemeenteraad ervan de hendel van de pomp in Broad Street af te halen. Hoewel de epidemie al was afgenomen doordat veel mensen uit de buurt waren vertrokken, was daarna het probleem opgelost. Helaas kon toen nog niet de verspreiding via water worden aangetoond, dat was pas jaren later na Snow zijn dood.

Er waren ook wat afwijkingen in zijn onderzoek, waarover Snow met de buurtbewoners sprak. Bij de brouwerij aan dezelfde straat waren bijvoorbeeld geen gevallen. Dit bleek te zijn omdat deze een eigen bron had. Bij een andere straat was een andere waterpomp, maar waren er toch gevallen. Bij navraag bleek dat deze bewoners het water uit die bron niet lekker vonden en hun water bij de pomp aan Broad Street haalden.

Wat kunnen we hiervan leren

De belangrijkste conclusie uit het verhaal van John Snow is misschien nog wel dat het essentieel is om afwijkingen met stakeholders te bespreken. Hetzelfde geldt voor aannames vooraf. Daarbij kijken we vaak naar een puzzel als allemaal losse stukjes, of compleet af. We vergeten dat er in de realiteit een heel proces tussen zit. De realiteit is dat daar een heel proces tussen zit. Met kleine successen en soms een stap terug om verder te komen.

De kaart met de verspreiding van cholera was niet de eerste. Wel werd hier voor het eerst de link met de ziekte en een waterpomp gelegd. We kennen dit nu als een succesverhaal en de basis voor epidemiologie, maar op dat moment was het slechts een klein deel van de puzzel. Een bewijs van zieke verspreiding via water was hiermee nog niet geleverd, maar het was wel een belangrijk onderdeel op de weg daar naar toe.

Hoe zaken te duiden is een belangrijk onderdeel van Data Science, immers correlation does not imply causalition. Oftewel; dat er een geobserveerde relatie is tussen twee zaken hoeft nog niet te betekenen dat er sprake is van oorzaak gevolg. Om die reden is het ook van groot belang om te streven naar inzicht in de processen. Iets wat niet bij ieder algoritme even transparant is, maar waar wel oplossingen voor bestaan.

Objecten herkennen door middel van deep learning algoritmes

Shapley values helpen bijvoorbeeld om inzichtelijk te maken welke variabelen de grootste invloed op een uitkomst hebben. En met Grad-CAM met een heatmap worden weergegeven in welke onderdelen van een afbeelding een deep learning algoritme objecten of activiteiten herkend heeft. In afbeeldingen 2 en 3 is dit terug te zien. Deze overlays hebben een sterke overeenkomst met de map van John Snow: de kracht van dingen visueel maken.

Visual Data Science on the beach with Heatmap spots to spot the movement
Afbeeldingen 2 en 3, bron Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Bij het toepassen van Data Science is een experimentele mindset belangrijk. Er is veel mogelijk, maar niet elke ontwikkeling is er een die een rechte lijn volgt van idee naar eindresultaat. Pas de scope daarom aan op de verwachtingen en leg opmerkelijke bevindingen goed vast, zodat hier een vervolg aan kan worden gegeven.

Hoe kan data science in mijn organisatie worden toegepast?

In de ideale situatie is er een heel helder idee en is alle data die daarvoor nodig is, gestructureerd beschikbaar. Dit is meestal niet de realiteit en wij vinden het ook juist leuk om mee te denken over het idee en de mogelijkheden met data.

Sommige ideeën vereisen veel data maar dat geldt niet in alle gevallen. Soms zijn met simpele statistieken veel inzichten te verkrijgen. Denk aan de kaart met aantallen. Naarmate er meer betekenis gegeven moet worden aan gegevens vereist dit wel meer (gelabelde) data, maar soms zijn er algoritmes beschikbaar die al gedeeltelijk getraind zijn. Deze algoritmes kunnen dan met een beperkte hoeveelheid data voor een ander domein geschikt gemaakt worden.

Een aantal voorbeelden van mogelijkheden ter inspiratie:
  • Op video en afbeeldingen kan object detectie of logoherkenning worden toegepast;
  • Uit reviews kan het sentiment geanalyseerd worden of onderwerp trends;
  • Uit verkoopdata kan worden afgeleid welke producten van samen worden verkocht, al dan niet in combinatie met een klantprofiel.

Geïnspireerd?

Active Collective Jorrit

Graag denken we met je mee over het idee, neem contact op via Jorrit van den Berg

Lead Software Engineer en Data Scientist
[email protected]
0251-29 33 70.
https://www.linkedin.com/in/jorritvandenberg/

ca398f16cd64ff378d8f067b1fb819a4******