Jorrit van den Berg

Technical Lead

Leestijd 4 minuten

Datum 30 april 2021

Mystery repeats: data science van bron naar inzicht

Bij Active Collective worden we enthousiast van data vraagstukken. We vertellen graag over het PICTURE project in samenwerking met Amsterdam UMC. Of de toepassing van text mining om de belangrijkste onderwerpen uit grote hoeveelheden tekst te halen. Mooie voorbeelden en hoewel er nog veel meer op te noemen zijn, nemen we je graag eerst mee in de ontstaansgeschiedenis van Data Science.

Waarom data science

Uit data van meerdere casussen kun je inzichten verkrijgen die je op basis van individuele gevallen waarschijnlijk niet gehad zou hebben. Hoe dit er in de praktijk uit kan zien laat ik je graag zien aan de hand van één van eerst bekende voorbeelden: een cholera uitbraak. Misschien een vreemd voorbeeld in deze tijden van pandemie, maar wel een dat goed de kracht van data science weergeeft.

Londen 1854

We gaan even terug naar het Londen van 1854, waar op dat moment een cholera uitbraak was. Men wist toen nog weinig over hoe ziektes zich verspreiden en men vermoedde dat dit door slechte lucht/stank kwam.

De Cholera map van John Snow

Een groot cluster van de uitbraak zat in een buurt in Soho. De arts John Snow deed onderzoek naar de uitbraak en constateerde dat veel van de gevallen van de ziekte in de buurt van de waterpomp op Broad Street ontstonden. In afbeelding 1. kun je de tellingen zien als streepjes op de plek waar mensen de eerste symptomen kregen.

Snow overtuigde de gemeenteraad ervan de hendel van de pomp in Broad Street af te halen. Hoewel de epidemie al was afgenomen doordat veel mensen uit de buurt waren vertrokken, was daarna het probleem opgelost. Helaas kon toen nog niet de verspreiding via water worden aangetoond, dat was pas jaren later na Snow zijn dood.

Er waren ook wat afwijkingen in zijn onderzoek, waarover Snow met de buurtbewoners sprak. Bij de brouwerij aan dezelfde straat waren bijvoorbeeld geen gevallen. Dit bleek te zijn omdat deze een eigen bron had. Bij een andere straat was een andere waterpomp, maar waren er toch gevallen. Bij navraag bleek dat deze bewoners het water uit die bron niet lekker vonden en hun water bij de pomp aan Broad Street haalden.

Wat kunnen we hiervan leren

De belangrijkste conclusie uit het verhaal van John Snow is misschien nog wel dat het essentieel is om afwijkingen met stakeholders te bespreken. Hetzelfde geldt voor aannames vooraf. Daarbij kijken we vaak naar een puzzel als allemaal losse stukjes, of compleet af. We vergeten dat er in de realiteit een heel proces tussen zit. De realiteit is dat daar een heel proces tussen zit. Met kleine successen en soms een stap terug om verder te komen.

De kaart met de verspreiding van cholera was niet de eerste. Wel werd hier voor het eerst de link met de ziekte en een waterpomp gelegd. We kennen dit nu als een succesverhaal en de basis voor epidemiologie, maar op dat moment was het slechts een klein deel van de puzzel. Een bewijs van zieke verspreiding via water was hiermee nog niet geleverd, maar het was wel een belangrijk onderdeel op de weg daar naar toe.

Meer weten over AI?

Laten we eens samen kijken naar hoe wij jouw bedrijf kunnen helpen.

meer info

Hoe zaken te duiden is een belangrijk onderdeel van Data Science, immers correlation does not imply causalition. Oftewel; dat er een geobserveerde relatie is tussen twee zaken hoeft nog niet te betekenen dat er sprake is van oorzaak gevolg. Om die reden is het ook van groot belang om te streven naar inzicht in de processen. Iets wat niet bij ieder algoritme even transparant is, maar waar wel oplossingen voor bestaan.

Objecten herkennen door middel van deep learning algoritmes

Visual Data Science on the beach with Heatmap spots to spot the movement — Afbeeldingen 2 en 3, bron Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Shapley values helpen bijvoorbeeld om inzichtelijk te maken welke variabelen de grootste invloed op een uitkomst hebben. En met Grad-CAM met een heatmap worden weergegeven in welke onderdelen van een afbeelding een deep learning algoritme objecten of activiteiten herkend heeft. In afbeeldingen 2 en 3 is dit terug te zien. Deze overlays hebben een sterke overeenkomst met de map van John Snow: de kracht van dingen visueel maken.

Bij het toepassen van Data Science is een experimentele mindset belangrijk. Er is veel mogelijk, maar niet elke ontwikkeling is er een die een rechte lijn volgt van idee naar eindresultaat. Pas de scope daarom aan op de verwachtingen en leg opmerkelijke bevindingen goed vast, zodat hier een vervolg aan kan worden gegeven.

Hoe kan data science in mijn organisatie worden toegepast?

In de ideale situatie is er een heel helder idee en is alle data die daarvoor nodig is, gestructureerd beschikbaar. Dit is meestal niet de realiteit en wij vinden het ook juist leuk om mee te denken over het idee en de mogelijkheden met data.

Sommige ideeën vereisen veel data maar dat geldt niet in alle gevallen. Soms zijn met simpele statistieken veel inzichten te verkrijgen. Denk aan de kaart met aantallen. Naarmate er meer betekenis gegeven moet worden aan gegevens vereist dit wel meer (gelabelde) data, maar soms zijn er algoritmes beschikbaar die al gedeeltelijk getraind zijn. Deze algoritmes kunnen dan met een beperkte hoeveelheid data voor een ander domein geschikt gemaakt worden.

Een aantal voorbeelden van mogelijkheden ter inspiratie:

Op video en afbeeldingen kan object detectie of logoherkenning worden toegepast;
Uit reviews kan het sentiment geanalyseerd worden of onderwerp trends;
Uit verkoopdata kan worden afgeleid welke producten van samen worden verkocht, al dan niet in combinatie met een klantprofiel.

Mystery repeats: data science van bron naar inzicht

Waarom data science

Londen 1854

De Cholera map van John Snow

Wat kunnen we hiervan leren

Meer weten over AI?

Objecten herkennen door middel van deep learning algoritmes

Hoe kan data science in mijn organisatie worden toegepast?

Een aantal voorbeelden van mogelijkheden ter inspiratie:

AI Handout - alleen e-mailadres

Benieuwd hoe wij jouw bedrijf kunnen helpen op het gebied van Kunstmatige Intelligentie?

Liever even bellen

Guido Duijzers

Meer artikelen over Kunstmatige Intelligentie

Vibe coding klinkt als een revolutie, maar waarom lopen organisaties alsnog vast?

Wat een grootschalig universiteitsonderzoek ons leert over de verborgen druk van AI

Europese wetgeving rond digitale productaansprakelijkheid nadert, wat betekent dit voor jouw organisatie?

Autonome AI-agents maken organisaties sneller, maar ook kwetsbaarder

De verschuiving van SEO naar GEO

OpenAI lanceerde Image 2.0 en wij namen de nieuwe beeld-AI alvast voor je onder de loep

Active Collective spreekt op het Healthcare Innovation Platform (HIP)

Van data naar conversaties: hoe bouw ik een eigen AI zonder dat mijn data op straat ligt?

De stroomversnelling van kunstmatige intelligentie: waar staan we nu?

Navigeren door cyberdreigingen: De NIS2-richtlijn en de impact van kunstmatige intelligentie

Toepassingen van Artificial Intelligence in de zorg

Toezicht op algoritmes voorkomt discriminatie?

Federated Learning: de toekomst van veilige, betrouwbare zorg?

Healthcare Innovation: how can AI improve healthcare

Bekijk ook eens deze case

Grip op je gezondheid met gezondheidstesten voor thuis.

Mogen wij jouw digitale product ontwikkelen?

Neem contact op

Diensten

Over ons

Contact

Cookies