Bij Active Collective worden we enthousiast van data vraagstukken. We vertellen graag over het PICTURE project in samenwerking met Amsterdam UMC. Of de toepassing van text mining om de belangrijkste onderwerpen uit grote hoeveelheden tekst te halen. Mooie voorbeelden en hoewel er nog veel meer op te noemen zijn, nemen we je graag eerst mee in de ontstaansgeschiedenis van Data Science.
Uit data van meerdere casussen kun je inzichten verkrijgen die je op basis van individuele gevallen waarschijnlijk niet gehad zou hebben. Hoe dit er in de praktijk uit kan zien laat ik je graag zien aan de hand van één van eerst bekende voorbeelden: een cholera uitbraak. Misschien een vreemd voorbeeld in deze tijden van pandemie, maar wel een dat goed de kracht van data science weergeeft.
We gaan even terug naar het Londen van 1854, waar op dat moment een cholera uitbraak was. Men wist toen nog weinig over hoe ziektes zich verspreiden en men vermoedde dat dit door slechte lucht/stank kwam.
Een groot cluster van de uitbraak zat in een buurt in Soho. De arts John Snow deed onderzoek naar de uitbraak en constateerde dat veel van de gevallen van de ziekte in de buurt van de waterpomp op Broad Street ontstonden. In afbeelding 1. kun je de tellingen zien als streepjes op de plek waar mensen de eerste symptomen kregen.
Snow overtuigde de gemeenteraad ervan de hendel van de pomp in Broad Street af te halen. Hoewel de epidemie al was afgenomen doordat veel mensen uit de buurt waren vertrokken, was daarna het probleem opgelost. Helaas kon toen nog niet de verspreiding via water worden aangetoond, dat was pas jaren later na Snow zijn dood.
Er waren ook wat afwijkingen in zijn onderzoek, waarover Snow met de buurtbewoners sprak. Bij de brouwerij aan dezelfde straat waren bijvoorbeeld geen gevallen. Dit bleek te zijn omdat deze een eigen bron had. Bij een andere straat was een andere waterpomp, maar waren er toch gevallen. Bij navraag bleek dat deze bewoners het water uit die bron niet lekker vonden en hun water bij de pomp aan Broad Street haalden.
De belangrijkste conclusie uit het verhaal van John Snow is misschien nog wel dat het essentieel is om afwijkingen met stakeholders te bespreken. Hetzelfde geldt voor aannames vooraf. Daarbij kijken we vaak naar een puzzel als allemaal losse stukjes, of compleet af. We vergeten dat er in de realiteit een heel proces tussen zit. De realiteit is dat daar een heel proces tussen zit. Met kleine successen en soms een stap terug om verder te komen.
De kaart met de verspreiding van cholera was niet de eerste. Wel werd hier voor het eerst de link met de ziekte en een waterpomp gelegd. We kennen dit nu als een succesverhaal en de basis voor epidemiologie, maar op dat moment was het slechts een klein deel van de puzzel. Een bewijs van zieke verspreiding via water was hiermee nog niet geleverd, maar het was wel een belangrijk onderdeel op de weg daar naar toe.
Hoe zaken te duiden is een belangrijk onderdeel van Data Science, immers correlation does not imply causalition. Oftewel; dat er een geobserveerde relatie is tussen twee zaken hoeft nog niet te betekenen dat er sprake is van oorzaak gevolg. Om die reden is het ook van groot belang om te streven naar inzicht in de processen. Iets wat niet bij ieder algoritme even transparant is, maar waar wel oplossingen voor bestaan.
Shapley values helpen bijvoorbeeld om inzichtelijk te maken welke variabelen de grootste invloed op een uitkomst hebben. En met Grad-CAM met een heatmap worden weergegeven in welke onderdelen van een afbeelding een deep learning algoritme objecten of activiteiten herkend heeft. In afbeeldingen 2 en 3 is dit terug te zien. Deze overlays hebben een sterke overeenkomst met de map van John Snow: de kracht van dingen visueel maken.
Bij het toepassen van Data Science is een experimentele mindset belangrijk. Er is veel mogelijk, maar niet elke ontwikkeling is er een die een rechte lijn volgt van idee naar eindresultaat. Pas de scope daarom aan op de verwachtingen en leg opmerkelijke bevindingen goed vast, zodat hier een vervolg aan kan worden gegeven.
In de ideale situatie is er een heel helder idee en is alle data die daarvoor nodig is, gestructureerd beschikbaar. Dit is meestal niet de realiteit en wij vinden het ook juist leuk om mee te denken over het idee en de mogelijkheden met data.
Sommige ideeën vereisen veel data maar dat geldt niet in alle gevallen. Soms zijn met simpele statistieken veel inzichten te verkrijgen. Denk aan de kaart met aantallen. Naarmate er meer betekenis gegeven moet worden aan gegevens vereist dit wel meer (gelabelde) data, maar soms zijn er algoritmes beschikbaar die al gedeeltelijk getraind zijn. Deze algoritmes kunnen dan met een beperkte hoeveelheid data voor een ander domein geschikt gemaakt worden.
Design speelt een belangrijke rol in ons leven en beïnvloedt onze interacties, aankopen, leefruimtes en zelfs ons zelfbeeld. Het fungeert als een visuele vorm van communicatie. Het vormt onze gevoelens over diverse onderwerpen, personen en plaatsen. In een wereld waar... Lees verder
Ik ben Uma, software engineer bij Active Collective. Onlangs heb ik mijn eerste jaar bij Active Collective afgerond. Het afgelopen jaar ben ik een spannende reis begonnen vol uitdagingen, kansen en persoonlijke groei. Met dit artikel wil ik mijn inzichten... Lees verder
In onze reeks artikelen over de ontwikkelingscyclus van digitale producten hebben we aandacht besteed aan de diverse stadia, van een proof of concept tot het creëren van een prototype. Nu duiken we in de eindfase: het ‘minimum viable product’, oftewel... Lees verder
In ons vorige artikel hebben we jullie meegenomen in de eerste fase van de ontwikkeling van een digitaal product, namelijk een proof of concept. De volgende stap is het creëren van een prototype. Maar wat houdt een prototype nu precies... Lees verder
Opdrachtgevers benaderen ons vaak met de vraag om een digitaal product te ontwikkelen dat een significante bijdrage moet gaan leveren aan de optimalisatie voor een bepaald proces binnen de organisatie. Om vooraf te bepalen of de betreffende digitale oplossing haalbaar... Lees verder
In de afgelopen jaren heeft remote werken een enorme vlucht genomen, waarbij steeds meer mensen de vrijheid en flexibiliteit van werken op afstand omarmen. Vietnam is een populaire bestemming voor digital nomads[1] en remote werknemers, vanwege het land’s prachtige landschappen,... Lees verder
In het eerste deel hebben we het gehad over het onderhoud aan je website. In dit artikel gaan we het hebben over de snelheid en prestatie. In een tijd waarin gebruikers steeds hogere eisen stellen aan de snelheid en prestaties... Lees verder
Veel mensen beschouwen informatiebeveiliging als een extra last die ze tijdens hun werkzaamheden in gedachten moeten houden. Toch ziet Nederland een groei in de groep mensen die bezorgd zijn over hoe hun privacy wordt gewaarborgd. In dit artikel nemen we... Lees verder
Probeer je levens van mensen makkelijker of efficiënter te maken, maar loop je vast op de ontwikkeling van een digitaal product? Bij Active Collective ontwikkelen we software voor verschillende sectoren. Wel hebben we specialistische ervaring binnen het Life Sciences & Health Care domein. Welke behoefte je ook hebt; Wij denken met je mee en komen samen tot de perfecte digitale oplossing voor jouw menselijke vraagstuk.
Heb je vragen over een digitaal product? We helpen je graag verder. Neem contact met op met Guido voor meer informatie.