Bij Active Collective worden we enthousiast van data vraagstukken. We vertellen graag over het PICTURE project in samenwerking met Amsterdam UMC. Of de toepassing van text mining om de belangrijkste onderwerpen uit grote hoeveelheden tekst te halen. Mooie voorbeelden en hoewel er nog veel meer op te noemen zijn, nemen we je graag eerst mee in de ontstaansgeschiedenis van Data Science.
Uit data van meerdere casussen kun je inzichten verkrijgen die je op basis van individuele gevallen waarschijnlijk niet gehad zou hebben. Hoe dit er in de praktijk uit kan zien laat ik je graag zien aan de hand van één van eerst bekende voorbeelden: een cholera uitbraak. Misschien een vreemd voorbeeld in deze tijden van pandemie, maar wel een dat goed de kracht van data science weergeeft.
We gaan even terug naar het Londen van 1854, waar op dat moment een cholera uitbraak was. Men wist toen nog weinig over hoe ziektes zich verspreiden en men vermoedde dat dit door slechte lucht/stank kwam.
Een groot cluster van de uitbraak zat in een buurt in Soho. De arts John Snow deed onderzoek naar de uitbraak en constateerde dat veel van de gevallen van de ziekte in de buurt van de waterpomp op Broad Street ontstonden. In afbeelding 1. kun je de tellingen zien als streepjes op de plek waar mensen de eerste symptomen kregen.
Snow overtuigde de gemeenteraad ervan de hendel van de pomp in Broad Street af te halen. Hoewel de epidemie al was afgenomen doordat veel mensen uit de buurt waren vertrokken, was daarna het probleem opgelost. Helaas kon toen nog niet de verspreiding via water worden aangetoond, dat was pas jaren later na Snow zijn dood.
Er waren ook wat afwijkingen in zijn onderzoek, waarover Snow met de buurtbewoners sprak. Bij de brouwerij aan dezelfde straat waren bijvoorbeeld geen gevallen. Dit bleek te zijn omdat deze een eigen bron had. Bij een andere straat was een andere waterpomp, maar waren er toch gevallen. Bij navraag bleek dat deze bewoners het water uit die bron niet lekker vonden en hun water bij de pomp aan Broad Street haalden.
De belangrijkste conclusie uit het verhaal van John Snow is misschien nog wel dat het essentieel is om afwijkingen met stakeholders te bespreken. Hetzelfde geldt voor aannames vooraf. Daarbij kijken we vaak naar een puzzel als allemaal losse stukjes, of compleet af. We vergeten dat er in de realiteit een heel proces tussen zit. De realiteit is dat daar een heel proces tussen zit. Met kleine successen en soms een stap terug om verder te komen.
De kaart met de verspreiding van cholera was niet de eerste. Wel werd hier voor het eerst de link met de ziekte en een waterpomp gelegd. We kennen dit nu als een succesverhaal en de basis voor epidemiologie, maar op dat moment was het slechts een klein deel van de puzzel. Een bewijs van zieke verspreiding via water was hiermee nog niet geleverd, maar het was wel een belangrijk onderdeel op de weg daar naar toe.
Hoe zaken te duiden is een belangrijk onderdeel van Data Science, immers correlation does not imply causalition. Oftewel; dat er een geobserveerde relatie is tussen twee zaken hoeft nog niet te betekenen dat er sprake is van oorzaak gevolg. Om die reden is het ook van groot belang om te streven naar inzicht in de processen. Iets wat niet bij ieder algoritme even transparant is, maar waar wel oplossingen voor bestaan.
Shapley values helpen bijvoorbeeld om inzichtelijk te maken welke variabelen de grootste invloed op een uitkomst hebben. En met Grad-CAM met een heatmap worden weergegeven in welke onderdelen van een afbeelding een deep learning algoritme objecten of activiteiten herkend heeft. In afbeeldingen 2 en 3 is dit terug te zien. Deze overlays hebben een sterke overeenkomst met de map van John Snow: de kracht van dingen visueel maken.
Bij het toepassen van Data Science is een experimentele mindset belangrijk. Er is veel mogelijk, maar niet elke ontwikkeling is er een die een rechte lijn volgt van idee naar eindresultaat. Pas de scope daarom aan op de verwachtingen en leg opmerkelijke bevindingen goed vast, zodat hier een vervolg aan kan worden gegeven.
In de ideale situatie is er een heel helder idee en is alle data die daarvoor nodig is, gestructureerd beschikbaar. Dit is meestal niet de realiteit en wij vinden het ook juist leuk om mee te denken over het idee en de mogelijkheden met data.
Sommige ideeën vereisen veel data maar dat geldt niet in alle gevallen. Soms zijn met simpele statistieken veel inzichten te verkrijgen. Denk aan de kaart met aantallen. Naarmate er meer betekenis gegeven moet worden aan gegevens vereist dit wel meer (gelabelde) data, maar soms zijn er algoritmes beschikbaar die al gedeeltelijk getraind zijn. Deze algoritmes kunnen dan met een beperkte hoeveelheid data voor een ander domein geschikt gemaakt worden.
Bij Active Collective zetten we ons 24/7 in voor het verbeteren van de digitale veiligheid voor bedrijven. Recentelijk hadden wij de eer om deel te nemen aan een klankbordgroep voor een belangrijk onderzoek naar de cyberweerbaarheidskloof van het mkb in... Lees verder
Raymond Martens, CTO van Active Collective, gaf onlangs een presentatie over Project PICTURE tijdens een evenement van het Healthcare Innovation Platform (HIP). Dit initiatief is een samenwerking tussen techbedrijven en zorgprofessionals, gericht op het versnellen van innovaties in de gezondheidszorg.... Lees verder
Als experiment hebben wij een maatwerk AI-chatbot ontwikkeld die getraind is op een grote dataset met financiële informatie, waaronder 67.358 facturen, 80.418 transacties en 3.915 leveranciers. Hierdoor kunnen gebruikers communiceren met deze informatie zonder complexe formules, scripts of queries. De... Lees verder
In het eerste en tweede deel van onze serie over het optimaliseren van een website hebben we de noodzaak van onderhoud en de invloed van snelheid en prestaties besproken. Nu richten we ons op twee cruciale aspecten die vaak over... Lees verder
In de afgelopen jaren is kunstmatige intelligentie (AI) uitgegroeid van een futuristisch concept tot een integraal onderdeel van veel organisaties. Hoewel de initiële hype is afgenomen, blijft de impact van AI groot en onmiskenbaar. AI helpt bij het maken van... Lees verder
Design speelt een belangrijke rol in ons leven en beïnvloedt onze interacties, aankopen, leefruimtes en zelfs ons zelfbeeld. Het fungeert als een visuele vorm van communicatie. Het vormt onze gevoelens over diverse onderwerpen, personen en plaatsen. In een wereld waar... Lees verder
Ik ben Uma, software engineer bij Active Collective. Onlangs heb ik mijn eerste jaar bij Active Collective afgerond. Het afgelopen jaar ben ik een spannende reis begonnen vol uitdagingen, kansen en persoonlijke groei. Met dit artikel wil ik mijn inzichten... Lees verder
In onze reeks artikelen over de ontwikkelingscyclus van digitale producten hebben we aandacht besteed aan de diverse stadia, van een proof of concept tot het creëren van een prototype. Nu duiken we in de eindfase: het ‘minimum viable product’, oftewel... Lees verder
Probeer je levens van mensen makkelijker of efficiënter te maken, maar loop je vast op de ontwikkeling van een digitaal product? Bij Active Collective ontwikkelen we software voor verschillende sectoren. Wel hebben we specialistische ervaring binnen het Life Sciences & Health Care domein. Welke behoefte je ook hebt; Wij denken met je mee en komen samen tot de perfecte digitale oplossing voor jouw menselijke vraagstuk.
Heb je vragen over een digitaal product? We helpen je graag verder. Neem contact met op met Guido voor meer informatie.