The Simpson Paradox: Statistieken kunnen misleidend zijn
“Vertrouw geen statistieken die u zelf niet hebt vervalst” – Dit spreekwoord wordt vaak gebruikt wanneer u wordt geconfronteerd met resultaten die tegen uw ideeën ingaan. Maar in feite kunnen echte studies ook tot moeilijk te geloven resultaten leiden: Covid-19 bleek bijvoorbeeld dodelijker in Italië dan in China voor de totale bevolking, hoewel elke Italiaanse leeftijdsgroep hoger was. kans op overleving.
Om het risico op het ontwikkelen van een ziekte in te schatten, gebruiken epidemiologen onder meer de zogenaamde case-mortaliteit. Dit is het percentage besmette mensen dat sterft aan de ziekte. Al op 17 februari 2020 China publiceerde een statistiek Bij overlijden door Covid-19 in uw land, en na ongeveer drie weken Ook bezorgd in Italië gegevens erop. Over het algemeen was het sterftecijfer in China 2,3%, terwijl het sterftecijfer in Italië 4,3% was – bijna het dubbele van dat percentage.
Veel mensen denken dat wiskunde ingewikkeld en saai is. In deze serie willen we dat weerleggen – en bieden we onze favoriete tegenvoorbeelden: van slecht weer tot magische complicaties tot belastingtrucs.
Bij nader onderzoek kwamen de gegevens echter als een verrassing: als je de sterfgevallen per leeftijd uitsplitst, waren ze lager voor elke individuele leeftijdsgroep in Italië dan in China. Hoe kan Covid-19 minder dodelijk zijn voor mensen van alle leeftijden in Italië dan in China, maar dodelijker voor de Italiaanse bevolking als geheel?
Deze contra-intuïtieve bewering is een gevolg van de zogenaamde Simpson-paradox, een fenomeen dat nu welbekend is in de statistieken. Het werd voor het eerst opgemerkt door wiskundige Karl Pearson in 1899 en beschreven in een paper; Vier jaar later ontdekte zijn collega George Udney Yule hem. Maar zoals vaak het geval is in de wetenschap, raakten de artikelen in de vergetelheid – totdat Edward Simpson in 1951 een artikel over het onderwerp publiceerde. Dienovereenkomstig kunnen de beoordelingen van verschillende groepen verschillen, afhankelijk van of ze in subgroepen zijn verdeeld of niet. In dit geval komt de beoordeling overeen met een hoger of lager sterftecijfer en worden subgroepen bepaald door de leeftijd van de patiënten.