Betrouwbaarheid gegevens - zekerheid van de geschatte gestandaardiseerde incidentie ratios
In de Nederlandse Kankeratlas wordt op verschillende manieren informatie gegeven over de zekerheid van de geschatte gestandaardiseerde incidentie ratios (SIRs). De atlas geeft twee maten van zekerheid van de SIR weer. De eerste is de mate van waarschijnlijkheid dat de SIR in een gebied echt afwijkt van het Nederlands gemiddelde, en de tweede is het zogenaamde ‘waarschijnlijkheidsinterval’, wat aangeeft hoe precies de geschatte SIR is.
De mate van waarschijnlijkheid dat een SIR echt afwijkt van het Nederlands gemiddelde is weergegeven in het V-diagram (zie “V-diagram en golf-diagram” hieronder) en door middel van kleurgebruik op de kaart (zie “transparantie” hieronder). Het waarschijnlijkheidsinterval is weergegeven in het zogenaamde golf-diagram (zie “V-diagram en golf-diagram” hieronder).
De berekening van de waarschijnlijkheid van de SIR
Voor elk gebied willen we weten of de SIR lager of hoger is dan 1, waarbij de waarde 1 gelijk is het Nederlands gemiddelde. Een SIR lager dan 1 geeft aan dat de incidentie lager is dan verwacht en een SIR hoger dan 1 geeft aan dat de incidentie hoger is dan verwacht. De SIR wordt geschat met behulp van Bayesiaanse modellen, waarbij, zoals genoemd in het stuk ‘Statistisch model kankerdiagnoses’ op basis van a-priori verdelingen (kennis vooraf) en geobserveerde data een a-posteriori verdeling wordt verkregen. Dit levert een range van geschatte (a-posteriori) SIRs op. De mediaan van deze range is de SIR die wordt weergeven per gebied in de atlas.
Om te berekenen hoe waarschijnlijk het is dat de SIR echt afwijkt van het Nederlands gemiddelde, wordt gekeken naar hoeveel van de geschatte SIRs in de a-posteriori verdeling boven of onder de 1 liggen. Als een groot deel van de a-posteriori verdeling lager dan 1 is, betekent dit dat veel schattingen onder de 1 liggen en is het waarschijnlijker dat dit gebied daadwerkelijk een lagere SIR heeft dan verwacht op basis van het Nederlands gemiddelde. Hetzelfde principe geldt voor gebieden met een hogere SIR; daar kijken we welk percentage van de a-posteriori verdeling boven de 1 ligt.
In formulevorm ziet deze berekening er als volgt uit:
staat voor de a-posteriori waarschijnlijkheid dat de geschatte SIR in gebied i groter is dan 1.
is de m-de schatting van de SIR uit de a-posteriori verdeling voor gebied i.
ΙΙ is een indicator-variabele: deze neemt de waarde 1 aan als het stuk tussen haakjes (SIR is groter dan 1) waar is en 0 als dit zo is.
Bij SIRs met veel onzekerheid, zal de waarde 1 dicht in het centrum van de a-posteriori verdeling liggen. Deze krijgen dan en
Het waarschijnlijkheidsinterval
Zoals hierboven beschreven wordt met analyses voor de atlas een range van (a-posteriori) SIRs geschat. Aan deze range van SIRs is te zien hoe precies de schatting van de SIR is. Als die range smal is, en de schattingen dus dicht bij elkaar liggen is de schatting preciezer dan wanneer de range breed is en de schattingen ver uiteenlopen. De range wordt per gebied weergegeven in het zogenaamde golf-diagram (Zie ‘V-diagram en Golf-Diagram’). In die range worden ook de zogenaamde 60% en 80% waarschijnlijkheidsintervallen weergegeven. Deze waarschijnlijkheidsintervallen laten zien dat er een respectievelijk 60% of 80% kans is dat de echte SIR tussen het laagste punt van het waarschijnlijkheidsinterval en het hoogste punt van het waarschijnlijkheidsinterval ligt.
Transparantie
In de Nederlandse Kankeratlas krijgen gebieden met een hoge SIR een rode kleur en gebieden met een lage SIR een blauwe kleur. Gebieden die niet veel afwijken van het gemiddelde krijgen een gele kleur. Gebieden die een hoge of lage SIR hebben, maar waarbij er veel onzekerheid is rondom de SIR, krijgen ook een gele kleur, zodat ze minder opvallen op de kaart. Zie figuur 8a. Op deze manieren houden we rekening met toevallige uitschieters in de data; schattingen die mogelijk niet structureel afwijken van het Nederlandse gemiddelde.
Figuur 8a: op de X-as staat de geschatte SIR en op de Y-as het a-posteriori waarschijnlijkheidsverschil (PWV). Het linker figuur toont de kleurlaag op basis van gemiddelde SIR alleen. Het middelste figuur toont een gele laag die transparanter wordt als de PWV hoger wordt en dus meer zekerheid is over de geschatte SIR. Rechts is de combinatie van deze twee kleurlagen, waarbij te zien is dat voor gebieden met een hogere PWV waarde de intensiteit van de blauwe, gele of rode kleur behouden blijft. Gebieden met een lagere PWV waarde krijgen een gelere kleur.
V-diagram en golf-diagram
Wie in de atlas op een gebied klikt, komt het onderstaande figuur tegen in het venster met Statistieken (Figuur 8b).
Figuur 8b. V-diagram (bovenste deel in de vorm van een V), golf-diagram (onderste deel in de vorm van een ‘golf’) met daarin 60% en 80% waarschijnlijkheidsintervallen (rondjes met lijnen onder het golf-diagram).
V-diagram
Het V-diagram toont de geschatte (mediane) SIR (gestandaardiseerde incidentie ratio) voor ieder gebied in de atlas en de waarschijnlijkheid dat de SIR daadwerkelijk afwijkt van het Nederlands gemiddelde. Op de X-as is de SIR afgezet tegen het Nederlands gemiddelde (wat gelijk is aan 1). De waarden op de Y-as geven weer hoe waarschijnlijk het is dat de SIR echt afwijkt van het gemiddelde. Deze waarde is het a-posteriori waarschijnlijkheidsverschil (PWV). Hoe hoger de PWV, des te waarschijnlijker is het dat de SIR daadwerkelijk afwijkt van het Nederlands gemiddelde. Hoe lager de PWV des te onwaarschijnlijker. Gebieden met een SIR in de buurt van 1 hebben dan ook vaak een laag PWV en gebieden met een zeer hoge of zeer lage SIR hebben vaak een hoog PWV. Om deze reden heeft de figuur een V-vorm. Voor de Nederlandse Kankeratlas is aangenomen dat wanneer de PWV groter is dan 0.60 er voldoende zekerheid is om te zeggen dat de SIR daadwerkelijk afwijkt van het Nederlands gemiddelde. Dit afkappunt is in de diagram weergegeven door een subtiel verschil in de zwarte achtergrondkleur. In het figuur is te zien dat het bovenste deel van de diagram een donkerder zwarte achtergrond heeft dan het onderste. Van alle SIRs in het donkerste deel is de PWV groter dan 0.60 en wordt aangenomen dat deze daadwerkelijk afwijken.
Golf-diagram
Op het plaatje van het V-diagram zijn twee willekeurige gebieden uitgelicht (3076 in Rotterdam en 9446 in Aa en Hunze). Onder het V-diagram zien we de golf-diagrammen van deze twee gebieden. Het golf-diagram toont de a-posteriori verdeling van de geschatte SIRs van elk gebied. De breedte van het golf-diagram laat zien hoe precies de schatting voor het bijbehorende gebied is. Hoe smaller de golf-diagram des te preciezer de schatting is. Zo zie je dat de schatting voor Rotterdam preciezer is dan die voor Aa en Hunze.
Om meer te zeggen over de locatie van de daadwerkelijke SIR van een gebied, kunnen we de waarschijnlijkheidsintervallen die in deze golf-diagrammen staan gebruiken. In ieder golf-diagram staat de a-posteriori mediane SIR weergegeven als grootste stip in het midden. Daar omheen zijn met de kleinere stippen twee intervallen weergegeven. Het interval het dichtst om de mediane SIR heen is het 60% waarschijnlijkheidsinterval: 60% van de a-posteriori verdeling ligt in dit interval. We kunnen hiervan zeggen dat de er 60% kans is dat de daadwerkelijke SIR van dit gebied in dit interval ligt. De twee stippen daarbuiten tonen het 80% waarschijnlijkheidsinterval, waarbinnen 80% van de a-posteriori verdeling ligt. Van dit interval kunnen we zeggen dat er 80% kans is dat de daadwerkelijke SIR hierbinnen ligt.