Betrouwbaarheid gegevens

In de Nederlandse Kankeratlas wordt informatie over de (on)zekerheid van SIR-waarden meegenomen. Dit wordt gedaan in de atlas zelf (zie het kopje ‘transparantie’ hieronder) met het ‘golf-diagram’, ‘credible intervals, en het ‘V-diagram’. Door het gebruik van de priors zoals genoemd bij ‘Statistisch model kankerdiagnoses’ en door het verwerken van de geobserveerde data komt het Bayesiaanse model voor elk gebied met een verdeling van schattingen van de SIR van dit gebied. Dit heet een ‘posterior distribution’. Als deze schattingen dicht bij elkaar liggen is er veel zekerheid over de daadwerkelijke SIR-waarde. Als deze schattingen ver uiteenlopen is er weinig zekerheid. Deze informatie gebruiken we vervolgens in onze maten van onzekerheid.

Voor elk gebied willen we weten of de SIR-waarde lager of hoger is dan 1. Een SIR gelijk aan 1 geeft aan dat dit gebied een incidentie heeft die overeenkomt met de incidentie die verwacht wordt op basis van het Nederlandse gemiddelde. Een SIR lager dan 1 geeft aan dat dit gebied een lagere incidentie heeft dan verwacht en een SIR hoger dan 1 geeft aan dat dit gebied een hogere incidentie heeft dan verwacht. Voor elk gebied bekijken we welk deel van de posterior distribution boven of onder de 1 is. Als een groot deel van de posterior distribution onder de 1 is, betekent dit dat veel schattingen onder de 1 liggen en daarmee dat er veel zekerheid is dat dit gebied een lagere SIR heeft dan verwacht op basis van het Nederlands gemiddelde. Hetzelfde principe geldt voor gebieden met een hogere SIR; daar kijken we elk percentage van de posterior probability boven de 1 is: 

Waar  staat voor een indicator-variabele; deze neemt de waarde 1 aan als het stuk tussen haakjes waar is, en 0 als dit niet zo is, en m staat voor de index van een waarde uit de posterior distribution. Deze formule telt dus het percentage van de posterior distribution dat boven de 1 is. Bij observaties waar er veel onzekerheid is, zal de waarde 1 dicht in het centrum van de posterior distribution liggen. Deze krijgen dan  en  waarden in de buurt van 0.5. De eerste mate van zekerheid wordt daarom als volgt berekend: , waarbij de verticale lijnen staan voor absolute waarde en PPD voor ‘posterior probability difference’. Dit betekent dat observaties met een hoge  of   krijgen dan een hoge PPD waarde en observaties met  en  in de buurt van de 0.5 krijgen dan een lage PPD waarde. Een hoge PPD waarde betekent hierdoor een hoge mate van zekerheid dat een gebied afwijkt van 1, en een lage PPD dat er weinig zekerheid is dat een gebied afwijkt van 1.

Transparantie 

In de atlas krijgen gebieden met een hoge SIR een rode kleur en gebieden met een lage SIR een blauwe kleur. Gebieden die niet veel afwijken van het gemiddelde krijgen een gele kleur. Gebieden die een hoge of lage SIR hebben, maar waarbij er veel onzekerheid is rondom de SIR, krijgen ook een gele kleur. Zie figuur 8a. Op deze manieren houden we rekening met toevallige uitschieters in de data; gegevens die mogelijk niet structureel afwijken van het Nederlandse gemiddelde. 

 

Figuur 8a: op de X-as staat de SIR waarde, en op de Y-as de PPD waarde. Het linker figuur toont de kleurenlaag op basis van gemiddelde SIR alleen. Het middelste figuur toont een gele laag die transparanter wordt als de PPD hoger wordt, dus als er meer zekerheid rondom de SIR is. Rechts is de combinatie van deze twee kleurlagen, waarbij te zien is dat voor gebieden met een hogere PPD waarde, de intensiteit van de blauwe, gele of rode kleur behouden blijft. Gebieden met een lagere PPD waarde krijgen een gelere kleur.

V-diagram, golf-diagram, en credible intervals 

Wie in de atlas op een gebied klikt, komt het onderstaande figuur tegen in het venster met Statistieken (Figuur 8b). 

Figuur 8b. V-diagram (bovenste deel in de vorm van een V), golf-diagram (onderste deel in de vorm van een ‘golf’) en 60% en 80% credible intervals (rondjes met lijnen onder het golf-diagram). 

Het V-diagram toont alle SIR-waarden voor een bepaalde kankersoort, met kleur, in de Nederlandse Kankeratlas. Op de X-as staat de SIR-waarde, waarbij 1 overeenkomt met de verwachting op basis van het Nederlandse gemiddelde. Elke stip is de SIR van een gebied. Op de Y-as staat de PPD-waarde, met hogere PPD-waarden bovenaan. Gebieden met een gemiddelde SIR in de buurt van 1 hebben ook vaak een lage PPD-waarde. Onder gebieden met een zeer hoge of zeer lage gemiddelde SIR, zien we ook hogere PPD-waarden. Om deze reden heeft de figuur een V-vorm. Van gebieden met een PPD > 0,60 is er voldoende zekerheid is om te zeggen dat ze afwijken van de verwachting op basis van het Nederlandse gemiddelde. 

Op het V-diagram zijn twee willekeurige gebieden aangeklikt (3076 in Rotterdam en 9446 in Aa en Hunze). Onder het V-diagram zien we het golf-diagram van deze twee gebieden. Deze plot toont de posterior distribution. Een breder golf-diagram betekent minder zekerheid over de werkelijke SIR en een nauw golf-diagram betekent veel zekerheid. 

Om meer te zeggen over de locatie van de daadwerkelijke SIR-waarde van een gebied, kunnen we de credible intervals gebruiken. De mediaan van elke posterior distribution wordt getoond door de grote stip in het midden van het golf-diagram van een gebied. Daar omheen liggen twee kleinere stippen; dit is de 60% credible interval. Binnen deze stippen ligt 60% van de posterior distribution van dit gebied. We kunnen zeggen dat de daadwerkelijke SIR van dit gebied met 60% zekerheid in dit interval ligt. De twee stippen daarbuiten tonen de 80% credible interval, waarbinnen 80% van de posterior distribution ligt.