Statistisch model kankerdiagnoses
Hieronder vindt u meer informatie over de statistische modellen die zijn gebruikt bij de ontwikkeling van de Nederlandse Kankeratlas.
De ‘verwachte’ incidentie van een postcodegebied
De gegevens die beschreven staan onder data worden verwerkt tot zogenaamde ‘Standardized Incidence Ratios’ (SIR). Voor elk postcodegebied is informatie bekend over het aantal personen met een kankerdiagnose en het aantal personen dat in dat gebied woont. Eerst wordt per kankersoort de gemiddelde kankerincidentieratio in Nederland berekend. Dit is het aantal kankerdiagnoses van een specifieke kankersoort in Nederland, gedeeld door de populatie in Nederland. Door dit cijfer te vermenigvuldigen met de bevolkingsgrootte in elk postcodegebied, wordt de incidentie van die specifieke kankersoort in elk postcodegebied berekend als dit gebied qua incidentie overeen zou komen met het Nederlandse gemiddelde. In meer detail; de ‘verwachte’ incidentie ( E_i ) van een specifieke kankersoort in een postcodegebied i (als de incidentie gelijk zou zijn aan het Nederlandse gemiddelde) wordt berekend als:
Waar i staat voor het postcodegebied i en a staat voor 5-jaars leeftijdsgroep a ([0,5], [5,10], …, [80,85], [85,120]). Door dit eerst te berekenen per leeftijdsgroep en vervolgens op te tellen, wordt leeftijdsstandaardisatie uitgevoerd. Dit betekent dat verschillen tussen gebieden niet meer toe te schrijven zijn aan een oudere of jongere bevolking in die regio relatief ten opzichte van het Nederlands gemiddelde. Vervolgens willen we de daadwerkelijke incidentie in dit gebied vergelijken met de verwachte incidentie. Dit vergt een statistisch model.
(On)zekerheid rondom incidentie – Gebieden met weinig inwoners
Door de geobserveerde incidentie in elk gebied te vergelijken met de verwachte incidentie, vergelijken we of dit gebied een hogere of lagere incidentie heeft dan het Nederlandse gemiddelde. Echter, hoewel we kunnen observeren of een gebied een hogere of lagere incidentie heeft, zou dit niet een eerlijk overzicht geven van Nederland. Gebieden met weinig inwoners zijn namelijk sterker onderhevig aan toeval dan grotere gebieden; ze kunnen per toeval in een bepaalde periode een lage of juist hoge incidentie hebben.
Sommige gebieden hebben dus meer ‘onzekerheid’ rondom de incidentie dan andere gebieden. Om te kunnen zeggen of sommige gebieden ‘structureel’ afwijken van het gemiddelde moeten we corrigeren voor de mate van onzekerheid rondom de geobserveerde incidentie. Om dit te kunnen doen is een statistisch model nodig. Daarnaast willen we ruimtelijke informatie optimaal gebruiken; als er bijvoorbeeld een ruimtelijk cluster is van meerdere gebieden met allemaal een lagere (of allemaal een hogere) incidentie dan verwacht, dan geeft dit meer zekerheid dat in die regio een lagere (of hogere) incidentie van een specifieke kankersoort is ten opzichte van het Nederlandse gemiddelde. Zelfs als deze gebieden allemaal een laag inwonersaantal hebben, kunnen ze zo gezamenlijk toch meer zekerheid scheppen. Dit proces heet ‘smoothing’. Ook dit vereist een statistisch model dat ruimtelijke informatie kan verwerken. Zie figuur 7a voor een voorbeeld van hoe smoothing werkt.
Figuur 7a. Links: geobserveerde incidentie. Rechts: incidentie met smoothing.
In de Nederlandse Kankeratlas volgen we de Australische Kankeratlas, en gebruiken we een Bayesiaans model met een Conditional Autoregressive (CAR) Distribution.
Statistische modelspecificatie
We veronderstellen dat geobserveerde incidentie Yi een Poissonverdeling (een bepaalde kansverdeling) volgt:
Waar het natuurlijk logaritme van de zogenaamde Standardized Incidence Ratio (SIR) is. Geƫxponentieerd geeft deze waarde aan in welke mate een gebied afwijkt van het gemiddelde: een SIR van 1 geeft aan dat een gebied een incidentie heeft die gelijk is aan wat zou worden verwacht volgens het Nederlandse gemiddelde (
). Een SIR onder de 1 geeft aan dat een gebied een lagere incidentie heeft dan verwacht zou worden op basis van het Nederlandse gemiddelde en een SIR hoger dan 1 een hogere incidentie dan verwacht.
Deze SIR-waarden, in combinatie met hun onzekerheid, worden getoond in de Nederlandse Kankeratlas. Het logaritme van de SIR wordt vervolgens geparametriseerd als:
De parameter staat voor de gemiddelde SIR, en
staat bekend als een ruimtelijk ‘random effect’ en vertegenwoordigt de mate waarin gebied i afwijkt van dit gemiddelde. De specificatie van deze ruimtelijke random effects bepaalt hoe smoothing wordt uitgevoerd. In Bayesiaanse modellen worden eerst ‘priors’ gespecificeerd. Dit vertegenwoordigt onze mate van kennis voordat de data verwerkt zijn. Die kennis wordt vervolgens aangepast zodra het model de data verwerkt. De prior voor
normaal verdeeld met een gemiddelde van 0 (want
, ofwel gemiddeld zullen gebieden overeenkomen met het Nederlandse gemiddelde) en met een heel brede variantie; dit laatste betekent dat we vooraf weinig over de data willen aannemen en daarmee dat de data veel invloed kunnen hebben op onze uiteindelijke schatting;
De ruimtelijke random effects volgen een distributie zoals voorgesteld door Leroux et al. 2000; deze waarden zijn een gewogen gemiddelde waarin ook de waarden van random effects van buurgebieden worden meegenomen. Op deze wijze vindt de eerder genoemde ‘smoothing’ plaats;
Vervolgens hebben ook , en
een zogenaamde ‘prior’, die vervolgens met behulp van de geobserveerde data preciezer geschat kan worden. De prior voor
volgt een inverse gamma distributie met shape parameter 1 en scale parameter 0.01:
Ook hier betekent een scale parameter van 0.01 dat we vooraf zeer weinig aannemen over de waarden, en daarmee zeer veel gewicht geven aan de geobserveerde data. Als laatste is de prior voor ;
Een van 0 zou betekenen dat er geen ruimtelijke correlatie is (elk gebied is onafhankelijk van haar buurgebieden), en een
van 1 zou volledige afhankelijke relatie betekenen. Door een uniforme distributie van 0 tot 1 aan te nemen, is elk mogelijke waarde tussen 0 en 1 mogelijk; ook hier heeft de data daarom een sterke invloed op de schatting.
Referenties
Leroux BG, Lei X, Breslow N. Estimation of disease rates in small areas: a new mixed model for spatial dependence. 2000. 135-178. In Halloran ME, Berry D (Eds). Statistical models in epidemiology, the environment and clinical trials. New York: Springer.