Associatiematen 2x2 tabel: Difference between revisions
Line 66: | Line 66: | ||
Je maakt dan (al dan niet aan de hand van syntax) eerst drie variabelen aan (kolommen in een SPSS-databestand): twee dichotome variabelen die respectievelijk de rij-variabele en de kolom-variabele van de kruistabel voorstellen, én een frequentievariabele. Vervolgens specificeer je 4 cases (rijen in een SPSS-databestand) die elk één van de cellen in je kruistabel voorstellen. Voor alle vier die cases (cellen) geef je door middel van de frequentie-variabele aan hoe vol ze zitten/hoeveel patiënten er aan dat patroon voldoen. De frequentie-variabele gebruik je als ‘gewicht’ in de analyse. Hier is een voorbeeld voor een Chi-kwadraat-test van [https://stackoverflow.com/questions/16823530/entering-contingency-table-in-spss Stack Overflow]: | Je maakt dan (al dan niet aan de hand van syntax) eerst drie variabelen aan (kolommen in een SPSS-databestand): twee dichotome variabelen die respectievelijk de rij-variabele en de kolom-variabele van de kruistabel voorstellen, én een frequentievariabele. Vervolgens specificeer je 4 cases (rijen in een SPSS-databestand) die elk één van de cellen in je kruistabel voorstellen. Voor alle vier die cases (cellen) geef je door middel van de frequentie-variabele aan hoe vol ze zitten/hoeveel patiënten er aan dat patroon voldoen. De frequentie-variabele gebruik je als ‘gewicht’ in de analyse. Hier is een voorbeeld voor een Chi-kwadraat-test van [https://stackoverflow.com/questions/16823530/entering-contingency-table-in-spss Stack Overflow]: | ||
DATA LIST FREE | DATA LIST FREE |
Latest revision as of 15:52, 11 December 2024
Auteur | prof. dr. R.J. de Haan | |
Co-Auteur | M. Soete | |
auteurschap op deze site |
Een associatie tussen twee dichotome/binaire variabelen kan worden weergegeven als een 2x2 kruistabel (contingency table). Er bestaan verschillende manieren om dergelijke associaties te kwantificeren.
Relatief risico
Het relatieve risico (RR), ook wel risk ratio genoemd, is een bekende associatiemaat voor variabelen met twee uitkomstcategorieën. De maat drukt de sterkte uit van het verband tussen een determinant en een uitkomst. De waarden van het RR liggen tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie het RR gelijk is aan 1. Laten we ervan uitgaan dat we in een grootschalige, placebogecontroleerde klinische trial (n=4444) het effect willen onderzoek van langdurig statine gebruik op de reductie van sterfte. De onderzoekgroep wordt gevormd door patiënten die een myocard infarct hebben gehad of lijden aan angina pectoris. De trial laat de volgende resultaten zien.
wel sterfte | geen sterfte | totaal | |
statine | 182 (a) | 2039 (b) | 2221 (a+b) |
placebo | 256 (c) | 1967 (d) | 2223 (c+d) |
Het RR wordt berekend door:
(a/(a+b)) / (c/(c+d)) = (182/2221) / (256/2223) = 0.71
Men deelt dus de kans op het optreden van sterfte in de behandelgroep door de kans op het optreden van sterfte in de placebogroep. Anders geformuleerd; het RR drukt de verhouding uit tussen de sterfte incidentie onder patiënten die wel of niet behandeld zijn. RR < 1 betekent in dit voorbeeld een gunstig behandeleffect, een RR > 1 een ongunstig effect. Met andere woorden: statine reduceert de kans op sterfte met een factor 0,71. De associatie tussen behandeling en uitkomst blijkt ook significant te zijn: p < 0,001 (Chi-kwadraat toets).
Relatieve risicoreductie
Aan de hand van het bovenstaande voorbeeld kan ook de zogenaamde relatieve risicoreductie (RRR) worden berekend. De RRR wordt berekend door:
100% * (1 – RR) = 100% * (1 – 0,71) = 29%.
Met andere woorden: door de statine behandeling daalt het sterfterisico met 29%.
Absolute risicoreductie
Men kan de afname van sterfterisico ook uitdrukken in een absolute risicoreductie (ARR). Het sterftepercentage in de statine groep is (182/2221) = 8,2% en in de placebogroep (256/2223) = 11,5%. De ARR is dus 11,5% - 8,2 = 3,3%. Met andere woorden: door 100 patiënten te behandelen spaart met 3,3 levens.
Number Needed to Treat
De inverse van de ARR is de Number Needed to Treat (NNT). Deze maat geeft goed inzicht in de klinische relevantie van een therapeutisch effect. De NNT wordt als volgt berekend: 100% / ARR. In dit voorbeeld is de NNT dus 100% / 3,3 = 30. Met andere woorden: om 1 sterfgeval te voorkomen, moet men 30 patiënten met statine behandelen.
Odds ratio
De associatie tussen variabelen met twee uitkomstcategorieën kan ook uitgedrukt worden in een odds ratio (OR). De keuze tussen OR en RR is afhankelijk van het onderzoeksdesign. In het trialvoorbeeld van hiervoor is er sprake van een prospectieve studieopzet, die de mogelijkheid biedt om een absolute kans uit te rekenen op het optreden van een bepaalde uitkomst. In andere onderzoekssituaties, zoals in case-control onderzoek of retrospectief onderzoek, is het niet mogelijk deze absolute kans direct te berekenen worden, en moet een alternatieve associatiemaat worden gebruikt: de odds ratio (OR). De OR kan gezien worden als een schatter van het RR, waarbij het niet gaat om het berekenen van absolute kansen op de uitkomstvariabelen, maar om de relatieve kansen daarvan. Net als bij het RR liggen de waarden van de OR tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie de OR gelijk is aan 1. Laten we ervan uitgaan dat we in een case-control studie de associatie willen onderzoeken tussen roken en het krijgen van een cardiovasculaire aandoening (voorbeeld ontleend aan “Inleiding in de toegepaste biostatistiek” van J.W.R Twisk, Elsevier Gezondheidszorg, Maarssen, 2007). Onder de cases met een cardiovasculaire aandoening (=147) bevinden zich 86 rokers (59%), in de controlegroep zonder cardiovasculaire aandoening (n=53) roken 14 personen (26%).
cardiov aandoening | geen cardiov aandoening | |
roken | 86 (a) | 14 (b) |
niet roken | 61 (c) | 39 (d) |
De OR wordt berekend door:
(a/b) / (c/d) = (86/14) / (61/39) = 3,9
Men deelt dus de verhouding van kansen. De verhoudingen a/b en c/d worden in het Engels ‘odds’ genoemd. In dit voorbeeld is a/b de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder rokers, en c/d de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder niet-rokers. De OR is dus een maat voor de risicoverhouding op ziekte bij aanwezigheid of afwezigheid van de determinant. OR < 1 betekent in dit voorbeeld een beschermend effect van de determinant op de uitkomst, een OR > 1 een schadelijk effect. Met andere woorden: de odds op het hebben van een cardiovasculaire aandoening voor rokers is 3,9 keer zo groot als de odds op het hebben van deze aandoening voor niet-rokers. Deze associatie blijkt ook significant te zijn: p < 0,001 (Chi-kwadraat toets).
Omdat de interpretatie van een odds nogal lastig is, wordt de OR vaak opgevat als een RR, maar zij zijn niet hetzelfde. De OR is namelijk altijd een overschatting van het RR. Deze overschatting wordt groter naarmate de prevalentie van de uitkomstvariabele groter wordt.
De odds ratio wordt veel gebruikt bij logistische regressie.
Hoe kan ik in SPSS het betrouwbaarheidsinterval van een odds ratio krijgen als ik enkel een kruistabel heb?
De kruistabel geeft afdoende informatie en het is niet nodig om op basis van de kruistabel voor elk van de cases in die kruistabel (N) regels aan te maken, zoals je databestand in SPSS normaal geordend is. In plaats daarvan volstaat het om voor elk van de cellen in de kruistabel (4) een case of regel aan te maken in een nieuw databestand:
Je maakt dan (al dan niet aan de hand van syntax) eerst drie variabelen aan (kolommen in een SPSS-databestand): twee dichotome variabelen die respectievelijk de rij-variabele en de kolom-variabele van de kruistabel voorstellen, én een frequentievariabele. Vervolgens specificeer je 4 cases (rijen in een SPSS-databestand) die elk één van de cellen in je kruistabel voorstellen. Voor alle vier die cases (cellen) geef je door middel van de frequentie-variabele aan hoe vol ze zitten/hoeveel patiënten er aan dat patroon voldoen. De frequentie-variabele gebruik je als ‘gewicht’ in de analyse. Hier is een voorbeeld voor een Chi-kwadraat-test van Stack Overflow:
DATA LIST FREE /STATUS success freq. BEGIN DATA 0 0 1544 0 1 14 1 0 17 1 1 7 END DATA. WEIGHT BY freq. VALUE LABELS status 0 'Amateur' 1 'Professional' / success 0 'Failure' 1 'Success'. SET ONUMBERS LABELS.
CROSSTABS status BY success /STATISTICS CHISQUARE.
Uiteraard kun je voor deze data ook een odds ratio bepalen door een univariabele logistische regressie uit te voeren (nog steeds mét weging voor de frequentie-variabele). Dat kan door de volgende syntax te runnen:
LOGISTIC REGRESSION VARIABLES success /METHOD=ENTER status /PRINT=CI(95).
Hoe werkt de diagnostische odds ratio?
De odds ratio, afgekort als OR, is een associatiemaat voor variabelen met twee uitkomstcategorieën. De odds ratio wordt in de geneeskunde vaak toegepast als risicomaat voor de associatie van een risicofactor met een ziektetoestand. Ook kan de odds ratio worden gebruikt bij het evalueren van diagnostische testen, we spreken dan van de diagnostische odds ratio. De 2x2 tabel ziet er dan als volgt uit.
Wel ziekte | Geen ziekte | totaal | |
Positieve testuitslag | a | b | a+b |
Negatieve testuitslag | c | d | c+d |
totaal | a+c | b+d | a+b+c+d |
a is dan het aantal van de 'waar-positieven' en die frequentie is, tenzij bij gebrek aan associatie, relatief gezien altijd hoger bij diegenen die een positieve testuitslag hebben dan bij de 'negatieven' a/(a+b)> c/(c+d) en hoger dan de prevalentie (a+c)/(a+b+c+d). 'Waar-positieven' zijn personen die (terecht) positief zijn omdat ze ook tevens ziek zijn. b is dan de frequentie van de 'vals-positieven', deze scoren positief op de test maar zijn niet ziek, c is het aantal 'vals-negatieven', d is het aantal 'waar-negatieven'. De diagnostische OR is hier het product der 'waren' (a*d) gedeeld door het product der 'valsen' (b*c):
Is de OR van test A groter dan die van test B dan is test A diagnostisch beter dan test B.
De OR kan ook gebruikt worden om te oordelen of een test beantwoordt aan een mathematische eis voor een screening test. Volgens bepaalde auteurs zou de OR van een screeningtest gelijk aan of groter dan 100 moeten zijn.
Hoe transformeer ik een OR van onder de 1 naar een OR boven de 1?
In mijn onderzoek ben ik na een regressie analyse op een odds ratio en een CI van 0.65 en 0.43-0.97 respectivelijk uitgekomen. Nu zou ik deze willen omrekenen naar een odds/CI boven de 1. Kan dat en zo ja hoe?
Om de odds ratio "de andere kant op" te krijgen, moet je de referentie categorie van de variabele veranderen. Bijvoorbeeld: als mannen vs vrouwen, waarbij vrouwen je referentie (0) is, een OR <1 geeft, dan geeft vrouwen vs mannen, waarbij mannen je referentie (0) is, een OR>1. De resulterende OR is gelijk aan de reciproke (of inverse) van de OR (1/OR).
NB: Het heeft geen zin bij de diagnostische OR de inverse odds ratio te berekenen. De diagnostische OR is steeds groter dan 1. Dit volgt uit de bepaling van het begrip 'positief testresultaat'. Een positief testresultaat is een testresultaat dat relatief gezien meer bij personen voorkomt die aan de doelziekte (target disease) lijden dan bij personen die er niet aan lijden. a/(a +c) moet bij de diagnostische odds ratio dus altijd groter zijn dan c/(c+d).
Kan ik een OR interpreteren als een RR?
Ik heb altijd geleerd dat odds ratio's niet geïnterpreteerd mogen worden als risico's. In dit artikel uit de Lancet, zoeken ze naar een verband tussen verpleging (aantal per patiënten / opleiding) en ziekenhuissterfte. Daar eindigen ze uiteindelijk met odds ratio's (1.068 en 0.929) waaruit ze concluderen dat het een stap ophogen van de ene een toename van 7% in mortaliteit oplevert en een toename van de andere een afname van mortaliteit oplevert van 7%. Waarom mag je hier de OR wel interpreteren als een risico waarde?
Je hebt gelijk, een OR van 1.068 betekent dat de odds op mortaliteit 7% hoger is en niet dat sec het risico op mortaliteet 7% hoger is. Echter, wanneer prevalentie laag is (weinig mortaliteit overall), dan zullen de OR en RR erg op elkaar gaan lijken en dan kan de OR ook gebruikt worden als een benadering voor de RR (Cummings 2009).
Aanvullende bronnen
- Een voorbeeld van het gebruik van de diagnostische odds ratio: M. Soete (2009). The odds ratio gives proof that the PSA-test does not meet the formal requirements for a screening test, rapid response, BMJ.
- TheStatsGeek - Interpreting odds and odds ratios Een heldere (engelstalige) uitleg over wat de odds betekent en waarom we deze zoveel gebruiken.
Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.
De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.