Cohen's kappa: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
Line 86: Line 86:
Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00).
Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00).


==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen?==
==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?==
''Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.  
''Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.  


Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.
Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.
==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?==
''De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er  discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?
Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag [[Cohen%27s_kappa#Mijn_kappa_komt_veel_lager_uit_dan_ik_verwacht.2C_waar_kan_dit_door_komen.3F|hierboven]]. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.


==Waar vind ik kappa in SPSS?==
==Waar vind ik kappa in SPSS?==

Revision as of 13:22, 20 September 2012

Auteur prof.dr. R.J. de Haan
Co-Auteur
auteurschap op deze site

Kappa (ook wel Cohen's kappa genoemd) is een maat voor intra- en interobserver agreement. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.

Hoe wordt kappa berekend?

Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv. wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.

Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:

Failed to parse (syntax error): {\displaystyle \kappa=\frac{\text{\% voor kans gecorrigeerde geobserveerde overeenkomst}}{\text{\% voor kans gecorrigeerde potentiele overeenkomst}}}

Voorbeeld berekening kappa

Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.


    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 20 15 35
aanwezig 10 55 65
    30 70 100

De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.

    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 10.5   35
aanwezig   45.5 65
    30 70 100

De kansfrequentie van cel A is dan en de kansfrequentie van cel D is . De kansovereenkomst tussen de beoordelaars is derhalve . Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat . Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is. De voor kans gecorrigeerde potentiële overeenkomst is . Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: (een ‘redelijke’ overeenkomst).

Hoe interpreteer ik Cohen’s Kappa?

Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00).

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?

Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.

Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?

De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?

Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag hierboven. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.

Waar vind ik kappa in SPSS?

Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS 16 berekenend worden. Zet de variabelen (de beoordeling van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics- >Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt "Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa.

Voor meedere beoordelaars (generalized kappa of Fleiss' kappa) is er nog geen standaard procedure in SPSS 16. Op deze website vind je meerdere macro's (o.a. in excel, SPSS en SAS) die een kappa bij meerdere observers uit kunnen rekenen.

Voor een weighted kappa is er ook geen standaard procedure in SPSS. Er wordt o.a. een rekenprogramma aangeboden op de website van Vassar college. Ook is er de volgende mogelijkheid: de weighted kappa (gebruikt voor ordinale uitkomstmaten) is in wezen gelijk aan een intraclass correlatie coefficient. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222"..

Referenties

  • Zeer heldere uitleg over kappa op de Kennisbasis Statistiek [1]
  • Douglas G, Altman, Practical Statistics for Medical Research, pag. 404

Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.