Difference between revisions of "Cohen's kappa"

From Wikistatistiek
Jump to navigation Jump to search
 
(44 intermediate revisions by 4 users not shown)
Line 1: Line 1:
Inter-observer agreement geeft aan in hoeverre verschillende observers tot hetzelfde oordeel komen bij het uitvoeren van eenzelfde meting. Het geeft daarmee aan hoe gevoelig de metingen zijn voor de persoon die de metingen verricht. Vaak wordt er ook gekeken naar de [[intra-observer agreement]], hierbij wordt gekeken in hoeverre een observer tot hetzelfde oordeel komt bij het herhaalderlijk uitvoeren van een meting.  
+
{{auteurs|
 +
|mainauthor= prof.dr. R.J. de Haan
 +
|coauthor= dr. ir. N van Geloven
 +
}}
 +
Kappa (ook wel Cohen's kappa genoemd) is een maat voor [[diagnostisch onderzoek#Hoe analyseer ik de betrouwbaarheid van mijn meetmethode? |intra- en interobserver agreement]]. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.
  
=kappa=
+
==Hoe wordt kappa berekend?==
 +
Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv.  wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.
  
Kappa (ook wel Cohen's kappa genoemd) is een maat voor inter-observer agreement.
+
Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:
  
==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen?==
+
<math>\kappa=\frac{\%\text{voor kans gecorrigeerde geobserveerde overeenkomst}}{\%\text{voor kans gecorrigeerde potentiele overeenkomst}}</math>
 +
 
 +
===Voorbeeld berekening kappa===
 +
 
 +
Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.
 +
 
 +
 
 +
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
 +
|width="100"|&nbsp;
 +
|width="100"|&nbsp;
 +
|colspan="2" width="200"| beoordelaar 1
 +
|width="100" | &nbsp;
 +
|-
 +
|align="left"|&nbsp;
 +
|align="right"|&nbsp;
 +
|afwezig
 +
|aanwezig
 +
|&nbsp;
 +
|-
 +
|rowspan="2"|beoordelaar 2
 +
|afwezig
 +
|style="background:#faecc8"|20
 +
|15
 +
|35
 +
|-
 +
|aanwezig
 +
|10
 +
|style="background:#faecc8"|55
 +
|65
 +
|-
 +
|&nbsp;
 +
|&nbsp;
 +
|30
 +
|70
 +
|100
 +
|}
 +
 
 +
De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.
 +
 
 +
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
 +
|width="100"|&nbsp;
 +
|width="100"|&nbsp;
 +
|colspan="2" width="200"| beoordelaar 1
 +
|width="100" | &nbsp;
 +
|-
 +
|align="left"|&nbsp;
 +
|align="right"|&nbsp;
 +
|afwezig
 +
|aanwezig
 +
|&nbsp;
 +
|-
 +
|rowspan="2"|beoordelaar 2
 +
|afwezig
 +
|style="background:#faecc8"|10.5
 +
|&nbsp;
 +
|35
 +
|-
 +
|aanwezig
 +
|&nbsp;
 +
|style="background:#faecc8"|45.5
 +
|65
 +
|-
 +
|&nbsp;
 +
|&nbsp;
 +
|30
 +
|70
 +
|100
 +
|}
 +
 
 +
De kansfrequentie van cel A is dan <math>\frac{30\times 35}{100}=10,5</math> en de kansfrequentie van cel D is <math>\frac{70\times 65}{100} = 45,5</math>. De kansovereenkomst tussen de beoordelaars is derhalve <math>\frac{56}{100}=56\%</math>.
 +
Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat <math>75\% - 56\% = 19\%</math>. Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is.  De voor kans gecorrigeerde potentiële overeenkomst is  <math>100\% - \text{de kansovereenkomst van }56\% = 44\%</math>.
 +
Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: <math>\frac{19\%}{44\%} = 0,43</math> (een ‘redelijke’ overeenkomst).
 +
 
 +
==Hoe interpreteer ik Cohen’s Kappa? ==
 +
Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00). In het Engels: k < 0 reflects ‘poor’ , 0 to 0.20 ‘slight’, 0.21 to 0.4 ‘fair’, 0.41 to 0.60 ‘moderate’, 0.61 to 0.8 ‘substantial’, and above 0.81 ‘almost perfect’ [[Cohen's kappa#Referenties|(zie referentie Landis en Koch)]].
 +
 
 +
==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?==
 
''Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.  
 
''Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.  
  
 
Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.
 
Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.
 +
 +
Zie ook de [[Cohen's kappa#Referenties|referenties]] naar Feinstein, Cicchetti en Lantz onder aan deze pagina.
 +
 +
==Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?==
 +
''De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er  discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?
 +
 +
Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag [[Cohen%27s_kappa#Mijn_kappa_komt_veel_lager_uit_dan_ik_verwacht.2C_waar_kan_dit_door_komen_(1).3F|hierboven]]. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.
 +
 +
Zie ook de [[Cohen's kappa#Referenties|referenties]] naar Feinstein, Cicchetti en Lantz onder aan deze pagina.
  
 
==Waar vind ik kappa in SPSS?==
 
==Waar vind ik kappa in SPSS?==
  
Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS 16 berekenend worden. Zet de variabelen (de beoordeling  
+
Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS berekend worden. Zet de variabelen (de beoordeling  
 
van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics-
 
van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics-
 
>Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt  
 
>Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt  
 
"Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa.
 
"Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa.
 +
Voor het berekenen van intra-observer agreement (twee beoordelingen van 1 beoordelaar) kun je dezelfde manier aanhouden. Je zet dan de eerste beoordeling en tweede beoordeling in kolommen naast elkaar en voert die in bij "rows" en "columns".
 +
 +
Voor meedere beoordelaars/beoordelingen (generalized kappa of Fleiss' kappa) is er nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Op deze [http://www.ccitonline.org/jking/homepage/ website] vind je meerdere macro's (o.a. in excel, [http://www.ccitonline.org/jking/homepage/interrater.txt SPSS] en SAS) die een kappa bij meerdere observers uit kunnen rekenen.
 +
 +
Voor een gewogen (weighted) kappa welke gebruikt wodt voor ordinale uitkomstmaten is er ook nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Ook is er de volgende mogelijkheid: de weighted kappa (met kwadratische weegfunctie) is in wezen gelijk aan een [[intraclass correlatie coefficient]]. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222"..
 +
 +
Voor zowel de Fleiss kappa als de weighted kappa zijn voor SPSS 20 extension budles beschikbaar. Na het downloaden hiervan komen er extra menu opties onder Analyze -> Scale. De volgende stappen zijn hiervoor nodig. Voordat deze extensies kunnen worden geïnstalleerd moet eerst de [https://www.ibm.com/developerworks/community/files/app?lang=en#/collection/0c39f1d0-c6ba-44f8-bffc-c8f0bb97e1f6 PythonEssentials plugin] worden gedownload en geïnstalleerd. Hierbij moet de juiste versie voor het besturingssysteem worden gekozen (voor de meeste pc’s in het AMC zal dit windows 32 bits (win32) zijn). Het gedownloade installatieprogramma kan vervolgens worden uitgevoerd. Wanneer de Python plugin is geïnstalleerd kunnen de [https://www.ibm.com/developerworks/community/files/app?lang=en#/collection/23c2eac7-e524-4393-a4b9-0d224a2a0eda extensies voor het berekenen van een gewogen kappa of Fleiss kappa] worden gedownload. Deze extensies zijn te activeren in SPSS, via Utilities > Extension Bundles > Install Extension Bundle. Vervolgens kan de bestandslocatie van de gedownloade extensiebundel worden geselecteerd.
 +
 +
==Hoe kan ik bij een gewogen kappa zelf de gewichten specificeren?==
 +
 +
''Vooralsnog heb ik via de extensie in SPSS een lineair gewogen kappa gebruikt, maar we willen nu graag handmatig gewichten gaan toekennen aan verschillende categorieën. Dat handmatig gewichten toekennen is in de extensie van SPSS niet mogelijk. Weet u misschien een programma’tje dat ik kan gebruiken waarbij dat wel mogelijk is?
  
Voor meedere beoordelaars is er nog geen standaard procedure in SPSS 16. Er is wel een aparte macro voor zie het volgende bestand [[File:kappa SPSS.doc]].
+
In [[statistische software#SPSS|SPSS]] door ipv de extensie te gebruiken een stuk syntax te gebruiken en daarin de gewenste gewichten te specificeren. Zie de referentie naar Valiquette op [https://www-304.ibm.com/support/docview.wss?uid=swg21477357 deze website van SPSS]. In [[statistische software#Stata|Stata]] kun je het direct specificeren bij gebruik van de functie [http://www.stata.com/manuals13/rkappa.pdf kapwgt]. In [[statistische software#R|R]] kun je de weightmatrix ook direct specificeren in de ‘kappa2’ functie van de [http://cran.r-project.org/web/packages/irr/irr.pdf irr package]. Hierin lijk je wel een symmetrische gewichten matrix in te moeten geven. In de cohen.kappa functie in [https://personality-project.org/r/psych/help/kappa.html package psych] lijk je de hele matrix te kunnen specificeren.
  
 
= Referenties =
 
= Referenties =
  
 +
*Zeer heldere uitleg over kappa op de Kennisbasis Statistiek [http://www.wynneconsult.com/root/Assoc/Cohe336.htm]
 
*Douglas G, Altman, Practical Statistics for Medical Research, pag. 404
 
*Douglas G, Altman, Practical Statistics for Medical Research, pag. 404
*Discussie over het nut van kappa en een uitgebreide verwijzing naar literatuur[http://ourworld.compuserve.com/homepages/jsuebersax/kappa.htm].
+
*[http://www.ncbi.nlm.nih.gov/pubmed/2348207 Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol. 1990;43(6):543-9.]
 +
*[http://www.sciencedirect.com/science/article/pii/089543569090159M Cicchetti DV, Feinstein AR. High agreement but low kappa: II. Resolving the paradoxes. Journal of Clinical Epidemiol. 1990;43(6):551–558.]
 +
*[http://www.ncbi.nlm.nih.gov/pubmed/8621993 Lantz CA, Nebenzahl E. Behavior and interpretation of the kappa statistic: resolution of the two paradoxes. J Clin Epidemiol. 1996 Apr;49(4):431-4.]
 +
*[http://www.ncbi.nlm.nih.gov/pubmed/843571 Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33:159–174. DOI: 10.2307/2529310.]
 +
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3402032/ Hallgren KA. Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial. Tutorials in quantitative methods for psychology. 2012;8(1):23-34.]
  
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
 
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.
 
  
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
+
{{onderschrift}}
<div>
 

Latest revision as of 12:06, 29 November 2018

Auteur prof.dr. R.J. de Haan
Co-Auteur dr. ir. N van Geloven
auteurschap op deze site

Kappa (ook wel Cohen's kappa genoemd) is een maat voor intra- en interobserver agreement. De kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen beoordelingen. Een kappa van 0 betekent dat de overeenkomst tussen beoordelingen volledig op kans berust, een kappa van 1 is een volledige overeenkomst.

Hoe wordt kappa berekend?

Cohen’s kappa - of kortweg kappa - is een veel gebruikte statistische maat om de mate van intra- of inter-beoordelaarsbetrouwbaarheid vast te stellen. Meestal betreft het een situatie waarin een bepaald klinisch fenomeen op dichotome wijze door beoordelaars wordt gescoord (bijv. wel of geen ECG afwijking), maar de berekening kan eenvoudig worden uitgebreid naar drie of meer beoordelingscategorieën.

Kappa drukt een voor kans gecorrigeerde overeenkomst uit, en wordt als volgt berekend:

Voorbeeld berekening kappa

Laten we ervan uitgaan dat we willen nagaan of verpleegkundigen de pupilreflexen van patiënten in de acute fase van een beroerte betrouwbaar kunnen beoordelen. Om dit na te gaan, vragen we aan 2 willekeurig gekozen verpleegkundigen om onafhankelijk van elkaar de reflexen bij 100 patiënten te beoordelen.


    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 20 15 35
aanwezig 10 55 65
    30 70 100

De geobserveerde overeenkomst tussen beide beoordelingen is hier 75 / 100 = 75%. Dat percentage lijkt redelijk goed te zijn, maar behoeft nuance. Immers, de verpleegkundigen kunnen het soms (of vaak) ook toevallig met elkaar eens zijn geweest. Het is dan ook zinvol om als vervolgstap het percentage overeenkomst te berekenen dat gebaseerd is op kans. De kansfrequentie van een cel in een kruistabel kan worden berekend door de betreffende kolomtotaal te vermenigvuldigen met de betreffende rijtotaal, en het product vervolgens te delen door het totaal aantal waarnemingen.

    beoordelaar 1  
    afwezig aanwezig  
beoordelaar 2 afwezig 10.5   35
aanwezig   45.5 65
    30 70 100

De kansfrequentie van cel A is dan en de kansfrequentie van cel D is . De kansovereenkomst tussen de beoordelaars is derhalve . Nu kunnen we de voor kans gecorrigeerde geobserveerde overeenkomst uitrekenen; in dit voorbeeld is dat . Als absoluut getal zegt dit percentage nog niet zo veel. De 19% krijgt pas betekenis als het wordt afgezet tegen hetgeen potentieel (uiteraard opnieuw voor kans gecorrigeerd) aan overeenkomst mogelijk is. De voor kans gecorrigeerde potentiële overeenkomst is . Kappa (% voor kans gecorrigeerde geobserveerde overeenkomst / % voor kans gecorrigeerde potentiële overeenkomst) is dus: (een ‘redelijke’ overeenkomst).

Hoe interpreteer ik Cohen’s Kappa?

Kappa waarden worden (op arbitraire(!) afkappunten) geïnterpreteerd in termen van: ‘slecht’ (k < 0); ‘gering’ (0-0,20); ‘matig’ (0,21-0,40); ‘redelijk’ (0,41-0,60); ‘voldoende tot goed’(0,61-0,80) en ‘bijna perfect’(0,81-1,00). In het Engels: k < 0 reflects ‘poor’ , 0 to 0.20 ‘slight’, 0.21 to 0.4 ‘fair’, 0.41 to 0.60 ‘moderate’, 0.61 to 0.8 ‘substantial’, and above 0.81 ‘almost perfect’ (zie referentie Landis en Koch).

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (1)?

Ik wil uitrekenen wat de kappa tussen drie radiologen is bij het beoordelen van kleine longembolien. Het gaat mij er om hoe vaak zij een mini-longembolie zien (heb ik waarde 2 gegeven, grotere longembolie of geen longembolie heb ik waarde 1 gegeven). De meeste waarden zijn 1, met in een paar gevallen (en verschillende voor de drie radiologen) een 2. Ook al is er discrepantie tussen de radiologen, toch zou je verwachten dat het nog een redelijke kappa zou hebben: zo vaak komt zo'n mini-longembolie niet voor. Toch krijg ik juist een hele lage kappa (0.08). Dit snap ik niet.

Niet zeker te zeggen zonder de data te zien, maar een plausibele verklaring voor het verkrijgen van een dergelijke lage kappa in dit geval is het volgende. Kappa berekent niet de overeenkomst tussen de raters sec, maar berekent de mate waarin de raters meer overeenkomen dat wat puur op basis van toeval verwacht zou worden. Wanneer het meerendeel van de embolien door de raters als 1 gescoord worden, en de keuze van welke embolien een 2 krijgen puur op basis van toeval gemaakt zou worden, dan is er nog steeds een grote kans dat de raters in veel gevallen beide een 1 gescoord hebben. Het is dus lastig om nog veel toe te voegen aan deze op toeval berustende overeenstemming. Blijkbaar is de werkelijke overeenstemming niet veel beter gebleken.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Mijn kappa komt veel lager uit dan ik verwacht, waar kan dit door komen (2)?

De Cohens Kappa neemt een waarde van 0,82 aan. Het is echter maar bij 3 van de 332 pt zo dat er discrepantie bestaat tussen rater 1 en rater 2. Kunt u uitleggen hoe het komt dat er bij minder dan 1% van de ‘populatie’ geen overeenstemming is en er dan relatief gezien zo een lage kappa waarde uitkomt? Wanneer je dit bv vergelijkt met de agreement voor een andere uitkomstparameter, waar er discrepantie is bij 6 van de 129 patiënten (4.6%) en dit leidt tot een cohens kappa (nominale waarden) van 0,91, snap ik de discrepantie niet helemaal. Komt dit door de correctie voor het percentage voor kans gecorrigeerde overeenkomst?

Dit kan inderdaad komen doordat er voor kansovereenstemming gecorrigeerd wordt. Doordat er in de analyses van 332 patienten heel vaak dezelfde categorie voorkwam (bij beide raters) is de kans om op basis van toeval overeenstemming te hebben ook heel groot. Het is moeilijk om daar nog iets aan toe te voegen. Zie ook de vraag hierboven. In de 2e analyse is er over het geheel meer variatie in de categorien die voorkomen en is het dus op basis van kans minder waarschijnlijk zoveel overeenstemming te vinden.

Zie ook de referenties naar Feinstein, Cicchetti en Lantz onder aan deze pagina.

Waar vind ik kappa in SPSS?

Voor twee beoordelaars kan Cohen's Kappa als volgt in SPSS berekend worden. Zet de variabelen (de beoordeling van de 1e en 2e beoordelaar) in kolommen naast elkaar. Ga dan naar Analyze->Descriptive statistics- >Crosstabs, voert de ene variabele in bij "rows", de andere bij "columns", klikt op "statistics" en vinkt "Kappa" aan. Dan klik je op continue en op ok. Je krijgt in de output de kruistabel en Cohen's Kappa. Voor het berekenen van intra-observer agreement (twee beoordelingen van 1 beoordelaar) kun je dezelfde manier aanhouden. Je zet dan de eerste beoordeling en tweede beoordeling in kolommen naast elkaar en voert die in bij "rows" en "columns".

Voor meedere beoordelaars/beoordelingen (generalized kappa of Fleiss' kappa) is er nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Op deze website vind je meerdere macro's (o.a. in excel, SPSS en SAS) die een kappa bij meerdere observers uit kunnen rekenen.

Voor een gewogen (weighted) kappa welke gebruikt wodt voor ordinale uitkomstmaten is er ook nog geen standaard procedure in SPSS, er is wel een SPSS extensie beschikbaar (zie onder). Ook is er de volgende mogelijkheid: de weighted kappa (met kwadratische weegfunctie) is in wezen gelijk aan een intraclass correlatie coefficient. Een duidelijke omschrijving hiervan kun je vinden in "Biostatistiscs, The Bare Essentials, Norman & Streiner - pag 220-222"..

Voor zowel de Fleiss kappa als de weighted kappa zijn voor SPSS 20 extension budles beschikbaar. Na het downloaden hiervan komen er extra menu opties onder Analyze -> Scale. De volgende stappen zijn hiervoor nodig. Voordat deze extensies kunnen worden geïnstalleerd moet eerst de PythonEssentials plugin worden gedownload en geïnstalleerd. Hierbij moet de juiste versie voor het besturingssysteem worden gekozen (voor de meeste pc’s in het AMC zal dit windows 32 bits (win32) zijn). Het gedownloade installatieprogramma kan vervolgens worden uitgevoerd. Wanneer de Python plugin is geïnstalleerd kunnen de extensies voor het berekenen van een gewogen kappa of Fleiss kappa worden gedownload. Deze extensies zijn te activeren in SPSS, via Utilities > Extension Bundles > Install Extension Bundle. Vervolgens kan de bestandslocatie van de gedownloade extensiebundel worden geselecteerd.

Hoe kan ik bij een gewogen kappa zelf de gewichten specificeren?

Vooralsnog heb ik via de extensie in SPSS een lineair gewogen kappa gebruikt, maar we willen nu graag handmatig gewichten gaan toekennen aan verschillende categorieën. Dat handmatig gewichten toekennen is in de extensie van SPSS niet mogelijk. Weet u misschien een programma’tje dat ik kan gebruiken waarbij dat wel mogelijk is?

In SPSS door ipv de extensie te gebruiken een stuk syntax te gebruiken en daarin de gewenste gewichten te specificeren. Zie de referentie naar Valiquette op deze website van SPSS. In Stata kun je het direct specificeren bij gebruik van de functie kapwgt. In R kun je de weightmatrix ook direct specificeren in de ‘kappa2’ functie van de irr package. Hierin lijk je wel een symmetrische gewichten matrix in te moeten geven. In de cohen.kappa functie in package psych lijk je de hele matrix te kunnen specificeren.

Referenties


Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC kunnen via intranet ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk!