Intraclass correlatie coefficient: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
(New page: ''Aan dit onderwerp wordt nog gewerkt. Bijdragen aan de wiki? Mail naar statistiek@amc.nl.'')
 
mNo edit summary
 
(38 intermediate revisions by 2 users not shown)
Line 1: Line 1:
''Aan dit onderwerp wordt nog gewerkt. Bijdragen aan de wiki? Mail naar statistiek@amc.nl.''
{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor= Prof.dr. P.M.M. Bossuyt
}}
De intraclass correlatiecoëfficiënt (ICC) wordt gebruikt voor het kwantificeren van de mate van overeenstemming tussen twee (of meer) op [[KEUZE_TOETS#Van_welk_type_is_mijn_data?|(semi-)continue schaal]] herhaaldelijk gemeten waardes. Bijvoorbeeld als bekeken wordt in hoeverre radiologen bij het beoordelen van een MRI van het brein een gelijk aantal microbloedingen detecteren. De ICC is een generalisatie van [[Cohen's kappa]] (waarbij overeenstemming bij de beoordeling van een [[KEUZE_TOETS#Van_welk_type_is_mijn_data?|dichotome of ordinale]] waarde bekeken wordt).
 
==Waarom is een 'gewone' correlatiecoëfficiënt niet voldoende voor het beoordelen van overeenstemming?==
 
Bij het analyseren van de overeenstemming tussen twee continue beoordelingen is het goed om te starten met het maken van een scatterplot. De reeks waarnemingen behorend bij de eerste beoordeling wordt dan uitgezet tegen de tweede reeks waarnemingen. Op basis van de scatterplot kan een eerste uitspraak gedaan worden over de mate van samenhang tussen de twee beoordelingen. Daarbij kan ook een [[correlatie|correlatiecoëfficiënt]] uitgerekend worden. Echter, een goede correlatiecoëfficiënt is geen verzekering voor een goede overeenstemming. Stel de eerste beoordeling van een reeks van 10 patiënten levert de volgende waardes op: 11, 13, 10, 15, 18, 13, 14, 15, 20, 12 en de tweede beoordeling levert de getallen: 21, 23, 20, 25, 28, 23, 24, 25, 30, 22. De twee reeksen zijn perfect gecorreleerd (met een correlatiecoëfficiënt van 1). Maar er is hier geen strikte overeenstemming. De tweede reeks scoort namelijk structureel 10 hoger dan de eerste. Het is daarom verstandig om na het kijken naar de scatterplot en de 'gewone' correlatiecoëfficiënt ook een ICC te berekenen. Bij het kwantificeren van overeenstemming tussen meer dan twee beoordelaars is een gewone correlatiecoëfficiënt direct ongeschikt.
 
Zie ook het artikel van [http://www-users.york.ac.uk/~mb55/meas/ba.pdf Bland and Altman] voor meer voorbeelden van 'inappropriate' gebruik van een correlatiecoëfficiënt bij het analyseren van overeenstemming.
 
==Waar vind ik de ICC in SPSS?==
 
Je kunt de ICC uitrekenen met SPSS. Ga daarvoor naar Analyze -> Scale -> Reliablity Analysis. Vink onder 'Statistics...' de Intraclass correlation coefficient aan. Let op dat je een geschikt model en type kiest (zie onder) en dat de data in goede opzet staan. De dataopzet in een studie waarbij 3 raters verschillende subjects scoren is als volgt:
 
{| border ="1" style="width:450px" align="center" cellpadding="3"
! rater1 !! rater2 !! rater3
|-
|align="center"| score subject 1
|align="center"| score subject 1
|align="center"| score subject 1
|-
|align="center"| score subject 2
|align="center"| score subject 2
|align="center"| score subject 2
|-
|align="center"| score subject 3
|align="center"| score subject 3
|align="center"| score subject 3
|-
|align="center"| etc.
|align="center"| etc.
|align="center"| etc.
|-
|}
 
==Welk model moet ik gebruiken voor de berekening van mijn ICC?==
 
Er zijn 3 modellen die in SPSS gebruikt kunnen worden voor het berekenen van de ICC: Two Way Mixed, Two Way Random en One Way Random
 
===Wanneer gebruik ik Two Way Mixed?===
Het Two Way Mixed model gaat ervan uit dat er een vast aantal beoordelaars zijn die een sample van alle patiënten beoordelen. Dit is bijvoorbeeld het geval als dezelfde samples een keer handmatig en een keer computergestuurd worden afgelezen. We zijn daarbij geïnteresseerd in de overeenstemming tussen deze twee specifieke technieken en willen dit niet extrapoleren naar een derde techniek of iets dergelijks.
===Wanneer gebruik ik Two Way Random?===
Het Two Way Random model gaat ervan uit dat de beoordelaars niet vast zijn, maar ook een random sample zijn van alle mogelijke beoordelaars. Dit is bijvoorbeeld het geval als er bij patiënten twee maal de temperatuur gemeten wordt. We zijn daarbij geïnteresseerd in de overeenstemming tussen de twee herhaalde metingen. Maar we willen hiermee ook iets kunnen zeggen over toekomstige herhalingen van temperatuurmetingen.
===Wanneer gebruik ik One Way Random?===
Het One Way Random model gaat ervan uit dat de beoordelaars een random sample zijn van alle beoordelaars, maar dat nu alle patiënten (of in het algemeen targets) beoordeeld worden. Omdat er in medisch onderzoek meestal gewerkt wordt met een sample uit de totale patiëntenpopulatie, wordt dit model daarbij niet vaak gebruikt.
 
===Heb ik het juiste model gekozen?===
 
''Ik heb een vraag over de berekening van de ICC voor het beoordelen van de mate van overeenstemming tussen twee observatoren. 2 observatoren hebben metingen gedaan van de temperatuur van patiënten. Totaal zijn 8 metingen gelijktijdig uitgevoerd en daarna zijn er 32 metingen apart gedaan. We hebben deze eerste 8 metingen gezamenlijk laten uitvoeren om te bepalen of er voldoende overeenstemming is in het meten. Nu heb ik voor het bepalen van de ICC gebruik gemaakt van een one-way random model. Mijn vraag is, is dit correct?
 
De 8 metingen kunnen gezien worden als een sample van alle (40) metingen. Bij een one way random model ga je ervan uit dat je alle metingen (dubbel) hebt gemeten. Dat is hier niet het geval. Dat brengt de keuze terug naar two way random of two way mixed. Dat hangt ervan af. Als je met deze ICC puur iets wilt zeggen over in hoeverre deze twee observatoren voldoende overeenstemming hadden, dan gebruik je two way mixed. Als je de uitspraak wilt generaliseren naar 2 beoordelaars in het algemeen (ook andere beoordelaars) dan gebruik je two way random.
 
==Welk type moet ik gebruiken voor de berekening van mijn ICC?==
Er zijn in SPSS twee typen die gebruikt kunnen worden bij de berekening van een ICC: Consistency en Absolute Agreement. Bij 'consistency' ben je geïnteresseerd in een sterke samenhang tussen de beoordelingen, waarbij structurele verschillen tussen beoordelaars minder van belang zijn. Als de interesse ligt in precieze overeenkomst, dan wordt er gekozen voor de optie 'absolute agreement'.
 
==Moet ik de 'single measures' of 'average measures' ICC uit mijn output gebruiken?==
 
''Ik heb de ICC berekend voor verschillende parameters en nu krijg ik bij de output een ICC voor single measures en één voor average measures. Welke ICC moet ik nemen?
 
Je bent meestal geïnteresseerd in de 'single measures' uitkomst. De average measure is van belang als je ook daadwerkelijk het gemiddelde van de twee methodes zou willen gebruiken als beoordeling.
 
==Hoe kan ik de ICC interpreteren?==
De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de [[Cohen's_kappa#Hoe_interpreteer_ik_Cohen.E2.80.99s_Kappa.3F|kappa coëfficiënt]] geclassificeerd.
 
Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patiënt / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patiëntverschillen t.o.v. totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie (zie ook de volgende vraag).
 
==Hoe kan ik 2 ICCs met elkaar vergelijken?==
''187 patiënten zijn 2x gezien door endoscopisten die de lengte van het Barrett hebben geschat: ICC 0.91. Vervolgens heb ik 2 groepen gemaakt op basis van Barrett slokdarm lengte groep I (Barrett 5cm of kleiner, n=94) ICC 0.44, groep 2 (Barrett lengte groter dan 5 cm, n=93) ICC 0.83. Hoe kan ik laten zien dat deze 2 ICC's significant verschillend zijn?
 
Je zou kunnen zeggen dat deze twee ICC's onafhankelijk van elkaar zijn en ze dus m.b.v. een t-test vergelijken. Je hebt neem ik aan ook de SE's van de twee schattingen? In [http://www.openepi.com/OE2.3/menu/openEpiMenu.htm OpenEpi] zit een handig menu'tje om deze test te doen als je gemiddelde, groepsgrootte en SE weet. Let er wel op dat de ICC sterk afhankelijk is van de spreiding die er überhaupt tussen personen is. Dat verklaart ook waarom de ICC in de totale groep veel hoger is dan in de 2 groepen afzonderlijk. In de totale groep is veel meer spreiding, dus is de spreiding tussen de 2 endoscopisten relatief klein t.o.v. de totale spreiding. Ik kan me voorstellen dat een zelfde iets aan de hand is bij de 2 groepen, dat wil zeggen dat de aanwezige spreiding bij de >5 groep groter is dan bij de <5 groep? Denk goed of de ICC wel een geschikte maat is voor jouw vergelijking.
 
==Referenties==
*[http://wynneconsult.com/root/Assoc/Intr341.htm Kennisbasis - pagina intraclass correlatiecoefficient] Goede uitleg over de ICC, inclusief meerdere voorbeelden en de formules voor hoe de ICC zelf uit te rekenen in verschillende situaties.
*[http://www.ncbi.nlm.nih.gov/pubmed/18839484 Shrout, P. E., and J. L. Fleiss. 1979. Intraclass correlations: Uses in assessing reliability. Psychological Bulletin, 86:, 420-428.]
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3402032/ Hallgren KA. Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial. Tutorials in quantitative methods forpsychology. 2012;8(1):23-34.]
*Cicchetti DV. Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment. 1994;6(4):284–290.
 
{{onderschrift}}

Latest revision as of 16:10, 21 April 2022

Auteur dr. ir. N. van Geloven
Co-Auteur Prof.dr. P.M.M. Bossuyt
auteurschap op deze site

De intraclass correlatiecoëfficiënt (ICC) wordt gebruikt voor het kwantificeren van de mate van overeenstemming tussen twee (of meer) op (semi-)continue schaal herhaaldelijk gemeten waardes. Bijvoorbeeld als bekeken wordt in hoeverre radiologen bij het beoordelen van een MRI van het brein een gelijk aantal microbloedingen detecteren. De ICC is een generalisatie van Cohen's kappa (waarbij overeenstemming bij de beoordeling van een dichotome of ordinale waarde bekeken wordt).

Waarom is een 'gewone' correlatiecoëfficiënt niet voldoende voor het beoordelen van overeenstemming?

Bij het analyseren van de overeenstemming tussen twee continue beoordelingen is het goed om te starten met het maken van een scatterplot. De reeks waarnemingen behorend bij de eerste beoordeling wordt dan uitgezet tegen de tweede reeks waarnemingen. Op basis van de scatterplot kan een eerste uitspraak gedaan worden over de mate van samenhang tussen de twee beoordelingen. Daarbij kan ook een correlatiecoëfficiënt uitgerekend worden. Echter, een goede correlatiecoëfficiënt is geen verzekering voor een goede overeenstemming. Stel de eerste beoordeling van een reeks van 10 patiënten levert de volgende waardes op: 11, 13, 10, 15, 18, 13, 14, 15, 20, 12 en de tweede beoordeling levert de getallen: 21, 23, 20, 25, 28, 23, 24, 25, 30, 22. De twee reeksen zijn perfect gecorreleerd (met een correlatiecoëfficiënt van 1). Maar er is hier geen strikte overeenstemming. De tweede reeks scoort namelijk structureel 10 hoger dan de eerste. Het is daarom verstandig om na het kijken naar de scatterplot en de 'gewone' correlatiecoëfficiënt ook een ICC te berekenen. Bij het kwantificeren van overeenstemming tussen meer dan twee beoordelaars is een gewone correlatiecoëfficiënt direct ongeschikt.

Zie ook het artikel van Bland and Altman voor meer voorbeelden van 'inappropriate' gebruik van een correlatiecoëfficiënt bij het analyseren van overeenstemming.

Waar vind ik de ICC in SPSS?

Je kunt de ICC uitrekenen met SPSS. Ga daarvoor naar Analyze -> Scale -> Reliablity Analysis. Vink onder 'Statistics...' de Intraclass correlation coefficient aan. Let op dat je een geschikt model en type kiest (zie onder) en dat de data in goede opzet staan. De dataopzet in een studie waarbij 3 raters verschillende subjects scoren is als volgt:

rater1 rater2 rater3
score subject 1 score subject 1 score subject 1
score subject 2 score subject 2 score subject 2
score subject 3 score subject 3 score subject 3
etc. etc. etc.

Welk model moet ik gebruiken voor de berekening van mijn ICC?

Er zijn 3 modellen die in SPSS gebruikt kunnen worden voor het berekenen van de ICC: Two Way Mixed, Two Way Random en One Way Random

Wanneer gebruik ik Two Way Mixed?

Het Two Way Mixed model gaat ervan uit dat er een vast aantal beoordelaars zijn die een sample van alle patiënten beoordelen. Dit is bijvoorbeeld het geval als dezelfde samples een keer handmatig en een keer computergestuurd worden afgelezen. We zijn daarbij geïnteresseerd in de overeenstemming tussen deze twee specifieke technieken en willen dit niet extrapoleren naar een derde techniek of iets dergelijks.

Wanneer gebruik ik Two Way Random?

Het Two Way Random model gaat ervan uit dat de beoordelaars niet vast zijn, maar ook een random sample zijn van alle mogelijke beoordelaars. Dit is bijvoorbeeld het geval als er bij patiënten twee maal de temperatuur gemeten wordt. We zijn daarbij geïnteresseerd in de overeenstemming tussen de twee herhaalde metingen. Maar we willen hiermee ook iets kunnen zeggen over toekomstige herhalingen van temperatuurmetingen.

Wanneer gebruik ik One Way Random?

Het One Way Random model gaat ervan uit dat de beoordelaars een random sample zijn van alle beoordelaars, maar dat nu alle patiënten (of in het algemeen targets) beoordeeld worden. Omdat er in medisch onderzoek meestal gewerkt wordt met een sample uit de totale patiëntenpopulatie, wordt dit model daarbij niet vaak gebruikt.

Heb ik het juiste model gekozen?

Ik heb een vraag over de berekening van de ICC voor het beoordelen van de mate van overeenstemming tussen twee observatoren. 2 observatoren hebben metingen gedaan van de temperatuur van patiënten. Totaal zijn 8 metingen gelijktijdig uitgevoerd en daarna zijn er 32 metingen apart gedaan. We hebben deze eerste 8 metingen gezamenlijk laten uitvoeren om te bepalen of er voldoende overeenstemming is in het meten. Nu heb ik voor het bepalen van de ICC gebruik gemaakt van een one-way random model. Mijn vraag is, is dit correct?

De 8 metingen kunnen gezien worden als een sample van alle (40) metingen. Bij een one way random model ga je ervan uit dat je alle metingen (dubbel) hebt gemeten. Dat is hier niet het geval. Dat brengt de keuze terug naar two way random of two way mixed. Dat hangt ervan af. Als je met deze ICC puur iets wilt zeggen over in hoeverre deze twee observatoren voldoende overeenstemming hadden, dan gebruik je two way mixed. Als je de uitspraak wilt generaliseren naar 2 beoordelaars in het algemeen (ook andere beoordelaars) dan gebruik je two way random.

Welk type moet ik gebruiken voor de berekening van mijn ICC?

Er zijn in SPSS twee typen die gebruikt kunnen worden bij de berekening van een ICC: Consistency en Absolute Agreement. Bij 'consistency' ben je geïnteresseerd in een sterke samenhang tussen de beoordelingen, waarbij structurele verschillen tussen beoordelaars minder van belang zijn. Als de interesse ligt in precieze overeenkomst, dan wordt er gekozen voor de optie 'absolute agreement'.

Moet ik de 'single measures' of 'average measures' ICC uit mijn output gebruiken?

Ik heb de ICC berekend voor verschillende parameters en nu krijg ik bij de output een ICC voor single measures en één voor average measures. Welke ICC moet ik nemen?

Je bent meestal geïnteresseerd in de 'single measures' uitkomst. De average measure is van belang als je ook daadwerkelijk het gemiddelde van de twee methodes zou willen gebruiken als beoordeling.

Hoe kan ik de ICC interpreteren?

De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de kappa coëfficiënt geclassificeerd.

Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patiënt / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patiëntverschillen t.o.v. totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie (zie ook de volgende vraag).

Hoe kan ik 2 ICCs met elkaar vergelijken?

187 patiënten zijn 2x gezien door endoscopisten die de lengte van het Barrett hebben geschat: ICC 0.91. Vervolgens heb ik 2 groepen gemaakt op basis van Barrett slokdarm lengte groep I (Barrett 5cm of kleiner, n=94) ICC 0.44, groep 2 (Barrett lengte groter dan 5 cm, n=93) ICC 0.83. Hoe kan ik laten zien dat deze 2 ICC's significant verschillend zijn?

Je zou kunnen zeggen dat deze twee ICC's onafhankelijk van elkaar zijn en ze dus m.b.v. een t-test vergelijken. Je hebt neem ik aan ook de SE's van de twee schattingen? In OpenEpi zit een handig menu'tje om deze test te doen als je gemiddelde, groepsgrootte en SE weet. Let er wel op dat de ICC sterk afhankelijk is van de spreiding die er überhaupt tussen personen is. Dat verklaart ook waarom de ICC in de totale groep veel hoger is dan in de 2 groepen afzonderlijk. In de totale groep is veel meer spreiding, dus is de spreiding tussen de 2 endoscopisten relatief klein t.o.v. de totale spreiding. Ik kan me voorstellen dat een zelfde iets aan de hand is bij de 2 groepen, dat wil zeggen dat de aanwezige spreiding bij de >5 groep groter is dan bij de <5 groep? Denk goed of de ICC wel een geschikte maat is voor jouw vergelijking.

Referenties

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC kunnen via intranet ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk.