Intraclass correlatie coefficient: Difference between revisions
No edit summary |
|||
Line 38: | Line 38: | ||
De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de [[Cohen's_kappa#Hoe_interpreteer_ik_Cohen.E2.80.99s_Kappa|kappa coëfficiënt]] geclassificeerd. | De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de [[Cohen's_kappa#Hoe_interpreteer_ik_Cohen.E2.80.99s_Kappa|kappa coëfficiënt]] geclassificeerd. | ||
Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patient / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patientverschillen tov totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie. | Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patient / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patientverschillen tov totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie (zie ook de volgende vraag). | ||
==Hoe kan ik 2 ICCs met elkaar vergelijken?== | |||
''187 pt zijn 2x gezien door endoscopisten die de lengte van het Barrett hebben geschat: ICC 0.91. Vervolgens heb ik 2 groepen gemaakt op basis van Barrett slokdarm lengte groep I (Barrett 5cm of kleiner, n=94) ICC 0.44, groep 2 (Barrett lengte groter dan 5 cm, n=93) ICC 0.83. Hoe kan ik laten zien dat deze 2 ICC's significant verschillend zijn? | |||
Je zou kunnen zeggen dat deze twee ICC's onafhankelijk van elkaar zijn en ze dus mbv een t-test vergelijken. Je hebt neem ik aan ook de SE's van de twee schattingen? In [http://www.openepi.com/OE2.3/menu/openEpiMenu.htm OpenEpi] zit een handig menu'tje om deze test te doen als je gemiddelde, groepsgrootte en SE weet. Let er wel op dat de ICC sterk afhankelijk is van de spreiding die er uberhaupt tussen personen is. Dat verklaart ook waarom de ICC in de totale groep veel hoger is dan in de 2 groepen afzonderlijk. In de totale groep is veel meer spreiding, dus is de spreiding tussen de 2 endoscopisten relatief klein tov de totale spreiding. Ik kan me voorstellen dat een zelfde iets aan de hand is bij de 2 groepen, dat wil zeggen dat de aanwezige spreiding bij de >5 groep groter is dan bij de <5 groep? Denk goed of de ICC wel een geschikte maat is voor jouw vergelijking. | |||
==Referenties== | ==Referenties== |
Revision as of 17:24, 12 January 2011
Auteur | ir. N. van Geloven | |
Co-Auteur | Prof.dr. P.M.M. Bossuyt | |
auteurschap op deze site |
De intraclass correlatie coëfficiënt (ICC) wordt gebruikt voor het kwantificeren van de mate van overeenstemming tussen twee (of meer) op (semi-)continue schaal herhaaldelijk gemeten waardes. Bijvoorbeeld als bekeken wordt in hoeverre radiologen bij het beoordelen van een MRI van het brein een gelijk aantal microbloedingen detecteren. De ICC is een generalisatie van Cohen's kappa (waarbij overeenstemming bij de beoordeling van een dichotome of ordinale waarde bekeken wordt).
Waarom is een 'gewone' correlatiecoëfficiënt niet voldoende voor het beoordelen van overeenstemming?
Bij het analyseren van de overeenstemming tussen twee continue beoordelingen is het goed om te starten met het maken van een scatterplot. De reeks waarnemingen behorend bij de eerste beoordeling wordt dan uitgezet tegen de tweede reeks waarnemingen. Op basis van de scatterplot kan een eerste uitspraak gedaan worden over de mate van samenhang tussen de twee beoordelingen. Daarbij kan ook een correlatiecoëfficiënt uitgerekend worden. Echter, een goede correlatiecoëfficiënt is geen verzekering voor een goede overeenstemming. Stel de eerste beoordeling van een reeks van 10 patiënten levert de volgende waardes op: 11, 13, 10, 15, 18, 13, 14, 15, 20, 12 en de tweede beoordeling levert de getallen: 21, 23, 20, 25, 28, 23, 24, 25, 30, 22. De twee reeksen zijn perfect gecorreleerd (met een correlatiecoëfficiënt van 1). Maar er is hier geen stricte overeenstemming. De tweede reeks scoort namelijk structureel 10 hoger dan de eerste. Het is daarom verstandig om na het kijken naar de scatterplot en de 'gewone' correlatiecoëfficiënt ook een ICC te berekenen. Bij het kwantificeren van overeenstemming tussen meer dan twee beoordelaars is een gewone correlatiecoëfficiënt direct ongeschikt.
Zie ook het artikel van Bland and Altman voor meer voorbeelden van 'inappropriate' gebruik van een correlatiecoefficient bij het analyseren van agreement.
Waar vind ik de ICC in SPSS?
Je kunt de ICC uitrekenen met SPSS. Ga daarvoor naar Analyze -> Scale -> Reliablity Analysis. Vink onder 'Statistics...' de Intraclass correlation coefficient aan. Let op dat je een geschikt model en type kiest (zie onder).
Welk model moet ik gebruiken voor de berekening van mijn ICC?
Er zijn 3 modellen die in SPSS gebruikt kunnen worden voor het berekenen van de ICC: Two Way Mixed, Two Way Random en One Way Random
Wanneer gebruik ik Two Way Mixed?
Het Two Way Mixed model gaat ervan uit dat er een vast aantal beoordelaars zijn die een sample van alle patiënten beoordelen. Dit is bijvoorbeeld het geval als dezelfde samples een keer handmatig en een keer computergestuurd worden afgelezen. We zijn daarbij geïnteresseerd in de overeenstemming tussen deze twee specifieke technieken en willen dit niet extrapoleren naar een derde techniek oid.
Wanneer gebruik ik Two Way Random?
Het Two Way Random model gaat ervan uit dat de beoordelaars niet vast zijn, maar ook een random sample zijn van alle mogelijke beoordelaars. Dit is bijvoorbeeld het geval als er bij patiënten twee maal de temperatuur gemeten wordt. We zijn daarbij geïnteresseerd in de overeenstemming tussen de twee herhaalde metingen. Maar we willen hiermee ook iets kunnen zeggen over toekomstige herhalingen van temperatuurmetingen.
Wanneer gebruik ik One Way Random?
Het One Way Random model gaat ervan uit dat de beoordelaars een random sample zijn van alle beoordelaars, maar dat nu alle patiënten (of in het algemeen targets) beoordeeld worden. Omdat er in medisch onderzoek meestal gewerkt wordt met een sample uit de totale patiëntenpopulatie, wordt dit model daarbij niet vaak gebruikt.
Welk type moet ik gebruiken voor de berekening van mijn ICC?
Er zijn in SPSS twee typen die gebruikt kunnen worden bij de berekening van een ICC: Consistency en Absolute Agreement. Bij 'consistency' ben je geïnteresseerd in een sterke samenhang tussen de beoordelingen, waarbij structurele verschillen tussen beoordelaars minder van belang zijn. Als de interesse ligt in precieze overeenkomst, dan wordt er gekozen voor de optie 'absolute agreement'.
Moet ik de 'single measures' of 'average measures' ICC uit mijn output gebruiken?
Ik heb de ICC berekend voor verschillende parameters en nu krijg ik bij de output een ICC voor single measures en één voor average measures. Welke ICC moet ik nemen?
Je bent meestal geïnteresseerd in de 'single measures' uitkomst. De average measure is van belang als je ook daadwerkelijk het gemiddelde van de twee methodes zou willen gebruiken als beoordeling. Zie de reliability pagina op Statnotes voor een uitgebreide uitleg over beide.
Hoe kan ik de ICC interpreteren?
De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de kappa coëfficiënt geclassificeerd.
Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patient / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patientverschillen tov totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie (zie ook de volgende vraag).
Hoe kan ik 2 ICCs met elkaar vergelijken?
187 pt zijn 2x gezien door endoscopisten die de lengte van het Barrett hebben geschat: ICC 0.91. Vervolgens heb ik 2 groepen gemaakt op basis van Barrett slokdarm lengte groep I (Barrett 5cm of kleiner, n=94) ICC 0.44, groep 2 (Barrett lengte groter dan 5 cm, n=93) ICC 0.83. Hoe kan ik laten zien dat deze 2 ICC's significant verschillend zijn?
Je zou kunnen zeggen dat deze twee ICC's onafhankelijk van elkaar zijn en ze dus mbv een t-test vergelijken. Je hebt neem ik aan ook de SE's van de twee schattingen? In OpenEpi zit een handig menu'tje om deze test te doen als je gemiddelde, groepsgrootte en SE weet. Let er wel op dat de ICC sterk afhankelijk is van de spreiding die er uberhaupt tussen personen is. Dat verklaart ook waarom de ICC in de totale groep veel hoger is dan in de 2 groepen afzonderlijk. In de totale groep is veel meer spreiding, dus is de spreiding tussen de 2 endoscopisten relatief klein tov de totale spreiding. Ik kan me voorstellen dat een zelfde iets aan de hand is bij de 2 groepen, dat wil zeggen dat de aanwezige spreiding bij de >5 groep groter is dan bij de <5 groep? Denk goed of de ICC wel een geschikte maat is voor jouw vergelijking.
Referenties
- Statnotes - pagina Reliability Goede uitleg over de ICC, inclusief hoe te specificeren in SPSS.
- Kennisbasis - pagina intraclass correlatiecoefficient Goede uitleg over de ICC, inclusief meerdere voorbeelden en de formules voor hoe de ICC zelf uit te rekenen in verschillende situaties.
- Shrout, P. E., and J. L. Fleiss. 1979. Intraclass correlations: Uses in assessing reliability. Psychological Bulletin, 86:, 420-428.
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.