Herhaalde metingen: Difference between revisions
Line 36: | Line 36: | ||
=mixed models= | =mixed models= | ||
Het is zinvol om een onderscheid te maken tussen | |||
#onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en | |||
#onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten. | |||
== | ====Situatie 1==== | ||
Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard [[lineaire regressie| lineair model]]. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit: | |||
<math>\begin{equation*} | <math>\begin{equation*} | ||
Y_{i,t} & = & a + b \times X_{i,t} + \epsilon_{i,t} \\ | |||
\ | |||
\end{equation*}</math> | \end{equation*}</math> | ||
waarbij <math>Y_{i,t}</math> de meting van de <math>i^{de}</math> patient is op het <math>t^{de}</math> tijdstip (conditie); <math>X_{i,t}</math> van de covariaat op dat moment en <math>\epsilon_{i,j}</math> is de afstand van de datapunten tot de regressielijn. Bij een standaard [[lineaire regressie]] zijn al deze afstanden onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen. | |||
Bij een mixed model wordt rekening gehouden met de [[correlatie| correlaties]] tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn: | |||
*compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon; | |||
*unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald; | |||
Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past. | |||
== | ====Situatie 2==== | ||
Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het [[lineaire regressie| lineaire model]] op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben van de regressielijn. Hierbij maakt het niet uit hoeveel en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm zou dit er als volgt uit zien: | |||
<math>\begin{equation*} | |||
Y_{i,t} & = & (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} \\ | |||
\end{equation*}</math> | |||
waarbij de nu toegevoegde <math>\alpha_i</math> en <math>\beta_i</math> de specifieke afwijkingen van patient <math>i</math> t.o.v. de regressielijn voorstellen. De <math>\alpha_i</math> is de afwijking van de intercept van patient <math>i</math> ten opzichte van de gemiddelde intercept <math>a</math>. De <math>\beta_i</math> is de afwijking van de helling (''slope'') van patient <math>i</math> ten opzichte van de gemiddelde helling <math>b</math> van de regressielijn. De <math>\alpha's</math> en <math>\beta's</math> worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat. | |||
De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data. | |||
== Waar vind ik linear mixed models in SPSS?== | == Waar vind ik linear mixed models in SPSS?== |
Revision as of 11:14, 26 May 2009
Wat zijn herhaalde metingen?
Herhaalde metingen zijn meerdere metingen van dezelfde variabele bij dezelfde persoon/patient, proefdier, of algemeen geformuleerd, dezelfde observationele eenheid. Voorbeelden:
- herhaling in de tijd: als patienten herhaaldelijk in een follow-up periode worden gemeten (of: voor en na een behandeling);
- meerdere locaties: metingen op meerdere locaties in het lichaam van dezelfde persoon (linker en rechter oog, meerdere coupes in een biopt, meerdere slices in een MRI beeld);
- meerdere condities: als dezelfde patient onder twee of meer verschillende condities (bijv. behandelingen) wordt gemeten;
- herhalingen tbv nauwkeurigheid: als een meting een grote variatie binnen een persoon heeft (of een grote meetfout) dan kan het zinvol zijn om een aantal aparte metingen te doen.
Waarom kun je bij herhaalde metingen geen standaard regressie model gebruiken?
Bij een standaard regressie model wordt aangenomen dat alle metingen onafhankelijk van elkaar zijn. Bij herhaalde metingen is het waarschijnlijk dat twee metingen van dezelfde persoon meer op elkaar lijken dan twee metingen van verschillende personen. Als dat zo is, dan zijn de metingen binnen dezelfde persoon niet onafhankelijk. Als bij herhaalde metingen geen rekening wordt gehouden met deze afhankelijkheid, dan zijn i.h.a. de standaard fouten en de p-waardes (onterecht!) te klein. Bovendien kan de uitkomst van de regressie analyse volkomen fout zijn, zoals geillustreerd in het plaatje dat hieronder staat. In dit figuurtje worden de observaties van 6 personen getoond en elke persoon laat een duidelijk stijgende trend zien. Als de afhankelijkheid van de waarnemingen genegeerd wordt, dan is de best passende regressie lijn door de totale punten-wolk de gele dalende lijn en deze geeft geen correcte weergave van de trend per patient.
Welke analyses zijn er mogelijk voor herhaalde metingen?
- Simpele methodes: Soms kunnen herhaalde metingen samengevat worden in een enkele relevante maat. Je kunt bijvoorbeeld de meting van slechts een tijdpunt gebruiken, de verandering tussen twee meetpunten gebruiken, een samenvattende maat zoals het gemiddelde of de area under the curve.
- Geavanceerde methodes: Methodes die wel herhaalde metingen aankunnen zijn o.a. mixed models, repeated measurements ANOVA en Generalized Estimation Equations (GEE).
De simpele methodes gebruiken maar een deel van de verzamelde informatie en dat levert vaak minder onderscheidingsvermogen (power) op. Repeated measurements ANOVA is een specifieke variant van mixed-models, maar is alleen beschikbaar voor continue normaal verdeelde afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patienten. Mixed-models en GEE-modellen zijn wat lastiger te specificeren, maar zijn flexibeler en zijn beschikbaar voor zowel continue normaal verdeelde afhankelijke variabelen, als voor bijv dichotome afhankelijke variabelen.
area under the curve
Wat is een area under the curve en wanneer kun je die gebruiken?
Wanneer er op meerdere tijdstippen metingen zijn van een patient, kun je die samenvatten in een "area under the curve". Hierbij bereken je per patient de oppervlakte onder de gemeten punten in de tijd. Deze samenvattende maat gebruik je vervolgens voor de analyse.
Hoe bereken ik met SPSS een area under the curve bij herhaalde metingen?
Ik wil graag van een bepaalde meting in de tijd, op verschillende tijdstippen gemeten, de 'area under the curve' bepalen. Ik kom er met SPSS niet uit. Ik moet er nl een stuk of 300 bepalen... heeft u nog een advies?
Je kunt de volgende syntax gebruiken, deze rekent per patient een area under the curve uit. Bovenaan het document staat beschreven hoe je de variabelen in SPSS moet hebben staan.
mixed models
Het is zinvol om een onderscheid te maken tussen
- onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
- onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten.
Situatie 1
Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard lineair model. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \begin{equation*} Y_{i,t} & = & a + b \times X_{i,t} + \epsilon_{i,t} \\ \end{equation*}}
waarbij de meting van de patient is op het tijdstip (conditie); van de covariaat op dat moment en is de afstand van de datapunten tot de regressielijn. Bij een standaard lineaire regressie zijn al deze afstanden onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen. Bij een mixed model wordt rekening gehouden met de correlaties tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:
- compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
- unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;
Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.
Situatie 2
Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het lineaire model op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben van de regressielijn. Hierbij maakt het niet uit hoeveel en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm zou dit er als volgt uit zien:
Failed to parse (syntax error): {\displaystyle \begin{equation*} Y_{i,t} & = & (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} \\ \end{equation*}}
waarbij de nu toegevoegde en de specifieke afwijkingen van patient t.o.v. de regressielijn voorstellen. De is de afwijking van de intercept van patient ten opzichte van de gemiddelde intercept . De is de afwijking van de helling (slope) van patient ten opzichte van de gemiddelde helling van de regressielijn. De en worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat. De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.
Waar vind ik linear mixed models in SPSS?
Je vindt de linear mixed models in SPSS 16 onder Analyze->Mixed models->Linear. In SPSS 16 is er alleen nog een mixed model beschikbaar voor lineaire uitkomsten. In andere pakketten zoals R en SAS zijn er ook mixed modellen beschikbaar voor bijvoorbeeld dichotome uitkomstmaten.
Voorbeeld: hoe analyseer ik met een mixed model een effect in de tijd?
Ik onderzoek een groep patienten die een operatie hebben ondergaan. We zijn geinteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 mnd daarna (dit klopt ook als je de data in een barplot zet). In eerste instantie heb ik de ANOVA for repeated measures gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn syntax) te doen. Mijn vragen hierover:
1. Heb ik de juiste covariance structure gebruikt? (nl. AR1)
2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?
3. Hoe geef de resultaten van deze mixed analyse weer?
1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).
2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.
3. In de output vind je onder "fixed effects" een B (beta) die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de betas.
repeated measurements ANOVA
Wanneer kan ik een repeated measurements ANOVA gebruiken?
- geen / niet te veel missings
- vaste covariantie structuur
Waar vind ik de repeated measurements ANOVA in SPSS?
Je vindt de repeated measurements ANOVA in SPSS 16 onder Analyze->General Linear Model->Repeated measures.
Referenties
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.