https://wikistatistiek.amc.nl/api.php?action=feedcontributions&user=M+Wolvers&feedformat=atomWikistatistiek - User contributions [en]2024-03-29T07:04:13ZUser contributionsMediaWiki 1.39.6https://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3497Survival analyse2023-03-07T15:20:48Z<p>M Wolvers: typfoutjes/inconsistenties qua taal</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patiënt tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patiënt, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patiënten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patiënt is gevolgd vanaf het begin van de studie tot aan het eind van de 12-weekse studieperiode. Op dat moment heeft de patiënt het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patiënt trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patiënt start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow-up'. Ook van deze patiënt weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patiënt kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patiënt overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan-Meier-analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan-Meier-analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan-Meier-analyse gebruikt. De Kaplan-Meier-analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patiënten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patiënten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patiënten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patiënten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival status van patiënten, dan zullen patiënten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier-analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen genoemd. <br />
<br />
De basisgedachte achter de Kaplan-Meierprocedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patiënten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patiënten die halverwege de rit gecensureerd raken. Een Kaplan-Meier-analyse resulteert in een 'life table' en een 'survival curve'. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patiënten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patiënten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan-Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan-Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan-Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier-analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log-rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log-rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log-rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief n.a.v. van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan om in ieder geval de plot van de survival curves mede te rapporteren (en niet alleen de log-rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patiënten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (Breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patiënten zijn niet allemaal even lang gevolgd en dus neemt het aantal patiënten in follow up af naarmate de tijd verstrijkt. Kan/mag de Breslow of Tarone-Ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaardtesten, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log-rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan-Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 Kaplan-Meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variabele die duidelijk maakte dat de eerste time-to-event en event zelf sloeg op survival, tweede time-to-event en event zelf op grote amputatie en derde time-to-event en event zelf op kleine amputatie. Invoeren gewoon time-to-event en event status en de nieuwe onderscheidende variabele wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geïnfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geïnteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten d.m.v. analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebruiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur follow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow-up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow-up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier-analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patiënten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met logrank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (= niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patiënten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patiënten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patiënten, nadat ze gecensureerd worden, gelijk is aan patiënten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patiënten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patiënten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsof het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patiënten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patiënten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of in ieder geval langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
''Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variabele aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen m.b.v. de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox-regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survivalanalyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beïnvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox-model boven een Kaplan-Meier-analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox-model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox-model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox-regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards-aanname binnen een Cox-model?==<br />
<br />
Er zijn meerdere manieren om de PH-aanname van een Cox-model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het Cox-model de variabele voor welke je de PH-aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log-minus-log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH-aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log-minus-log-plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld-) residuen<br />
Er kan een formele test gedaan worden m.b.v. Schoenfeldresiduen. Er is geen standaardfunctie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH-aanname kun je ook een tijdsafhankelijk Cox-model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH-aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HR's) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HR's te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox-model?==<br />
''Ik heb een Cox-regressie uitgevoerd met een dichotome uitkomstmaat (wel/geen ontwikkeling van artritis) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald-uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox-regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorische voorspeller eerst bekeken moet worden of de 'overall' toets significant is, dat wil zeggen of de toets die kijkt of het opsplitsen in de 5 categorieën (met 4 df) bijdraagt aan het model significant is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox-regressie doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt deze in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3496Survival analyse2023-03-07T14:19:11Z<p>M Wolvers: /* Hoe test ik de proportional hazards-aanname binnen een Cox-model? */ referentie naar r-script (verwijst naar niet te openen word-document) weggehaald</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards-aanname binnen een Cox-model?==<br />
<br />
Er zijn meerdere manieren om de PH-aanname van een Cox-model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het Cox-model de variabele voor welke je de PH-aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log-minus-log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH-aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log-minus-log-plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld-) residuen<br />
Er kan een formele test gedaan worden m.b.v. Schoenfeldresiduen. Er is geen standaardfunctie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH-aanname kun je ook een tijdsafhankelijk Cox-model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH-aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox-model?==<br />
''Ik heb een Cox-regressie uitgevoerd met een dichotome uitkomstmaat (wel/geen ontwikkeling van artritis) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald-uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox-regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorische voorspeller eerst bekeken moet worden of de 'overall' toets significant is, dat wil zeggen of de toets die kijkt of het opsplitsen in de 5 categorieën (met 4 df) bijdraagt aan het model significant is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=OVERZICHT&diff=3495OVERZICHT2023-03-07T14:12:16Z<p>M Wolvers: </p>
<hr />
<div>{| border ="2" style="width:850px" align="center" cellpadding="8"<br />
! [[Poweranalyse]]!! Toetsen !! Statistische maten<br />
|-<br />
|<br />
*[[Poweranalyse#Wat is een poweranalyse|wat is een poweranalyse]]<br />
*[[Poweranalyse#Wanneer heb ik een power analyse nodig?|wanneer heb ik een poweranalyse nodig]]<br />
*[[Poweranalyse#Welke software is beschikbaar voor power analyse?|welke software is er voor poweranalyse]]<br />
*[[Poweranalyse#Welke informatie heb ik nodig voor een power analyse?|welke informatie heb ik nodig]]<br />
*[[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse?|waar vind ik de informatie]]<br />
*[[Poweranalyse#Kan ik meerdere uitkomstmaten combineren in een poweranalyse?|meerdere uitkomstmaten]]<br />
*[[Poweranalyse#Wanneer is een post hoc poweranalyse zinvol?|post hoc poweranalyses]]<br />
*[[Poweranalyse#Poweranalyse in specifieke onderzoeksdesigns|specifieke onderzoeksdesigns]]<br />
| <br />
*[[Fisher's exact toets]] <br />
*[[Chi-kwadraat toets]]<br />
*[[McNemar toets]]<br />
*[[T-toets]]<br />
*[[Mann-Whitney U toets]]<br />
*[[Wilcoxon signed rank toets]]<br />
*[[one-way ANOVA]]<br />
*[[Kruskal Wallis]]<br />
*[[Friedman toets]]<br />
*[[Tekentoets]]<br />
*[[Cochran's Q toets]]<br />
| <br />
*[[gemiddelde en mediaan]]<br />
*[[standaardfout/standard error]]<br />
*[[betrouwbaarheidsinterval]]<br />
*[[associatiematen 2x2 tabel]]<br />
*[[z-scores]]<br />
*[[effect maten]]<br />
*[[model fit maten]]<br />
*[[statistiek rapporteren]]<br />
|-<br />
! Regressieanalyse!! [[Herhaalde metingen]]!! [[Survival analyse]]<br />
|-<br />
|<br />
<br />
*[[lineaire regressie]]<br />
*[[logistische regressie]]<br />
*[[multivariabele regressie]]<br />
*[[ANCOVA]]<br />
*[[multinomiale logistische regressie]]<br />
*[[ordinale logistische regressie]]<br />
*[[risicoscores gebaseerd op regressiemodellen]]<br />
| <br />
*[[repeated measures ANOVA]]<br />
*[[generalized estimating equations]]<br />
*[[mixed effects modellen]]<br />
| <br />
*[[Survival analyse#Kaplan Meier analyse|Kaplan Meier]]<br />
*[[Survival analyse#Cox regressie|Cox regressie]]<br />
*[[competing risk analyse]]<br />
|-<br />
! [[Correlatie]]!! Studieontwerp!! Overig<br />
|-<br />
|<br />
*[[Correlatie#Pearson's r|Pearson's r]]<br />
*[[Correlatie#Spearman’s rho|Spearman's rho]]<br />
*[[Cohen's kappa]]<br />
*[[intraclass correlatie coefficient]]<br />
| <br />
*[[observationeel onderzoek]]<br />
*[[diagnostisch onderzoek]]<br />
*[[systematische reviews]]<br />
*[[meta-analyse]]<br />
*[[equivalentie design]]<br />
| <br />
*[[interimanalyse]]<br />
*[[matchen]]<br />
*[[multiple testing]]<br />
*[[missing values]]<br />
*[[outliers]]<br />
*[[randomiseren]]<br />
*[[statistische software]]<br />
*[[grafieken]]<br />
|-<br />
|}<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
<br />
Klaar met lezen? Je kunt naar de pagina [[KEUZE TOETS]] gaan voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. De helpdesk statistiek biedt statistische ondersteuning aan onderzoekers van Amsterdam UMC, locatie AMC, bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van Amsterdam UMC, locatie AMC kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] statistische ondersteuning aanvragen.<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Multiple_testing&diff=3494Multiple testing2023-01-11T15:48:48Z<p>M Wolvers: /* Referenties */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr.ir. N van Geloven]]<br />
|coauthor= <br />
}}<br />
De term multiple testing wordt gebruikt voor het uitvoeren van meerdere statistische toetsen op dezelfde dataset. Gevaar van multiple testing is dat je bij het doen van veel toetsen vaker op basis van toeval een verschil zult vinden. Je kunt corrigeren voor multiple testing door een strenger significantieniveau aan te houden (<0.05). <br />
<br />
== Wanneer moet ik corrigeren voor multiple testing? ==<br />
<br />
Er zijn geen vaste regels voor wanneer je wel of niet moet corrigeren. Corrigeren is verstandig, omdat je daarmee te kans kleiner maakt dat je ten onrechte de nulhypothese verwerpt en daarmee ten onrechte een effect aanwijst (type I fout). Bij 20 vergelijkingen tussen groepen verwacht je bij een significatieniveau van 0.05 op basis van puur toeval 1 significant verschil te vinden. <br />
<br />
Criteria om wel of niet te corrigeren kunnen zijn:<br />
<br />
*De fase van het onderzoek. Er wordt wel eens geargumenteerd dat meer hypothetiserend onderzoek niet hoeft te corrigeren, terwijl bijvoorbeeld fase 3 onderzoek dat zeker moet doen. Wanneer het onderzoek nog explorerend is zal het onterecht aanwijzen van een effect leiden tot het uitvoeren van meer onderzoek hiernaar. Dit is een minder ernstig gevolg dan het op de markt brengen van een ten onrechte als effectief bestempeld middel.<br />
*Het aantal testen dat je uitvoert. Bij het vergelijken van bijvoorbeeld 3 groepen zal er niet gecorrigeerd hoeven worden. In de genetica waar duizenden mogelijke mutaties getest worden wel.<br />
*In hoeverre was het geobserveerde effect van te voren verwacht? Indien een duidelijk gehypothetiseerde vraagstelling getest wordt, zal er minder snel gewezen worden op de fout positieve kans dan wanneer er lukraak alles wat voorhanden is getest wordt.<br />
<br />
== Hoe kan ik corrigeren met de Bonferroni methode? ==<br />
<br />
''Voor een onderzoek naar de betrouwbaarheid van het endoscopisch meten van een Barrett slokdarm heb ik multiple testen gedaan waarbij ik bijv de absolute overeenstemming tussen 2 endoscopisten van korte Barrett slokdarmen met lange Barrett slokdarmen vergelijk, expert endoscopisten met non-expert endoscopisten, enz. Allemaal verschillende vergelijkingen als secundaire eindpunten. In totaal gaat het om 24 vergelijkingen. Ik zou graag willen corrigeren voor het feit dat ik multiple testen doe met de Bonferroni methode. Klopt het (voor dit geval dan) dat ik na de Bonferroni correctie een alfa van 0.05/24=0.002 moet aanhouden? En dat ik dus alle p waarden boven de 0.002 als niet significant moet beschouwen?<br />
<br />
Dit klopt.<br />
<br />
== Mag ik een Bonferroni correctie toepassen als ik een non-parametrische test hebt gedaan? ==<br />
<br />
''Mijn analyse heeft betrekking op de vergelijking van plasmawaarden van gezonde vrijwilligers en patienten. In mijn congres-abstract heb ik het nu als volgt verwoord: "Plasma concentrations are provided as median (95% CI). Statistical analysis was done by Mann-Whitney U. p < 0.05 was considered significant (p < 0.0029 after Bonferroni correction)."<br />
<br />
De bonferroni correctie is niet specifiek voor een parametrische test. Je kunt deze dus gebruiken.<br />
<br />
== Hoe kan ik corrigeren met minder strenge methoden dan de Bonferroni aanpassing? ==<br />
<br />
''Ik heb een vraag over corrigeren voor multiple testing. Ik heb hiervoor in een artikel de Bonferronimethode gebruikt, significantie level gedeeld door aantal testen. De reviewer van dit artikel vindt dat iets te drastisch en stelt de Holm's or Hochberg's methode voor (mij onbekend). Hoe kan ik deze correctiemethodes uitvoeren?<br />
<br />
De Holm's methode is simpel met de hand (of in excel oid) te doen. Het komt erop neer dat je de laagste p-waarde vermenigvuldigt met het aantal testen, de een na laagste met het aantal testen min een, twee na laagste p-waarde met aantal testen min twee etc. Equivalent kun je ook zeggen dat je het gehanteerde significantieniveau alpha voor de laagste p-waarde deelt door het aantal testen, voor de een na laagste p-waarde deelt door het aantal testen min een etc. Je ziet het ook [http://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method hier] uitgelegd.<br />
<br />
Een voorbeeld van een meer geavanceerde methode is de methode van Benjamini en Hochberg. Deze methode probeert het aandeel van vals positieven onder controle te houden. Deze (en een boel andere) aangepaste p-waardes zijn redelijk makkelijk te verkrijgen via de mt.rawp2adjp functie in de [[statistische software#R|R]] package multtest. Aan deze functie geef je de ruwe p-waardes en krijg je de gecorrigeerde terug. Zie ook de [http://www.bioconductor.org/packages/release/bioc/manuals/multtest/man/multtest.pdf multtest manual].<br />
<br />
== Referenties ==<br />
* [http://www.jstor.org/stable/20065622 No adjustments are needed for multiple comparisons. Epidemiology, Rothman, K., Vol. 1, No. 1 (1990), pp. 43-46] <br />
* [http://www.biomedcentral.com/content/pdf/1471-2288-2-8.pdf Do multiple outcome measures require p-value adjustment? Feise, R.J., BMC Medical Research Methodology 2002, 2:8] <br />
* [http://www.stat.purdue.edu/~doerge/BIOINFORM.D/FALL06/Benjamini%20and%20Y%20FDR.pdf Controlling the false discovery rate: a practical and powerful approach to multiple testing, Benjamini Y, Hochberg Y, Journal of the Royal Statistical Society, Series B (Methodological), Vol.57, No 1.(1995), 289-300.]<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Meta-analyse&diff=3493Meta-analyse2023-01-11T15:43:00Z<p>M Wolvers: /* Hoe kan ik de resultaten van verschillende studies in mijn scriptie samenvatten? */</p>
<hr />
<div>In een meta-analyse worden resultaten of data van verschillende studies samengevoegd om tot een meer betrouwbare uitspraak te komen <cite>[field2010]</cite>. Als je overweegt om een meta-analyse uit te voeren, is het belangrijk om te beseffen dat je geavanceerd statistische technieken nodig hebt. Het is aan te raden om hiervoor ten minste een [[Cursusmateriaal | inleidende cursus statistiek]] en het liefst ook een geavanceerde cursus of een cursus specifiek gericht op meta-analyse te volgen. <br />
<br />
== Wat is het verschil tussen een meta-analyse en een systematic review? ==<br />
<br />
De term [[Systematische_reviews | systematic review]] heeft vooral van doen met het systematisch literatuur zoeken, beoordelen en beschrijven. Een meta-analyse is een statistische analyse waarbij de, meestal samengevatte, resultaten van verschillende studies gecombineerd worden tot een 'overall' resultaat. Dit heeft dus meer te maken met het doen van bepaalde berekeningen waarbij de resultaten van ieder van de gevonden studies input is. Soms worden de studieresultaten van verschillende studies gecombineerd waarbij er van iedere studie niet de samengevatte resultaten als input dienen, maar waarbij er van iedere studie van iedere patiënt informatie is. Het poolen van dergelijke per-patiënt data wordt aangeduid als een 'individual patient data' meta-analyse. Het tutorial artikel ''How to do a meta-analysis'' <cite>[field2010]</cite> geeft stap voor stap aan hoe je een meta-analyse uitvoert.<br />
<br />
== Welke software kan ik gebruiken om een meta-analyse uit te voeren? ==<br />
Er zijn [[Statistische_software#Meta-analyses | opties in diverse softwarepakketten]] om de berekeningen uit te voeren.<br />
<br />
== Ik wil de prevalentie (1 arm) over verschillende studies poolen, welke software is hiervoor beschikbaar?==<br />
<br />
Je kunt deze analyse uitvoeren in [[Statistische software|R]] gebruik makend van de ''metaprop'' functie uit de package ''meta''. <br />
<br />
== Hoe kan ik de gemiddelde en standaard deviatie van een behandel- en een controlegroep poolen om de gemiddelde en standaard deviatie van beide groepen samen te krijgen?==<br />
<br />
''Voor een review wil ik voor een overzicht van de geconcludeerde artikelen de gemiddelde en standaard deviatie van de gehele studie populatie beschrijven. In de artikelen staat echter vaak een aparte gemiddelde en standaard deviatie voor de behandel- en een voor de controlegroep. Hoe kan ik hiermee een gemiddelde en standaard deviatie van de gehele studiepopulatie berekenen?<br />
<br />
Stel we noemen de gemiddelde en standaard deviatie van de controlegroep <math>m_1</math> en <math>s_1</math> en de mean en standaard deviatie van de behandelgroep <math>m_2</math> en <math>s_2</math>. Zeg dat de controle groep <math>n_1</math> patiënten bevat en de behandelgroep <math>n_2</math>. De gemiddelde van de twee groepen samen <math>m</math> is dan simpel een gewogen gemiddelde van de twee gemiddelden:<br />
<br />
<center><br />
<math>m = \frac{(n_1*m_1+n_2*m_2)}{(n_1+n_2)}</math><br />
</center><br />
<br />
Voor het berekenen van de gepoolde standaarddeviatie is meer nodig. Hiervoor kun je de volgende formules aanhouden. Het is hierbij belangrijk om te weten dat de variantie gelijk is aan de standaard deviatie in het kwadraat, oftwel <math>\operatorname{Var}_{1}=s_{1}^{2}</math> en <math>\operatorname{Var}_{2}=s_{2}^{2}</math>. Dan is<br />
<br />
<center><br />
<math><br />
\operatorname{Var} = \frac{(n_{1}*\operatorname{Var}_{1}+n_{2}*\operatorname{Var}_{2}+n_{1}*(m_{1}-m)^{2}+n_{2}*(m_{2}-m)^{2})}{(n_{1}+n_{2})}<br />
</math><br />
</center><br />
<br />
Tenslotte kan je de standard deviatie van beide groepen samen, <math>s</math> krijgen door de wortel te nemen: <math>s = \sqrt{\operatorname{Var}}</math>.<br />
<br />
== Hoe kan ik twee gepaarde gemiddeldes beschreven in verschillende studies vergelijken? ==<br />
<br />
''Voor een systematic review over een bepaalde chirurgische ingreep heb ik data verzameld uit 5 publicaties. Door deze ingreep neemt de hypertrofie, uitgedrukt in gram, een continue variabele af. In deze 5 studies is de gemiddeld preoperatieve hypertrofie bekend met een standaard deviatie. Ook de gemiddelde hypertrofie na follow-up is bekend, ook met standaard deviatie. Alle studies laten een afname in de gemiddelde hypertrofie zien na de ingreep. Nu vragen wij ons af of het mogelijk is om aan te geven of de afname significant is. Ik denk dat ik de ruwe data zou moeten hebben zodat ik een [[T-toets#gepaarde_t-toets|paired t-test]] kan doen. De ruwe data heb ik echter niet. Hoe kan ik de afname gerapporteerd in de verschillende studies testen?<br />
<br />
Om hier een formele toets op te kunnen doen, is er naast de gemiddelde + sd preoperatief en na follow up inderdaad nog extra informatie nodig. Door het gepaarde design heb je gegevens nodig over de mate van correlatie tussen de voor en de nameting. Je zou dat af kunnen leiden als de artikelen bovenop de genoemde mean en sd’s nog een van de volgende zaken vermelden:<br />
<br />
- gemiddeld verschil tussen voor en na + sd of se<br />
<br />
- of: toetsresultaat, bijv een [[T-toets#gepaarde_t-toets|paired t-test]]: t-statistic of p-waarde is voldoende<br />
<br />
Zie ook [http://handbook.cochrane.org/chapter_16/16_1_3_2_imputing_standard_deviations_for_changes_from_baseline.htm Deel 16.1.3.2 van het Cochrane handboek] voor verdere uitleg. De [[T-toets#ongepaarde_t-toets|paired t-test]] kan inderdaad niet. Een mogelijke analyse zou een meta-analyse zijn op basis van changes + sd’s (die je dus eventueel kunt afleiden uit se’s of gepaarde test statistics).<br />
<br />
==Kan ik p-waardes in plaats van betrouwbaarheidsintervallen vermelden? == <br />
<br />
''Ik ben bezig met een systematic review over het effect van een interventie op een dichotome uitkomst. Ik wil in mijn artikel graag een tabel met odds ratio's van univariate analyses weergeven, maar deze staan niet in alle artikelen van de geïncludeerde studies. De p-waardes staan er wel in. We hebben met de informatie in de artikelen wel de Odd's ratio berekend, maar we missen dan de betrouwbaarheidsintervallen. Is het aan te raden om de p-waarde in plaats van het betrouwbaarheidsinterval weer te geven?''<br />
<br />
Het is beter om een uniforme weergave in een artikel na te streven en dus voor alle studies de betrouwbaarheidsintervallen te vermelden. Als het lukt om de odds ratio’s te berekenen, heb je waarschijnlijk ook voldoende informatie om de betrouwbaarheidsintervallen zelf te berekenen, zie bijvoorbeeld <cite>[morris1988]</cite>.<br />
<br />
==Kan ik medianen poolen? ==<br />
''Voor een review wil ik graag waarden voor mediaan overlevingsduur uit de literatuur poolen. Welke mogelijkheden zijn er hiervoor? Hazard ratio’s worden meestal niet gerapporteerd en een individuele patiënt data meta-analyse is niet mogelijk. Is het omrekenen van de mediaan naar gemiddelde en vervolgens te poolen statistisch correct in deze situatie? Is er een mogelijkheid om de mediaan van de medianen te berekenen?''<br />
<br />
Onderzoekers hebben methoden ontwikkeld om de gemiddelde en standaard deviatie op basis van de mediaan, range en steekproefgrootte te berekenen <cite>[huzo2005]</cite>. Echter in het algemeen wordt de mediaan en interkwartiele range (in plaats van de gemiddelde en standaard deviatie) juist gerapporteerd omdat de uitkomst (hier overlevingsduur) geen normale verdeling volgt. De gemiddelde en standaard deviatie geven dus geen goede weergave van de verdeling. Andere onderzoekers zeggen wel een verbetering hierin te hebben bereikt <cite>[wan2014]</cite>. De kwaliteit van de schattingen lijkt echter ook niet optimaal te zijn bij een niet-normale verdeling.<br />
<br />
Er zijn wel methoden ontwikkeld om gepoolde schatters van medianen te krijgen, maar er wordt ook meteen aangegeven dat ze niet helemaal goed zijn <cite>[michiels2005]</cite>. De technische details zijn in een paper (ref 22 van <cite>[michiels2005]</cite>) dat niet makkelijk verkrijgbaar is. Andere onderzoekers stellen een andere methode voor, maar geven helaas weinig technische details <cite>[zang2013]</cite>. Er is helaas geen eenvoudige manier om op een goede manier hierover een meta-analyse uit te voeren. De eenvoudige optie is om de uitkomsten van de verschillende studies te beschrijven. <br />
<br />
==Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?==<br />
<br />
''Ik ben bezig met een systematic review waarbij een van de uitkomsten kwaliteit van leven is. In vijf artikelen wordt kwaliteit van leven als uitkomstmaat beschreven. Het lastige is dat ze hiervoor verschillende algemene en ziektespecifieke vragenlijsten gebruiken. Kan ik deze op de een of andere manier aan elkaar gelijk stellen en hier toch een meta-analyse van maken?''<br />
<br />
In deze situatie kiest men er vaak voor om de uitkomsten van de verschillende studies om te zetten naar een maat voor effectgrootte, zoals bijvoorbeeld de standardized mean difference (gemiddelde verschil tussen twee groepen gedeeld door de standaard deviatie van dit verschil). Het kan echter moeilijk zijn om een klinische betekenis aan deze maat te geven. Onderzoekers hebben verschillende oplossingen hiervoor gevonden <cite>[thorland2011]</cite>.<br />
<br />
== Hoe kan ik de resultaten van verschillende studies in mijn scriptie samenvatten? ==<br />
<br />
''Ik schrijf een scriptie en heb al een systematische review uitgevoerd. Ik wil nu de resultaten uit de verschillende studies samenvatten, maar ik heb onvoldoende statistische kennis om een meta-analyse uit te voeren. Wat kan ik doen en wat moet ik vooral niet doen?''<br />
<br />
Veel studenten moeten in de loop van hun studie een of meer systematische reviews schrijven. Vaak lopen ze ertegenaan dat ze de resultaten van de verschillende studies willen samenvatten, maar dat hun kennis van de statistiek nog niet voldoende is om een meta-analyse op de juiste manier uit te voeren. Er zijn mogelijkheden, maar ook valkuilen. <br />
<br />
* Je kunt de resultaten van de verschillende studies in de tekst van je scriptie samenvatten. Bij een kleine aantal studies kan dit al voldoende zijn. Bij een grotere aantal studies, kan je naast het beschrijven van alle studies bij elkaar, subgroepen van studies beschrijven. Mogelijk is het voor jouw vraagstelling interessant om de studies op "gezonde" en "zieke" mensen apart te beschrijven. Of geeft het meer inzicht als je de methodologisch gezien "goede" studies apart toelicht.<br />
<br />
* Het kan goed zijn om je resultaten steeds op basis van dezelfde eenheden en aantal cijfers achter de komma te rapporteren. Dit maakt het eenvoudiger voor de lezer om alle informatie te vergelijken. Het is goed mogelijk dat je de resultaten uit sommige studies in andere eenheden zal moeten omzetten. Denk bijvoorbeeld om het omzetten van serum glucose van mg/dL in mmol/L. Gebruik hiervoor een standaard waarde uit het vakgebied en vermeld ook in je methoden hoe je dit hebt gedaan.<br />
<br />
* Vaak vermelden niet alle studies alle informatie die je zoekt. Het is niet erg om aan te geven dat een bepaalde stuk informatie niet beschikbaar is. Maar het is goed om na te gaan of je deze informatie kan achterhalen. Soms wordt meer informatie in supplementary tables bij het betreffende publicatie gepresenteerd of wordt een groep patiënten in een andere publicatie uitgebreider beschreven. Maar het kan ook mogelijk zijn om een waarde, zoals een [[Standaardfout/standard_error | standaardfout, standaarddeviatie]] of [[Betrouwbaarheidsinterval | betrouwbaarheidsinterval]], te herleiden uit [[Meta-analyse#Kan_ik_p-waardes_in_plaats_van_betrouwbaarheidsintervallen_vermelden.3F | andere waarden]] in een publicatie. <br />
<br />
* Bij een grotere aantal studies kan een tabel meer inzicht in de resultaten van de verschillende studies geven. Hieronder zie je een voorbeeld van een tabel waarbij de uitkomst van interesse is de serum glucose bij opname in het ziekenhuis. In dit voorbeeld zijn de studies gerangschikt op het aantal patiënten. Maar het kan ook inzichtelijk zijn om de studies op een andere kenmerk te rangschikken. Je kunt denken aan jaar van publicatie, de score op een instrument om de kwaliteit van de studie in kaart te brengen of een patiëntkenmerk, zoals de proportie patiënten met diabetes of de patiënten wel of niet nuchter bij opname waren. <br />
<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
|-<br />
!colspan="5" align="center"| <br />
!colspan="3" align="center"| Serum glucose (mmol/L) on hospital admission<br />
|-<br />
|width="120"| '''First author and year of publication'''<br />
|width="120"| '''Total number of patients'''<br />
|width="120"| '''Number of patients with diabetes'''<br />
|width="120"| '''Proportion of patients with diabetes'''<br />
|width="120"| '''Fasting on admission'''<br />
|width="120"| '''Mean''' <br />
|width="120"| '''Standard deviation'''<br />
|width="120"| '''95% Confidence interval for the mean'''<br />
|-<br />
|align="left" |Koopman, 2013<br />
|align="right"| 1096<br />
|align="right"| 94<br />
|align="right"| 0.09<br />
|align="left" | Yes<br />
|align="right"| 4.6 <br />
|align="right"| 2.1<br />
|-<br />
|align="left" |Buurman, 2011<br />
|align="right"| 532<br />
|align="right"| 0<br />
|align="right"| 0.00<br />
|align="left" | Yes<br />
|align="right"| 5.5 <br />
|align="right"| 3.0<br />
|-<br />
|align="left" |Smit, 2011<br />
|align="right"| 789<br />
|align="right"| 562<br />
|align="right"| 0.71<br />
|align="left" | Yes<br />
|align="right"| 7.5 <br />
|align="right"| 5.9<br />
|-<br />
|align="left" |Jansen, 2015<br />
|align="right"| 372<br />
|align="right"| 102<br />
|align="right"| 0.27<br />
|align="left" | No<br />
|align="right"| 8.3 <br />
|align="right"| 5.1<br />
|-<br />
|align="left" |van de Berg, 2009<br />
|align="right"| 104<br />
|align="right"| Unknown<br />
|align="right"| Unknown<br />
|align="left" | Unknown<br />
|align="right"| 6.7 <br />
|align="right"| 3.7<br />
|-<br />
|align="left" |Bakker, 1996<br />
|align="right"| 57<br />
|align="right"| 57<br />
|align="right"| 1.00<br />
|align="left" | No<br />
|align="right"| 16.3 <br />
|align="right"| 10.1<br />
|-<br />
|align="left" |Meijer, 1973<br />
|align="right"| 45<br />
|align="right"| Unknown<br />
|align="right"| Unknown<br />
|align="left" | Yes<br />
|align="right"| 4.8 <br />
|align="right"| 1.7<br />
|-<br />
|align="left" |Visser, 1981<br />
|align="right"| 30<br />
|align="right"| 10<br />
|align="right"| 0.33<br />
|align="left" | Unknown<br />
|align="right"| 10.4 <br />
|align="right"| 5.1<br />
|-<br />
|}<br />
<br />
<br />
* Een forest plot kan nog inzichtelijker zijn dan een tabel <cite>[lewis2001]</cite>. Als je geen meta-analyse uitvoert, kan je onderaan geen samenvattende maat geven, maar je kunt wel de betrouwbaarheidsintervallen voor alle studies onder elkaar zetten. Ook hier kan het informatief zijn om de studies op een bepaalde manier in groepen te presenteren. <br />
* Als je geïnteresseerd bent in een associatie tussen twee uitkomsten, bijvoorbeeld de proportie patiënten met diabetes en de gemiddelde bloed glucose bij ziekenhuisopname, overweeg een [https://en.wikipedia.org/wiki/Bubble_chart bubble chart] te maken.<br />
<br />
==Hoe kan ik een individual patient data meta-analyse uitvoeren?==<br />
De aanwijzigen in dit artikel kunnen nuttig zijn <cite>[riley2015]</cite>.<br />
<br />
<br />
<br />
== Referenties ==<br />
<biblio><br />
#field2010 Field AP, Gillett R. How to do a meta-analysis. Br J Math Stat Psychol. 2010 Nov;63(Pt 3):665-94. [http://dx.doi.org/10.1348/000711010X502733 DOI 10.1348/000711010X502733] <br />
<br />
#morris1988 Morris JA, Gardner MJ. Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates. Br Med J (Clin Res Ed). 1988 May 7;296(6632):1313-6. [http://www.ncbi.nlm.nih.gov/pubmed/3133061]<br />
<br />
#huzo2005 Hozo SP, Djulbegovic B, Hozo I. Estimating the mean and variance from the median, range, and the size of a sample. BMC Med Res Methodol. 2005 Apr 20;5:13. [http://dx.doi.org/10.1186/1471-2288-5-13 DOI 10.1186/1471-2288-5-13]<br />
<br />
#wan2014 Wan X, Wang W, Liu J, Tong T. Estimating the sample mean and standard deviation from the sample size, median, range and/or interquartile range. BMC Med Res Methodol. 2014 Dec 19;14:135. [http://dx.doi.org/10.1186/1471-2288-14-135 DOI 10.1186/1471-2288-14-135]<br />
<br />
#michiels2005 Michiels S, Piedbois P, Burdett S, Syz N, Stewart L, Pignon JP. Meta-analysis when only the median survival times are known: a comparison with individual patient data results. Int J Technol Assess Health Care. 2005 Winter;21(1):119-25. [http://www.ncbi.nlm.nih.gov/pubmed/15736523]<br />
<br />
#zang2013 Zang J, Xiang C, He J. Synthesis of median survival time in meta-analysis. Epidemiology. 2013 Mar;24(2):337-8. [http://dx.doi.org/10.1097/EDE.0b013e318282a66c DOI 10.1097/EDE.0b013e318282a66c]<br />
<br />
#thompson2002 Thompson SG, Higgins JPT. How should meta-regression analyses be undertaken and interpreted? Stat Med. 2002 Jun 15;21(11):1559-73. [http://dx.doi.org/10.1002/sim.1187 DOI 10.1002/sim.1187]<br />
<br />
#thorland2011 Thorlund K, Walter SD, Johnston BC, Furukawa TA, Guyatt GH. Pooling health-related quality of life outcomes in meta-analysis—a tutorial and review of methods for enhancing interpretability. Research Synthesis Methods. 2011; 2(3): 188–203. [http://dx.doi.org/10.1002/jrsm.46 DOI 10.1002/jrsm.46]<br />
<br />
#lewis2001 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ 2001;322:1479. [http://dx.doi.org/10.1136/bmj.322.7300.1479 DOI 10.1136/bmj.322.7300.1479]<br />
<br />
<br />
#riley2015 Riley RD, Price MJ, Jackson D, Wardle M, Gueyffier F, Wang J, Staessen JA, White IR. Multivariate meta-analysis using individual participant data. Research Synthesis Methods. 2015; 6(2): 157–174. [http://dx.doi.org/10.1002/jrsm.1129 DOI 10.1002/jrsm.1129]<br />
<br />
</biblio><br />
<br />
== Informatie op andere websites ==<br />
<br />
* De [http://www.prisma-statement.org/ PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) statement] geeft aan wat je minimaal in een systematische review of meta-analyse moet opnemen. Er zijn een aantal extensies van de PRISMA statement. Deze kunnen nuttig zijn bij sommige studies.<br />
* De [http://handbook.cochrane.org/ Cochrane Handbook for Systematic Reviews of Interventions] geeft uitgebreide informatie over het uitvoeren van een meta-analyse.<br />
* [http://netherlands.cochrane.org/ Cochrane Netherlands] ondersteunt auteurs van Cochrane reviews, maakt systematische reviews in opdracht, geeft methodologisch advies, verzorgt scholing en doet wetenschappelijk onderzoek naar de methoden van evidence based medicine en systematische reviews. Ook geeft deze organisatie overzichten van [http://netherlands.cochrane.org/beoordelingsformulieren-en-andere-downloads beoordelingsformulieren voor verschillende typen studies] en van [http://netherlands.cochrane.org/veelgestelde-vragen veelgestelde vragen]. <br />
* [https://en.wikipedia.org/wiki/Meta-analysis Wikipedia] heeft een uitgebreid artikel over meta-analyses.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Meta-analyse&diff=3492Meta-analyse2023-01-11T15:42:04Z<p>M Wolvers: /* Hoe kan ik de resultaten van verschillende studies in mijn scriptie samenvatten? */</p>
<hr />
<div>In een meta-analyse worden resultaten of data van verschillende studies samengevoegd om tot een meer betrouwbare uitspraak te komen <cite>[field2010]</cite>. Als je overweegt om een meta-analyse uit te voeren, is het belangrijk om te beseffen dat je geavanceerd statistische technieken nodig hebt. Het is aan te raden om hiervoor ten minste een [[Cursusmateriaal | inleidende cursus statistiek]] en het liefst ook een geavanceerde cursus of een cursus specifiek gericht op meta-analyse te volgen. <br />
<br />
== Wat is het verschil tussen een meta-analyse en een systematic review? ==<br />
<br />
De term [[Systematische_reviews | systematic review]] heeft vooral van doen met het systematisch literatuur zoeken, beoordelen en beschrijven. Een meta-analyse is een statistische analyse waarbij de, meestal samengevatte, resultaten van verschillende studies gecombineerd worden tot een 'overall' resultaat. Dit heeft dus meer te maken met het doen van bepaalde berekeningen waarbij de resultaten van ieder van de gevonden studies input is. Soms worden de studieresultaten van verschillende studies gecombineerd waarbij er van iedere studie niet de samengevatte resultaten als input dienen, maar waarbij er van iedere studie van iedere patiënt informatie is. Het poolen van dergelijke per-patiënt data wordt aangeduid als een 'individual patient data' meta-analyse. Het tutorial artikel ''How to do a meta-analysis'' <cite>[field2010]</cite> geeft stap voor stap aan hoe je een meta-analyse uitvoert.<br />
<br />
== Welke software kan ik gebruiken om een meta-analyse uit te voeren? ==<br />
Er zijn [[Statistische_software#Meta-analyses | opties in diverse softwarepakketten]] om de berekeningen uit te voeren.<br />
<br />
== Ik wil de prevalentie (1 arm) over verschillende studies poolen, welke software is hiervoor beschikbaar?==<br />
<br />
Je kunt deze analyse uitvoeren in [[Statistische software|R]] gebruik makend van de ''metaprop'' functie uit de package ''meta''. <br />
<br />
== Hoe kan ik de gemiddelde en standaard deviatie van een behandel- en een controlegroep poolen om de gemiddelde en standaard deviatie van beide groepen samen te krijgen?==<br />
<br />
''Voor een review wil ik voor een overzicht van de geconcludeerde artikelen de gemiddelde en standaard deviatie van de gehele studie populatie beschrijven. In de artikelen staat echter vaak een aparte gemiddelde en standaard deviatie voor de behandel- en een voor de controlegroep. Hoe kan ik hiermee een gemiddelde en standaard deviatie van de gehele studiepopulatie berekenen?<br />
<br />
Stel we noemen de gemiddelde en standaard deviatie van de controlegroep <math>m_1</math> en <math>s_1</math> en de mean en standaard deviatie van de behandelgroep <math>m_2</math> en <math>s_2</math>. Zeg dat de controle groep <math>n_1</math> patiënten bevat en de behandelgroep <math>n_2</math>. De gemiddelde van de twee groepen samen <math>m</math> is dan simpel een gewogen gemiddelde van de twee gemiddelden:<br />
<br />
<center><br />
<math>m = \frac{(n_1*m_1+n_2*m_2)}{(n_1+n_2)}</math><br />
</center><br />
<br />
Voor het berekenen van de gepoolde standaarddeviatie is meer nodig. Hiervoor kun je de volgende formules aanhouden. Het is hierbij belangrijk om te weten dat de variantie gelijk is aan de standaard deviatie in het kwadraat, oftwel <math>\operatorname{Var}_{1}=s_{1}^{2}</math> en <math>\operatorname{Var}_{2}=s_{2}^{2}</math>. Dan is<br />
<br />
<center><br />
<math><br />
\operatorname{Var} = \frac{(n_{1}*\operatorname{Var}_{1}+n_{2}*\operatorname{Var}_{2}+n_{1}*(m_{1}-m)^{2}+n_{2}*(m_{2}-m)^{2})}{(n_{1}+n_{2})}<br />
</math><br />
</center><br />
<br />
Tenslotte kan je de standard deviatie van beide groepen samen, <math>s</math> krijgen door de wortel te nemen: <math>s = \sqrt{\operatorname{Var}}</math>.<br />
<br />
== Hoe kan ik twee gepaarde gemiddeldes beschreven in verschillende studies vergelijken? ==<br />
<br />
''Voor een systematic review over een bepaalde chirurgische ingreep heb ik data verzameld uit 5 publicaties. Door deze ingreep neemt de hypertrofie, uitgedrukt in gram, een continue variabele af. In deze 5 studies is de gemiddeld preoperatieve hypertrofie bekend met een standaard deviatie. Ook de gemiddelde hypertrofie na follow-up is bekend, ook met standaard deviatie. Alle studies laten een afname in de gemiddelde hypertrofie zien na de ingreep. Nu vragen wij ons af of het mogelijk is om aan te geven of de afname significant is. Ik denk dat ik de ruwe data zou moeten hebben zodat ik een [[T-toets#gepaarde_t-toets|paired t-test]] kan doen. De ruwe data heb ik echter niet. Hoe kan ik de afname gerapporteerd in de verschillende studies testen?<br />
<br />
Om hier een formele toets op te kunnen doen, is er naast de gemiddelde + sd preoperatief en na follow up inderdaad nog extra informatie nodig. Door het gepaarde design heb je gegevens nodig over de mate van correlatie tussen de voor en de nameting. Je zou dat af kunnen leiden als de artikelen bovenop de genoemde mean en sd’s nog een van de volgende zaken vermelden:<br />
<br />
- gemiddeld verschil tussen voor en na + sd of se<br />
<br />
- of: toetsresultaat, bijv een [[T-toets#gepaarde_t-toets|paired t-test]]: t-statistic of p-waarde is voldoende<br />
<br />
Zie ook [http://handbook.cochrane.org/chapter_16/16_1_3_2_imputing_standard_deviations_for_changes_from_baseline.htm Deel 16.1.3.2 van het Cochrane handboek] voor verdere uitleg. De [[T-toets#ongepaarde_t-toets|paired t-test]] kan inderdaad niet. Een mogelijke analyse zou een meta-analyse zijn op basis van changes + sd’s (die je dus eventueel kunt afleiden uit se’s of gepaarde test statistics).<br />
<br />
==Kan ik p-waardes in plaats van betrouwbaarheidsintervallen vermelden? == <br />
<br />
''Ik ben bezig met een systematic review over het effect van een interventie op een dichotome uitkomst. Ik wil in mijn artikel graag een tabel met odds ratio's van univariate analyses weergeven, maar deze staan niet in alle artikelen van de geïncludeerde studies. De p-waardes staan er wel in. We hebben met de informatie in de artikelen wel de Odd's ratio berekend, maar we missen dan de betrouwbaarheidsintervallen. Is het aan te raden om de p-waarde in plaats van het betrouwbaarheidsinterval weer te geven?''<br />
<br />
Het is beter om een uniforme weergave in een artikel na te streven en dus voor alle studies de betrouwbaarheidsintervallen te vermelden. Als het lukt om de odds ratio’s te berekenen, heb je waarschijnlijk ook voldoende informatie om de betrouwbaarheidsintervallen zelf te berekenen, zie bijvoorbeeld <cite>[morris1988]</cite>.<br />
<br />
==Kan ik medianen poolen? ==<br />
''Voor een review wil ik graag waarden voor mediaan overlevingsduur uit de literatuur poolen. Welke mogelijkheden zijn er hiervoor? Hazard ratio’s worden meestal niet gerapporteerd en een individuele patiënt data meta-analyse is niet mogelijk. Is het omrekenen van de mediaan naar gemiddelde en vervolgens te poolen statistisch correct in deze situatie? Is er een mogelijkheid om de mediaan van de medianen te berekenen?''<br />
<br />
Onderzoekers hebben methoden ontwikkeld om de gemiddelde en standaard deviatie op basis van de mediaan, range en steekproefgrootte te berekenen <cite>[huzo2005]</cite>. Echter in het algemeen wordt de mediaan en interkwartiele range (in plaats van de gemiddelde en standaard deviatie) juist gerapporteerd omdat de uitkomst (hier overlevingsduur) geen normale verdeling volgt. De gemiddelde en standaard deviatie geven dus geen goede weergave van de verdeling. Andere onderzoekers zeggen wel een verbetering hierin te hebben bereikt <cite>[wan2014]</cite>. De kwaliteit van de schattingen lijkt echter ook niet optimaal te zijn bij een niet-normale verdeling.<br />
<br />
Er zijn wel methoden ontwikkeld om gepoolde schatters van medianen te krijgen, maar er wordt ook meteen aangegeven dat ze niet helemaal goed zijn <cite>[michiels2005]</cite>. De technische details zijn in een paper (ref 22 van <cite>[michiels2005]</cite>) dat niet makkelijk verkrijgbaar is. Andere onderzoekers stellen een andere methode voor, maar geven helaas weinig technische details <cite>[zang2013]</cite>. Er is helaas geen eenvoudige manier om op een goede manier hierover een meta-analyse uit te voeren. De eenvoudige optie is om de uitkomsten van de verschillende studies te beschrijven. <br />
<br />
==Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?==<br />
<br />
''Ik ben bezig met een systematic review waarbij een van de uitkomsten kwaliteit van leven is. In vijf artikelen wordt kwaliteit van leven als uitkomstmaat beschreven. Het lastige is dat ze hiervoor verschillende algemene en ziektespecifieke vragenlijsten gebruiken. Kan ik deze op de een of andere manier aan elkaar gelijk stellen en hier toch een meta-analyse van maken?''<br />
<br />
In deze situatie kiest men er vaak voor om de uitkomsten van de verschillende studies om te zetten naar een maat voor effectgrootte, zoals bijvoorbeeld de standardized mean difference (gemiddelde verschil tussen twee groepen gedeeld door de standaard deviatie van dit verschil). Het kan echter moeilijk zijn om een klinische betekenis aan deze maat te geven. Onderzoekers hebben verschillende oplossingen hiervoor gevonden <cite>[thorland2011]</cite>.<br />
<br />
== Hoe kan ik de resultaten van verschillende studies in mijn scriptie samenvatten? ==<br />
<br />
'''Let op! er wordt nog aan dit onderdeel gewerkt.'''<br />
<br />
''Ik schrijf een scriptie en heb al een systematische review uitgevoerd. Ik wil nu de resultaten uit de verschillende studies samenvatten, maar ik heb onvoldoende statistische kennis om een meta-analyse uit te voeren. Wat kan ik doen en wat moet ik vooral niet doen?''<br />
<br />
Veel studenten moeten in de loop van hun studie een of meer systematische reviews schrijven. Vaak lopen ze ertegenaan dat ze de resultaten van de verschillende studies willen samenvatten, maar dat hun kennis van de statistiek nog niet voldoende is om een meta-analyse op de juiste manier uit te voeren. Er zijn mogelijkheden, maar ook valkuilen. <br />
<br />
* Je kunt de resultaten van de verschillende studies in de tekst van je scriptie samenvatten. Bij een kleine aantal studies kan dit al voldoende zijn. Bij een grotere aantal studies, kan je naast het beschrijven van alle studies bij elkaar, subgroepen van studies beschrijven. Mogelijk is het voor jouw vraagstelling interessant om de studies op "gezonde" en "zieke" mensen apart te beschrijven. Of geeft het meer inzicht als je de methodologisch gezien "goede" studies apart toelicht.<br />
<br />
* Het kan goed zijn om je resultaten steeds op basis van dezelfde eenheden en aantal cijfers achter de komma te rapporteren. Dit maakt het eenvoudiger voor de lezer om alle informatie te vergelijken. Het is goed mogelijk dat je de resultaten uit sommige studies in andere eenheden zal moeten omzetten. Denk bijvoorbeeld om het omzetten van serum glucose van mg/dL in mmol/L. Gebruik hiervoor een standaard waarde uit het vakgebied en vermeld ook in je methoden hoe je dit hebt gedaan.<br />
<br />
* Vaak vermelden niet alle studies alle informatie die je zoekt. Het is niet erg om aan te geven dat een bepaalde stuk informatie niet beschikbaar is. Maar het is goed om na te gaan of je deze informatie kan achterhalen. Soms wordt meer informatie in supplementary tables bij het betreffende publicatie gepresenteerd of wordt een groep patiënten in een andere publicatie uitgebreider beschreven. Maar het kan ook mogelijk zijn om een waarde, zoals een [[Standaardfout/standard_error | standaardfout, standaarddeviatie]] of [[Betrouwbaarheidsinterval | betrouwbaarheidsinterval]], te herleiden uit [[Meta-analyse#Kan_ik_p-waardes_in_plaats_van_betrouwbaarheidsintervallen_vermelden.3F | andere waarden]] in een publicatie. <br />
<br />
* Bij een grotere aantal studies kan een tabel meer inzicht in de resultaten van de verschillende studies geven. Hieronder zie je een voorbeeld van een tabel waarbij de uitkomst van interesse is de serum glucose bij opname in het ziekenhuis. In dit voorbeeld zijn de studies gerangschikt op het aantal patiënten. Maar het kan ook inzichtelijk zijn om de studies op een andere kenmerk te rangschikken. Je kunt denken aan jaar van publicatie, de score op een instrument om de kwaliteit van de studie in kaart te brengen of een patiëntkenmerk, zoals de proportie patiënten met diabetes of de patiënten wel of niet nuchter bij opname waren. <br />
<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
|-<br />
!colspan="5" align="center"| <br />
!colspan="3" align="center"| Serum glucose (mmol/L) on hospital admission<br />
|-<br />
|width="120"| '''First author and year of publication'''<br />
|width="120"| '''Total number of patients'''<br />
|width="120"| '''Number of patients with diabetes'''<br />
|width="120"| '''Proportion of patients with diabetes'''<br />
|width="120"| '''Fasting on admission'''<br />
|width="120"| '''Mean''' <br />
|width="120"| '''Standard deviation'''<br />
|width="120"| '''95% Confidence interval for the mean'''<br />
|-<br />
|align="left" |Koopman, 2013<br />
|align="right"| 1096<br />
|align="right"| 94<br />
|align="right"| 0.09<br />
|align="left" | Yes<br />
|align="right"| 4.6 <br />
|align="right"| 2.1<br />
|-<br />
|align="left" |Buurman, 2011<br />
|align="right"| 532<br />
|align="right"| 0<br />
|align="right"| 0.00<br />
|align="left" | Yes<br />
|align="right"| 5.5 <br />
|align="right"| 3.0<br />
|-<br />
|align="left" |Smit, 2011<br />
|align="right"| 789<br />
|align="right"| 562<br />
|align="right"| 0.71<br />
|align="left" | Yes<br />
|align="right"| 7.5 <br />
|align="right"| 5.9<br />
|-<br />
|align="left" |Jansen, 2015<br />
|align="right"| 372<br />
|align="right"| 102<br />
|align="right"| 0.27<br />
|align="left" | No<br />
|align="right"| 8.3 <br />
|align="right"| 5.1<br />
|-<br />
|align="left" |van de Berg, 2009<br />
|align="right"| 104<br />
|align="right"| Unknown<br />
|align="right"| Unknown<br />
|align="left" | Unknown<br />
|align="right"| 6.7 <br />
|align="right"| 3.7<br />
|-<br />
|align="left" |Bakker, 1996<br />
|align="right"| 57<br />
|align="right"| 57<br />
|align="right"| 1.00<br />
|align="left" | No<br />
|align="right"| 16.3 <br />
|align="right"| 10.1<br />
|-<br />
|align="left" |Meijer, 1973<br />
|align="right"| 45<br />
|align="right"| Unknown<br />
|align="right"| Unknown<br />
|align="left" | Yes<br />
|align="right"| 4.8 <br />
|align="right"| 1.7<br />
|-<br />
|align="left" |Visser, 1981<br />
|align="right"| 30<br />
|align="right"| 10<br />
|align="right"| 0.33<br />
|align="left" | Unknown<br />
|align="right"| 10.4 <br />
|align="right"| 5.1<br />
|-<br />
|}<br />
<br />
<br />
* Een forest plot kan nog inzichtelijker zijn dan een tabel <cite>[lewis2001]</cite>. Als je geen meta-analyse uitvoert, kan je onderaan geen samenvattende maat geven, maar je kunt wel de betrouwbaarheidsintervallen voor alle studies onder elkaar zetten. Ook hier kan het informatief zijn om de studies op een bepaalde manier in groepen te presenteren. <br />
* Als je geïnteresseerd bent in een associatie tussen twee uitkomsten, bijvoorbeeld de proportie patiënten met diabetes en de gemiddelde bloed glucose bij ziekenhuisopname, overweeg een [https://en.wikipedia.org/wiki/Bubble_chart bubble chart] te maken.<br />
<br />
==Hoe kan ik een individual patient data meta-analyse uitvoeren?==<br />
De aanwijzigen in dit artikel kunnen nuttig zijn <cite>[riley2015]</cite>.<br />
<br />
<br />
<br />
== Referenties ==<br />
<biblio><br />
#field2010 Field AP, Gillett R. How to do a meta-analysis. Br J Math Stat Psychol. 2010 Nov;63(Pt 3):665-94. [http://dx.doi.org/10.1348/000711010X502733 DOI 10.1348/000711010X502733] <br />
<br />
#morris1988 Morris JA, Gardner MJ. Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates. Br Med J (Clin Res Ed). 1988 May 7;296(6632):1313-6. [http://www.ncbi.nlm.nih.gov/pubmed/3133061]<br />
<br />
#huzo2005 Hozo SP, Djulbegovic B, Hozo I. Estimating the mean and variance from the median, range, and the size of a sample. BMC Med Res Methodol. 2005 Apr 20;5:13. [http://dx.doi.org/10.1186/1471-2288-5-13 DOI 10.1186/1471-2288-5-13]<br />
<br />
#wan2014 Wan X, Wang W, Liu J, Tong T. Estimating the sample mean and standard deviation from the sample size, median, range and/or interquartile range. BMC Med Res Methodol. 2014 Dec 19;14:135. [http://dx.doi.org/10.1186/1471-2288-14-135 DOI 10.1186/1471-2288-14-135]<br />
<br />
#michiels2005 Michiels S, Piedbois P, Burdett S, Syz N, Stewart L, Pignon JP. Meta-analysis when only the median survival times are known: a comparison with individual patient data results. Int J Technol Assess Health Care. 2005 Winter;21(1):119-25. [http://www.ncbi.nlm.nih.gov/pubmed/15736523]<br />
<br />
#zang2013 Zang J, Xiang C, He J. Synthesis of median survival time in meta-analysis. Epidemiology. 2013 Mar;24(2):337-8. [http://dx.doi.org/10.1097/EDE.0b013e318282a66c DOI 10.1097/EDE.0b013e318282a66c]<br />
<br />
#thompson2002 Thompson SG, Higgins JPT. How should meta-regression analyses be undertaken and interpreted? Stat Med. 2002 Jun 15;21(11):1559-73. [http://dx.doi.org/10.1002/sim.1187 DOI 10.1002/sim.1187]<br />
<br />
#thorland2011 Thorlund K, Walter SD, Johnston BC, Furukawa TA, Guyatt GH. Pooling health-related quality of life outcomes in meta-analysis—a tutorial and review of methods for enhancing interpretability. Research Synthesis Methods. 2011; 2(3): 188–203. [http://dx.doi.org/10.1002/jrsm.46 DOI 10.1002/jrsm.46]<br />
<br />
#lewis2001 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ 2001;322:1479. [http://dx.doi.org/10.1136/bmj.322.7300.1479 DOI 10.1136/bmj.322.7300.1479]<br />
<br />
<br />
#riley2015 Riley RD, Price MJ, Jackson D, Wardle M, Gueyffier F, Wang J, Staessen JA, White IR. Multivariate meta-analysis using individual participant data. Research Synthesis Methods. 2015; 6(2): 157–174. [http://dx.doi.org/10.1002/jrsm.1129 DOI 10.1002/jrsm.1129]<br />
<br />
</biblio><br />
<br />
== Informatie op andere websites ==<br />
<br />
* De [http://www.prisma-statement.org/ PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) statement] geeft aan wat je minimaal in een systematische review of meta-analyse moet opnemen. Er zijn een aantal extensies van de PRISMA statement. Deze kunnen nuttig zijn bij sommige studies.<br />
* De [http://handbook.cochrane.org/ Cochrane Handbook for Systematic Reviews of Interventions] geeft uitgebreide informatie over het uitvoeren van een meta-analyse.<br />
* [http://netherlands.cochrane.org/ Cochrane Netherlands] ondersteunt auteurs van Cochrane reviews, maakt systematische reviews in opdracht, geeft methodologisch advies, verzorgt scholing en doet wetenschappelijk onderzoek naar de methoden van evidence based medicine en systematische reviews. Ook geeft deze organisatie overzichten van [http://netherlands.cochrane.org/beoordelingsformulieren-en-andere-downloads beoordelingsformulieren voor verschillende typen studies] en van [http://netherlands.cochrane.org/veelgestelde-vragen veelgestelde vragen]. <br />
* [https://en.wikipedia.org/wiki/Meta-analysis Wikipedia] heeft een uitgebreid artikel over meta-analyses.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3491Survival analyse2023-01-11T15:29:29Z<p>M Wolvers: /* Wanneer gebruik ik een Kaplan Meier analyse? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards-aanname binnen een Cox-model?==<br />
<br />
Er zijn meerdere manieren om de PH-aanname van een Cox-model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het Cox-model de variabele voor welke je de PH-aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log-minus-log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH-aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log-minus-log-plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld-) residuen<br />
Er kan een formele test gedaan worden m.b.v. Schoenfeldresiduen. Er is geen standaardfunctie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH-aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH-aanname kun je ook een tijdsafhankelijk Cox-model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH-aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox-model?==<br />
''Ik heb een Cox-regressie uitgevoerd met een dichotome uitkomstmaat (wel/geen ontwikkeling van artritis) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald-uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox-regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorische voorspeller eerst bekeken moet worden of de 'overall' toets significant is, dat wil zeggen of de toets die kijkt of het opsplitsen in de 5 categorieën (met 4 df) bijdraagt aan het model significant is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3490Survival analyse2023-01-11T15:26:45Z<p>M Wolvers: /* Hoe test ik de proportional hazards aanname binnen een Cox model? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards-aanname binnen een Cox-model?==<br />
<br />
Er zijn meerdere manieren om de PH-aanname van een Cox-model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het Cox-model de variabele voor welke je de PH-aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log-minus-log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH-aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log-minus-log-plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld-) residuen<br />
Er kan een formele test gedaan worden m.b.v. Schoenfeldresiduen. Er is geen standaardfunctie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH-aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH-aanname kun je ook een tijdsafhankelijk Cox-model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH-aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox-model?==<br />
''Ik heb een Cox-regressie uitgevoerd met een dichotome uitkomstmaat (wel/geen ontwikkeling van artritis) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald-uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox-regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorische voorspeller eerst bekeken moet worden of de 'overall' toets significant is, dat wil zeggen of de toets die kijkt of het opsplitsen in de 5 categorieën (met 4 df) bijdraagt aan het model significant is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3489Survival analyse2023-01-11T15:23:04Z<p>M Wolvers: /* Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox-model?==<br />
''Ik heb een Cox-regressie uitgevoerd met een dichotome uitkomstmaat (wel/geen ontwikkeling van artritis) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald-uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox-regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorische voorspeller eerst bekeken moet worden of de 'overall' toets significant is, dat wil zeggen of de toets die kijkt of het opsplitsen in de 5 categorieën (met 4 df) bijdraagt aan het model significant is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3488Survival analyse2023-01-11T15:20:06Z<p>M Wolvers: /* Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox-regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiëntencohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox-regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken m.b.v. een Cox-model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3487Survival analyse2023-01-11T15:18:26Z<p>M Wolvers: /* Waar vind ik het Cox proportional hazards model in SPSS? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiënten cohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken mbv een Cox model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Cox Regression of Cox w/ Time-Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3486Survival analyse2023-01-11T15:16:27Z<p>M Wolvers: /* Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox model? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox-model?==<br />
<br />
''Voor een cohort HIV-geïnfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox-regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variabele (leeftijdscategorieën) met meer dan 2 categorieën (referentie = kinderen >12 jaar oud, van wie we verwachten dat ze de beste prognose hebben). (1) (2) (3) betreffen kinderen van 0-1 jaar, 1-5 jaar en 5-12 jaar oud. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall-test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiënten cohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken mbv een Cox model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan Meier analyse in SPSS 16 onder Analyze -> Survival -> Cox Regression of Cox w./ Time Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3485Survival analyse2023-01-11T15:02:50Z<p>M Wolvers: /* Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox regressie? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox-regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox model?==<br />
<br />
''Voor een cohort HIV geinfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variable (leeftijdscatgorieën) met meer dan 2 categorieën (referentie = kinderen>12 van wie we verwachten dat ze de beste prognose hebben) (1) (2) (3) betreffen 0-1jaar, 1-5jaar en 5-12jaar oude kinderen. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiënten cohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken mbv een Cox model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan Meier analyse in SPSS 16 onder Analyze -> Survival -> Cox Regression of Cox w./ Time Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3484Survival analyse2023-01-11T15:02:32Z<p>M Wolvers: /* Mijn variabelen lijken niet te voldoen aan de proportional hazards aanname, mag ik ze nu niet meenemenen in de Cox regressie? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards-aanname, mag ik ze nu niet meenemen in de Cox regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards-aanname. In de log-log-plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan sowieso niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log-minus-log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox-analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox-resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijvoorbeeld als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow-up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow-up-periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden; als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan m.b.v. het aanmaken van een tijdsafhankelijk covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox model?==<br />
<br />
''Voor een cohort HIV geinfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variable (leeftijdscatgorieën) met meer dan 2 categorieën (referentie = kinderen>12 van wie we verwachten dat ze de beste prognose hebben) (1) (2) (3) betreffen 0-1jaar, 1-5jaar en 5-12jaar oude kinderen. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiënten cohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken mbv een Cox model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan Meier analyse in SPSS 16 onder Analyze -> Survival -> Cox Regression of Cox w./ Time Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Survival_analyse&diff=3483Survival analyse2023-01-11T14:59:49Z<p>M Wolvers: /* Waar vind ik de Kaplan Meier analyse in SPSS? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= dr. R.B. Geskus<br />
}}<br />
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij meerdere risico's of meerdere herhalingen van een event zijn meer geavanceerde analyse technieken nodig zoals [[recurrent event analyse]] of [[competing risk analyse]].<br />
<br />
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijd-tot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:<br />
<br />
*Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken.<br />
*Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken.<br />
*Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. <br />
<br />
<br />
<br />
=Kaplan Meier analyse=<br />
<br />
==Wanneer gebruik ik een Kaplan Meier analyse?==<br />
<br />
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:<br />
*De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.<br />
*Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. <br />
*De tijdstippen waarop de events optreden zijn exact bekend.<br />
*Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden [[late entry survival]] modellen genoemd. <br />
<br />
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. <br />
<br />
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. <br />
<br />
[[Image:survivaltableandcurve6.jpg]]<br />
<br />
==Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?==<br />
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is:<br />
<br />
[[Image:logranktest4.jpg]]<br />
<br />
==Mijn Kaplan Meier curves kruisen, mag ik dan nog de log-rank test gebruiken?==<br />
<br />
''Bij mijn Kaplan-Meier analyses voor het vergelijken van een factor, heb ik curves die elkaar kruisen. In statistische stukken wordt soms gezegd dat een log-rank test dan niet geschikt is om een potentieel verschil tussen curves te analyseren. Desondanks, als ik met SPSS een log-rank test uitvoer, krijg ik soms alsnog een significante p-value. Houdt de log-rank test (als uitgevoerd door SPSS) rekening met het feit dat de curves elkaar kruisen? Of zou ik eigenlijk geen log-rank mogen gebruiken dan?<br />
<br />
De log-rank test houdt geen rekening met het kruisen van curves. De test bekijkt het verschil tussen de curves op ieder (event-)tijdspunt en telt de gevonden verschillen (in detail het verschil tussen observed en expected events) op over alle tijdspunten. Als 2 curves bijvoorbeeld in het midden kruisen, dan zal in de vroege periode de ene groep relatief meer events hebben en in de late periode de andere groep. Bij het optellen van de verschillen zullen deze twee periodes elkaar 'uitmiddelen'. Grote kans dat de log rank statistic dan niet significant is, terwijl er toch interessante verschillen kunnen zijn in de twee periodes apart. Om deze reden wordt de log rank test als minder geschikt (eigenlijk minder krachtig, minder power) gezien bij kruisende curves. <br />
<br />
In jouw geval waarbij je kruisende curves hebt en toch een significante log rank test, zal het verschil in een van de twee periodes (voor of na het omslagpunt van de hazard) sterker zijn dan in de andere periode. Er is dan toch 'netto' een verschil 1 kant op gevonden. Dit kan informatief zijn, al moet je goed oppassen hoe zo'n verschil te interpreteren. Zie ook deze [http://www.haematologica.org/content/92/12/e122.full ingezonden brief nav van een verkeerde interpretatie in zo'n situatie].<br />
<br />
Ik raad je aan iig de plot van de survival curves mede te rapporteren (en niet alleen de log rank statistic), zodat de lezer zelf kan beoordelen waar het verschil te verwachten is. Statistische alternatieven zijn het gebruik van testen die meer gewicht leggen op vroege of juist late periodes. Bijvoorbeeld de Wilcoxon test (in SPSS de Breslow test genoemd), deze test weegt verschillen in het begin van de survival curves zwaarder dan verschillen aan het einde van de curves. De test is bijvoorbeeld geschikt wanneer het effect van een behandeling op survival het sterkst is in de eerste fase en later minder effectief wordt en je wilt inzoomen op de eerste fase. Of de Tarone-Ware test. Deze test geeft net als de Wilcoxon test meer relatief meer gewicht aan verschillen op vroege momenten (maar minder uitgesproken dan de Wilcoxon test). Ook kun je overwegen de analyse apart te doen over twee tijdsintervallen, al is het dan heel lastig om te bepalen waar je de grens trekt. Het liefst zou je dergelijke alternatieve analyses al vooraf hebben gespecificeerd.<br />
<br />
==Ik heb veel gecensureerde patienten, kan ik de Breslow of Tarone-Ware test gebruiken in plaats van de log-rank test?==<br />
<br />
''De test die ik nu gebruik is logrank. Ik zag dat er ook 2 andere testen zijn (breslow en Tarone-Ware). Het is me niet helemaal duidelijk wanneer je deze gebruikt behalve de vernoeming dat deze toetsen vooral het begin van de curve beoordelen. De reden dat ik mogelijk een andere test wil proberen is het feit dat ik veel censored zie in de curve. De patienten zijn niet allemaal even lang gevolgd en dus neemt het aantal patienten in follow up af naarmate de tijd verstrijkt. Kan/mag de breslow of tarone-ware in dit geval?<br />
<br />
De Breslow en Tarone-Ware 'luisteren' inderdaad meer naar de beginperiode wanneer er nog meer personen in follow up zijn dan naar de eindperiode. Echter, het feit dat er later in de follow up veel gecensureerd wordt, is niet een reden om voor deze testen te kiezen. Ook de log-rank test zal namelijk het meest gevoed worden door de periodes waar er de meeste mensen nog in follow up zijn. De Breslow / Tarone-Ware zijn aan te raden wanneer er op basis van een biologische hypothese de verwachting is dat er in de beginperiode de grootste verschillen zullen zijn (bijvoorbeeld bij een eenmalige behandeling waarbij het effect uitvaagt over de tijd). Het zijn niet de standaard testen, dus het gebruik ervan zal duidelijk gemotiveerd moeten worden. Ik raad dus aan hier de 'gewone' log rank te gebruiken, de latere momenten met minder personen zullen vanzelf minder zwaar meetellen in de analyse.<br />
<br />
==Kan ik meerdere aparte Kaplan Meier curves bij elkaar in 1 grafiek plotten?==<br />
<br />
''Voor een paper heb ik 3 kaplan meier curves die op de x-as allemaal even ver lopen (allemaal een tijdsduur van 27 maanden). Ik wil deze 3 curves in 1 plot zetten. Kan dat met SPSS en zo ja, hoe?<br />
<br />
We zijn er zelf uitgekomen en wel op de volgende manier: In ons geval wilden wij 3 verschillende curves (survival, grote amputatie en kleine amputatie) in 1 KM grafiek zetten. We hebben de data opnieuw gerangschikt. 1 variable met time to event, 1 variable met event status (alledrie de events hadden status 1), en een nieuwe onderscheidende variable die duidelijk maakte dat de eerste time to event en event zelf sloeg op survival, tweede time to event en event zelf op grote ampuatie en drede time to event en event zelf op kleine amputatie. Invoeren gewoon time to event en event status en de nieuwe onderscheidende variable wordt de 'factor'. Mocht iemand anders ooit nog met hetzelfde probleem zitten, bij deze de oplossing.<br />
<br />
==Hoe kan ik mijn logrank analyse doen over alleen het eerste jaar van de follow up?==<br />
<br />
''Op een polikliniek voor HIV-geinfecteerde kinderen in Malawi hebben we in de periode van 2004-2008 een cohort kinderen gevolgd vanaf het moment dat zij startten met antiretrivirale therapie. We zijn geinteresseerd in hun uitkomsten en risicofactoren voor mortaliteit en uitval uit behandeling (LTFU). 1) Ik probeer uitkomsten na 12 maanden op een rij te zetten dmv analyze_survival_lifetables. Dit lijk te lukken. 2) Ik wil naar voorspellende factoren kijken voor overlijden en dood op 12 maanden.<br />
''Voor univariate analyses zou ik hiervoor willen gebuiken: analyze_survival -> kaplanmeier met compare factor log-rank test. Hiermee doe ik een analyse voor uitkomst na totale duur folllow up. Het lukt mij niet hierbij specifiek naar uitkomsten tot 12 maanden te kijken.<br />
<br />
Als er een langere follow up is, en je wilt in een analyse alleen focussen op de periode tot 12 maanden, dan is het nodig om de informatie van de personen op 12 maanden te censureren. Als het goed is heb je nu in de dataset de volgende 2 variabelen:<br />
<br />
-tijd tot laatste follow up of tijd tot optreden event (mortaliteit of uitval behandeling): FUtime<br />
<br />
-event indicator (wel of niet het event opgetreden): FUstatus (1=event, 0= geen event)<br />
<br />
Om alleen op de eerste 12 maanden te focussen, is het nodig om de volgende aanpassingen te maken:<br />
<br />
indien<br />
FUtime>12 en FUstatus =0 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime>12 en FUstatus =1 -> FUtime=12 FUstatus=0<br />
<br />
indien<br />
FUtime=<12 en FUstatus =1 -> variabelen blijven hetzelfde<br />
<br />
indien<br />
FUtime=<12 en FUstatus =0 -> variabelen blijven hetzelfde<br />
<br />
Met de nieuwe FUtime (die nooit groter is dan 12) en de nieuwe status (die nu iets minder events bevat) kan een Kaplan-Meier analyse gedaan worden voor alleen het eerste jaar.<br />
<br />
==Hoe ga ik om met patienten die vanwege overlijden niet meer het event van interesse kunnen krijgen?==<br />
<br />
''Ik heb een RCT gedaan met een follow-up van 1 jaar met als belangrijkste uitkomstmaat: het aantal dagen vanaf randomisatie tot terugkeer naar werk. Nu wil ik onderzoeken of de tijd tot terugkeer naar werk significant verschilt tussen beide groepen (controlegroep en interventiegroep). Hiervoor heb ik KM-survival analyse gedaan met Log rank toets. <br />
''Nu is het zo dat een aantal patiënten gedurende de follow-up periode overleden zijn en een aantal patiënten palliatief worden behandeld. Deze patiënten kunnen de positieve uitkomstmaat (weer aan het werk) nooit meer bereiken. Hoe ga je om met deze patiënten in de survival analyse? Moet ik deze patiënten helemaal uit de analyse halen? Moet ik deze als censored beschouwen? Moet ik deze patiënten zien als negatieve uitkomst (=niet aan het werk). Kortom wat is het effect van censored data op een survival analyse en logrank toets en welke afweging is het meest juist?<br />
<br />
De voor- en nadelen van de verschillende alternatieven: <br />
<br />
1. de overleden/palliatieve patienten in de KM-analyse laten en censureren op het moment van dit event<br />
<br />
Voordeel: de informatie van deze patienten voordat ze overleden / voordat ze palliatief waren doet mee in de analyse / geen verlies van data<br />
Nadeel: de KM-analyse veronderstelt dat de prognose van deze patienten, nadat ze gecensureerd worden, gelijk is aan patienten die nog wel in de analyse zitten (aanname van non-informative censoring). De schattingen (en vergelijkingen) op latere follow up momenten worden daardoor (onevenredig) veel bepaald door relatief goede patienten die wellicht niet representatief zijn voor de totale groep. <br />
<br />
2. de overleden/palliatieve patienten in de KM-analyse uit de analyse laten<br />
<br />
Voordeel: eenvoudig uit te leggen aanpak, je beperkt de studiegroep alsware het een exclusiecriterium is<br />
Nadeel: alleen als op t=0 al bekend is dat iemand tot de 'exclusiegroep' behoort is dit een logische aanpak, voor deze personen zou je kunnen zeggen dat de interventie toch geen invloed meer kan hebben op terugkeer naar werk omdat dat (ongeacht welke behandeling ook) geen resultaat hierop kan hebben. Voor personen die in het begin nog alle kanten op kunnen en pas later achteruit gaan zou het zonde zijn/kan het vertekening geven die info niet te gebruiken.<br />
<br />
3. de overleden/palliatieve patienten in de KM-analyse als negatieve uitkomst zien / [[Competing risk analyse]]<br />
<br />
Voordeel: Je zou kunnen ageren dat deze patienten een ultiem 'slechte' uitkomst hebben en ook als zodanig meegerekend moeten worden. Je zegt dan eigenlijk dat ze het event 'terug naar werk' nooit meer zullen bereiken. Hun status staat dan op 0, en de follow up tijd zou je (gekunsteld) op oneindig lang kunnen zetten (of iig langer dan de langste follow up). Je kunt dit ook formeel in een [[competing risk analyse]] doen. <br />
Nadeel: de analyse is minder standaard / competing risk analyse wordt niet standaard in [[statistische software#SPSS|SPSS]] aangeboden.<br />
<br />
==Hoe bereken ik de 'events per person year'?==<br />
<br />
'Ik wil graag mijn uitkomsten (opnames in verband met verklevingen in de buik en het vóórkomen van littekenbreuken) weergeven als 'event per person-years at risk', om te corrigeren voor de wisselende follow up duur. Hoe kan ik dit het beste doen? Ik zou een Kaplan-Meier kunnen maken van time-to-event, maar ik wil ook graag deze maat weergeven. Moet ik dan een variable aanmaken waarin ik event ja/ nee deel door de tijd 'at risk'? Of is er een functie in SPSS waarmee ik dit makkelijker kan berekenen? <br />
<br />
De uitkomst 'events per person-years at risk' is simpel te berekenen door alle events bij elkaar op te tellen (som_events), alle tijd at risk bij elkaar op te tellen (som_tijd) en die twee op elkaar te delen: som_events/som_tijd.<br />
<br />
Omdat SPSS gewend is om te rekenen 'per rij' en niet zozeer per kolom, zijn deze optellingen makkelijker te doen als je de data even in een ander pakket (excel of [[statistische software#R|R]]) zet.<br />
<br />
Bij de maat 'events per person-years at risk' wil je waarschijnlijk ook een betrouwbaarheidsinterval berekenen? Die zou je kunnen berekenen mbv de calculator op [http://www.openepi.com www.openepi.com]. Kies in de linkerbalk voor person time -> 1 rate. Geef het aantal events en de totale tijd in. Je krijgt dan de rate en een betrouwbaarheidsinterval terug. Let goed op, de rate wordt per 10, 100, 1000 person years gegeven (afhankelijk van het aantal informatieve decimalen). Het is dus goed om de getallen naast je eigen berekening (zoals boven) te leggen.<br />
<br />
==Waar vind ik de Kaplan-Meier-analyse in SPSS?==<br />
Je vindt de Kaplan-Meier-analyse in SPSS 28 onder Analyze -> Survival -> Kaplan-Meier.<br />
<br />
=Cox regressie=<br />
<br />
==Wanneer gebruik ik een Cox proportional hazards model?==<br />
<br />
Wanneer er bij een survival analyse slechts één voorspellende factor onderzocht wordt die slechts een paar mogelijke waardes kan aannemen, kan een [[survival analyse#Kaplan Meier analyse|Kaplan Meier analyse]] volstaan. Zijn er echter meerdere factoren die de overleving kunnen beinvloeden, dan is een uitgebreider model nodig. Een veel gebruikt model is het Cox proportional hazards model. Hiermee kun je net als met andere [[multivariabele regressie| multivariabele regressie modellen]] meerdere voorspellers tegelijk bestuderen. Voordeel van het Cox model boven een Kaplan Meier analyse is bovendien dat er naast de vraag "is er een effect" ook antwoord gegeven wordt op de vraag "hoe groot is het effect" van een bepaalde voorspeller. Het Cox model geeft de grootte van een effect weer met behulp van hazard ratio's (HR), waarbij een HR van 1 aangeeft dat er geen verschil is. De hazard is de instantane kans om een event te krijgen, en een hazard ratio is vergelijkbaar met een relatief risico. Bijvoorbeeld: "During the 20-year follow-up, 83 women developed lung cancer. There was a moderate association between hormone use and lung cancer (hazard ratio, 1.13; 95% CI, 1.08-1.73)." <br />
<br />
Het Cox model maakt een belangrijke aanname: de proportional hazards assumptie. Deze zegt dat de HR's constant zijn in de tijd. Dit betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Er wordt in het bovenstaande voorbeeld dus vanuit gegaan dat het wel of niet gebruiken van hormonen een zelfde invloed heeft na 1 jaar als na 20 jaar follow up: op ieder tijdstip wordt de kans op het optreden van longkanker bij hormoongebruik 1.13 keer hoger geschat dan dezelfde kans als er geen hormonen werden gebruikt. Bij een Cox regressie, zijn er verder geen specifieke aannames over de verdeling van de hazard functie of voorspellende variabelen. Ze hoeven dus niet normaal verdeeld te zijn .<br />
<br />
==Hoe test ik de proportional hazards aanname binnen een Cox model?==<br />
<br />
Er zijn meerdere manieren om de PH aanname van een Cox model te testen:<br />
<br />
*Grafisch<br />
Als een variabele in het model voldoet aan de proportional hazards (PH) aanname, dan zullen de geschatte overlevingscurves, op de zogenaamde log-schaal, voor de waardes van deze variabele parallel lopen. Je kunt hier naar kijken door in het cox model de variabele voor welke je de PH aanname wilt onderzoeken niet meer als covariaat, maar als stratum mee te geven en te vragen om log minus log survival plots. De resulterende lijnen moeten op het oog parallel lopen (zeker elkaar niet kruisen) om te voldoen aan de PH aanname voor deze variabele. Voor iedere variabele in het model is een dergelijke plot nodig. In deze [[Media:Syntax_ph_aananme_lml_plots.doc |voorbeeldsyntax]] kun je zien hoe het maken van een log minus log plot er in SPSS syntax uit komt te zien.<br />
<br />
*Testen van (Schoenfeld) residuen<br />
Er kan een formele test gedaan worden mbv Schoenfeld residuen. Er is geen standaard functie hiervoor in [[statistische software|SPSS]]. In [[statistische software#Stata|Stata]] (functie estat phtest) of [[statistische software#R|R]] (functie cox.zph) kan het wel direct. Download hier een [[Media: R_script_test_proportional_hazards.doc | script ]] voor het testen van de PH aanname in R.<br />
<br />
*Toevoegen van een tijdsafhankelijke variabele<br />
Anticiperend op het mogelijk niet voldoen aan de PH aanname kun je ook een time dependent Cox model draaien met daarin een tijdsafhankelijke variabele opgenomen (bijvoorbeeld GENDER*T). Als deze tijdsafhankelijke variabele significant bijdraagt aan het model, is er blijkbaar niet aan de PH aanname voldaan.<br />
<br />
==Mijn variabelen lijken niet te voldoen aan de proportional hazards aanname, mag ik ze nu niet meenemenen in de Cox regressie?==<br />
<br />
''Ik ben aan de slag gegaan met het testen van de proportional hazards aanname. In de log-log plots kruisen de lijnen van bijna alle covariaten. Betekent dit dat ik al deze covariaten niet mee mag nemen in de analyse?<br />
<br />
Het is niet zo dat als de lijnen kruisen dat je de variabele dan zowiezo niet mee mag nemen. Je moet per variabele bekijken wat er aan de hand is. Mogelijk opties:<br />
<br />
1. Een variabele is niet gerelateerd aan de uitkomstmaat. De log minus log survival curves lopen dan naar verwachting over elkaar heen. Door random fluctuatie kunnen de curves ook 'om elkaar heen wiebelen' en elkaar dus meerdere keren kruisen. Conclusie is hier dat er geen effect is (ook geen proportioneel effect).<br />
<br />
2. Een variabele is gerelateerd aan de uitkomstmaat, maar de curves kruisen op een gegeven ogenblik. Hier is het lastiger. Als de curves kruisen, dan is het effect van een variabele niet proportioneel. Dat wil zeggen, op het ene tijdsinterval is de ene groep beter af en op het andere tijdsinterval de andere groep. Als de Cox analyse toch een proportioneel effect van een variabele aanwijst, dan betekent dit zoveel als dat er gemiddeld over de hele tijdslijn toch 1 van de 2 groepen beter uit de bus komt. 'Uitgemiddeld' doet deze groep het dan beter. Dit kan in bepaalde situaties een valide conclusie zijn, maar wanneer alleen de Cox resultaten (HRs) getoond worden vertelt dit niet het hele verhaal. Bijv als een groep in het begin een groot voordeel laat zien, maar richting het einde van de follow up het slechter doet dan zijn tegenhanger, dan is het te verwachten dat in een nog langere follow up periode het effect om kan gaan slaan. Deze informatie is goed om erbij te vermelden, als een lezer alleen de HR ziet, denkt ie dat de groep het overal in de tijd beter zal doen. Wanneer de variabele duidelijk (en verklaarbaar) een differentieel effect in de tijd laat zijn, dan kan het verstandig te zijn om 2 HRs te schatten, 1 voor de vroege periode en 1 voor de late. Dit kan mbv het aanmaken van een tijdsafhankelijke covariaat.<br />
<br />
==Hoe kan ik de output lezen van de analyse van een categorische variabele in een Cox model?==<br />
<br />
''Voor een cohort HIV geinfecteerde kinderen, gevolgd vanaf het moment dat ze met antiretrovirale medicatie starten, ben ik op zoek naar voorspellers van overlijden. Ik ben nu bezig met de Cox regressie (vooralsnog bezig met univariate analyse). Hieronder een voorbeeld van output van een categoriale variable (leeftijdscatgorieën) met meer dan 2 categorieën (referentie = kinderen>12 van wie we verwachten dat ze de beste prognose hebben) (1) (2) (3) betreffen 0-1jaar, 1-5jaar en 5-12jaar oude kinderen. Wat betekent de p-waarde die genoemd staat op de regel van de referentiewaarde?<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="10" | Variables in the Equation<br />
|-<br />
| colspan="2" rowspan="2"|&nbsp;<br />
|width="70" rowspan="2"| B<br />
|width="70" rowspan="2" | S.E.<br />
|width="70" rowspan="2"| Wald<br />
|width="70" rowspan="2"| df<br />
|width="70" rowspan="2"| Sig.<br />
|width="70" rowspan="2"| Exp(B)<br />
|colspan="2"| 95.0% C.I.for Exp(B)<br />
|-<br />
|width="70" |Lower<br />
|width="70" |Upper<br />
|-<br />
|width="70" rowspan="4" | Leeftijd<br />
|align="left" |leeftijd<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|23.539<br />
|align="right"|3<br />
|align="right"|.000<br />
|align="right"|<br />
|align="right"|<br />
|align="right"|<br />
|-<br />
|align="left" |leeftijd(1)<br />
|align="right"|1.094<br />
|align="right"|.261<br />
|align="right"|17.613<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.985<br />
|align="right"|1.791<br />
|align="right"|4.795<br />
|-<br />
||leeftijd(2)<br />
|align="right"|.773<br />
|align="right"|.211<br />
|align="right"|13.379<br />
|align="right"|1<br />
|align="right"|.000<br />
|align="right"|2.166<br />
|align="right"|1.431<br />
|align="right"|3.276<br />
|-<br />
|align="left" |leeftijd(3)<br />
|align="right"|.351<br />
|align="right"|.236<br />
|align="right"|2.206<br />
|align="right"|1<br />
|align="right"|.137<br />
|align="right"|1.420<br />
|align="right"|.894<br />
|align="right"|2.256<br />
|}<br />
<br />
De eerste regel laat het resultaat zien van de overall test voor de variabele. Dit is de test die als nulhypothese heeft dat alle 4 de categorieën dezelfde kans (eigenlijk hazard) hebben op overlijden. De toets kijkt of er ergens een verschil is in categorieën, je ziet ook dat de test 3 'degrees of freedom' heeft. Je kunt het vergelijken met een [[one-way ANOVA|ANOVA test]] bij het vergelijken van gemiddelde waarden in 4 groepen. De test hoort dus niet specifiek bij de referentiecategorie, dat vindt SPSS gewoon een handige locatie om 'm neer te zetten. In principe ga je als volgt te werk: je kijkt eerst of de overall test significant is. Als dat zo is, dan ben je geoorloofd om door te gaan en te kijken naar de verschillen tussen de categorieën onderling.<br />
<br />
==Hoe rapporteer ik de resultaten van een categorische variabele in een Cox model?==<br />
''Ik heb een coxregressie uitgevoerd met een dichotome uitkomstmaat (wel/geen artritis ontwikkeling) en de variabele is een categorische maat (0-4). Normaal gesproken ben ik gewend om de uitslag met een continue variabele als volgt te noteren: HR x.x (95% CI x.x to x.x); p=0.xxx. Nu las ik echter dat je vanwege de categorische maat moet kijken naar de Wald uitslag; hier komt wel een p-waarde uit, maar geen CI e.d. Hoe moet je deze uitslag dan noteren in een manuscript?<br />
<br />
Meestal worden de significantietoetsen van HR's in Cox regressie met een Wald statistic gegenereerd. Dat geldt evengoed voor continue als voor categorische voorspellers. Wat hier wellicht het issue is, is dat er bij het evalueren van een categorical voorspeller eerst bekeken moet worden of de 'overal' toets significant is, dwz of de toets die kijkt of het opsplitsen in de 5 categorien (met 4 df) bijdraagt aan het model sign is. Als die uitslag positief is, kun je door gaan met inzoomen op de verschillende contrasten (HR's) apart en deze op gebruikelijke wijze met 95% CI rapporteren. De p-waardes van de losse HR's zijn doorgaans wat minder relevant omdat deze zeer afhankelijk zijn van de gekozen referentiecategorie.<br />
<br />
==Mijn Cox regressie convergeert niet, heb ik wel de juiste analyse gebruikt?==<br />
''Ik wil graag een Cox regression doen op een patiënten cohort om te bepalen of sommige variabelen een independent predictive value hebben. Ik heb een cohort van 86 patiënten. Voor de cohort wil ik 8 variabelen vergelijken, 7 binaire en een continue (leeftijd). In de cohort waren er 6 events. Als ik het Cox regression model dan probeer te runnen krijg ik de volgende warning: ‘Since coefficients did not converge no further models will be fitted’. De tabel geeft dan voor alle variabelen een significantie van 1 en een hazard ratio van 1. Wat betekent dit? En is een Cox regression wel de geschikte test voor mijn data dan?<br />
<br />
Ik denk dat je last hebt van een ernstige vorm van te weinig power. Je hebt maar 6 events in de data. Voor een Cox regressie zijn er volgens de vuistregels 10 a 20 events per parameter die je wilt testen nodig. Met 6 events kun je helaas niet zinvol naar effecten van variabelen kijken mbv een Cox model. Uiteraard kun je wel de ruwe data beschrijven.<br />
<br />
<br />
==Waar vind ik het Cox proportional hazards model in SPSS?==<br />
Je vindt de Kaplan Meier analyse in SPSS 16 onder Analyze -> Survival -> Cox Regression of Cox w./ Time Dep Cov.<br />
<br />
= Referenties =<br />
* [http://www.bmj.com/cgi/reprint/317/7156/468 Altman DG, Bland JM. Time to event (survival) data. BMJ 1998;317:468-9.]<br />
* [http://ccforum.com/content/8/5/389 Bewick V, Cheek L, Ball J. Statistics review 12: Survival analysis. Critical Care 2004, 8:389-394. ]<br />
* [http://www.bmj.com/cgi/reprint/317/7172/1572 Bland JM, Altman DG. Survival probabilities. The Kaplan-Meier method. BMJ 1998;317:1572.]<br />
*[http://www.bmj.com/cgi/reprint/328/7447/1073 Bland JM and Altman DG. The log rank test. BMJ 2004;Vol 328 may 2004.]<br />
*[http://www.biecek.pl/statystykaMedyczna/Stevenson_survival_analysis_195.721.pdf An Introduction to Survival Analysis - by Mark Stevenson from EpiCentre, IVABS, Massey University]. 31 pagina's cursusmateriaal (Engels) met voorbeeld syntax in [[statistische software#R|R]].<br />
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3227332/ Singh R and Mukhopadhyay K. Survival analysis in clinical trials: Basics and must know areas. Perspect Clin Res. 2011 Oct-Dec; 2(4): 145–148.] <br />
*Hosmer, D. W., and S. Lemeshow. 1999. Applied Survival Analysis. New York: John Wiley and Sons.<br />
*Kleinbaum, D. G. 1996. Survival Analysis: A Self-Learning Text. New York: Springer-Verlag.<br />
*Norusis, M. 2004. SPSS 13.0 Advanced Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc..<br />
*[http://youtu.be/YQ9538U8cPc R tutorial survival analyse] - youtube filmpje met uitleg over uitvoeren van een survival analyse in [[statistische software#R|R]].<br />
*[http://youtu.be/wTLsw-Ckfvw R tutorial Cox analyse] - youtube filmpje met uitleg over uitvoeren van een Cox analyse in [[statistische software#R|R]].<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Statistiek_rapporteren&diff=3482Statistiek rapporteren2023-01-11T11:03:18Z<p>M Wolvers: /* Overige richtlijnen */ url aangepast</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
<br />
==Hoe rapporteer ik de de resultaten van niet significante bevindingen?==<br />
<br />
''Momenteel zijn wij bezig met het opschrijven van een onderzoek waarbij wij logistische regressie hebben gebruikt. Er bestaat enige twijfel hoe wij deze uitkomsten het best kunnen noteren in het uiteindelijke artikel. Het gaat om de resultaten met een niet significante uitkomst waarbij we nu de p-waarde hebben genoteerd en daarbij de B waarde (wanneer significant noteren we OR en confidence interval). <br />
<br />
Er zijn nog steeds veel verschillen in hoe de resultaten van statistische analyses worden getoond. Je zou de volgende insteek kunnen aanhouden: als je een tabel maakt met daarin de resultaten van je analyses, vermeld dan alle getoetste variabelen. Dus ook degenen die niet significant waren. Daarmee laat je duidelijk zien wat er in je model zat en iedereen die later nog eens onderzoek wil doen naar die niet-significante factoren kan precies zien wat er uit jouw analyse kwam. Bij een [[logistische regressie]] is vermelding van de combinatie van OR - confidence interval - p-waarde vaak voldoende. De B staat in directe relatie tot de OR (OR=e^B, dakje betekent tot de macht), dus met de een kun je zelf altijd de ander berekenen.<br />
Als je de resultaten uit de tabel ook bespreekt in de teksts, dan kun je de significante aanhalen met het getal erbij en de niet significante zonder getallen (die zijn op te zoeken in de tabel). <br />
<br />
Let wel op: sommige journals zijn heel streng op overlappende informatie in de tabel en de tekst. In dat geval kies je voor een van de twee manieren. Iig zou ik er voor zorgen dat ook de OR/conf int/p-waarde van niet-significante resultaten ergens genoemd staan.<br />
<br />
==Hoe rapporteer ik zeer kleine p waarden?==<br />
<br />
''Van een reviewer kreeg ik de volgende vraag: <br />
<br />
''Statistics are reported to be p=0.00 in several instances. Usually one chooses a priori the risk of a type I error by deciding that p < 0.05 will be considered statistically significant. Some authors report the actual p-value if less than 0.05 to signify a strong probability that the null hypothesis is wrong. If p-values are to be reported, the necessary number of digits must be reported, e.g. p<0.001 or similar, but the p-value should not be abbreviated to 0.00 unless the test actually returns this value, highly unlikely. <br />
<br />
''Wat kan ik het beste rapporteren?<br />
<br />
In het algemeen is afronden ok, alleen als er dan 0.00 uitkomt is onduidelijk of dit bijv is 0.004 of 0.0000000000000000000000000000001 is. Het beste kun je zo'n getal rapporteren met meer cijfers achter de komma (0.004), of met bijvoorbeeld <0.001 wanneer er nog steeds nullen zijn op 3 cijfers achter de komma.<br />
<br />
==Statistische richtlijnen van medische tijdschriften==<br />
<br />
*[http://www.equator-network.org/reporting-guidelines/sampl/ The SAMPL Guidelines.] Basic Statistical Reporting for Articles Published in Biomedical Journals: The “Statistical Analyses and Methods in the Published Literature” or The SAMPL Guidelines<br />
*[http://www.consort-statement.org/ CONSORT statement] The CONsolidated Standards of Reporting Trials Statement is intended to improve the reporting of a randomized controlled trial (RCT), enabling readers to understand a trial's design, conduct, analysis and interpretation, and to assess the validity of its results<br />
*[http://www.equator-network.org/ The Equator Network] biedt alle laatste versies van guidelines behorend bij specifieke designs (meta-analyse, diagnostische studie, observationele studie etc.)<br />
*[http://www.editorialmanager.com/jtcvs/account/Statistical%20Release%20Statement.pdf Journal of Thoracic and cardiovascular surgery statistical release statement]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/?term=22482869 The process of continuous journal improvement: new author guidelines for statistical and analytical reporting in VACCINE. Oberg AL, Poland GA. Vaccine. 2012 Apr 19;30(19):2915-7.]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/3082452 Gardner MJ, Machin D, Campbell MJ, “Use of Check Lists in Assessing the Statistical Content of Medical Studies” BMJ. 1986;292:810-2]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/3341656 Bailar JC, Mosteller F, “Guidelines for Statistical Reporting in Articles for Medical Journals” Ann Intern Med. 1988;108:226-73]<br />
<br />
==Overige richtlijnen ==<br />
<br />
*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500002928.pdf ICH Topic E9 Statistical Principles for Clinical Trials] - Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). <br />
*[https://psychology.yale.edu/sites/default/files/bemempirical.pdf Writing the Empirical Journal Article, Daryl J. Bem] - Veel nuttige adviezen over wat er in een artikel moet staan. Ook adviezen over taalgebruik / vorm en over het beantwoorden van commentaar van reviewers.<br />
*[https://journals.sagepub.com/doi/epdf/10.1177/009286159402800237 Statisticians in the Pharmaceutical Industry: Guidelines For Standard Operating Procedures for Good Statistical Practice in Clinical Research] - Richtlijnen voor het volgens GCP standaarden uitvoeren en rapporteren van statistische analyses.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Statistiek_rapporteren&diff=3481Statistiek rapporteren2023-01-11T10:53:27Z<p>M Wolvers: /* Hoe rapporteer ik zeer kleine p waarden? */ typfoutjes</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
<br />
==Hoe rapporteer ik de de resultaten van niet significante bevindingen?==<br />
<br />
''Momenteel zijn wij bezig met het opschrijven van een onderzoek waarbij wij logistische regressie hebben gebruikt. Er bestaat enige twijfel hoe wij deze uitkomsten het best kunnen noteren in het uiteindelijke artikel. Het gaat om de resultaten met een niet significante uitkomst waarbij we nu de p-waarde hebben genoteerd en daarbij de B waarde (wanneer significant noteren we OR en confidence interval). <br />
<br />
Er zijn nog steeds veel verschillen in hoe de resultaten van statistische analyses worden getoond. Je zou de volgende insteek kunnen aanhouden: als je een tabel maakt met daarin de resultaten van je analyses, vermeld dan alle getoetste variabelen. Dus ook degenen die niet significant waren. Daarmee laat je duidelijk zien wat er in je model zat en iedereen die later nog eens onderzoek wil doen naar die niet-significante factoren kan precies zien wat er uit jouw analyse kwam. Bij een [[logistische regressie]] is vermelding van de combinatie van OR - confidence interval - p-waarde vaak voldoende. De B staat in directe relatie tot de OR (OR=e^B, dakje betekent tot de macht), dus met de een kun je zelf altijd de ander berekenen.<br />
Als je de resultaten uit de tabel ook bespreekt in de teksts, dan kun je de significante aanhalen met het getal erbij en de niet significante zonder getallen (die zijn op te zoeken in de tabel). <br />
<br />
Let wel op: sommige journals zijn heel streng op overlappende informatie in de tabel en de tekst. In dat geval kies je voor een van de twee manieren. Iig zou ik er voor zorgen dat ook de OR/conf int/p-waarde van niet-significante resultaten ergens genoemd staan.<br />
<br />
==Hoe rapporteer ik zeer kleine p waarden?==<br />
<br />
''Van een reviewer kreeg ik de volgende vraag: <br />
<br />
''Statistics are reported to be p=0.00 in several instances. Usually one chooses a priori the risk of a type I error by deciding that p < 0.05 will be considered statistically significant. Some authors report the actual p-value if less than 0.05 to signify a strong probability that the null hypothesis is wrong. If p-values are to be reported, the necessary number of digits must be reported, e.g. p<0.001 or similar, but the p-value should not be abbreviated to 0.00 unless the test actually returns this value, highly unlikely. <br />
<br />
''Wat kan ik het beste rapporteren?<br />
<br />
In het algemeen is afronden ok, alleen als er dan 0.00 uitkomt is onduidelijk of dit bijv is 0.004 of 0.0000000000000000000000000000001 is. Het beste kun je zo'n getal rapporteren met meer cijfers achter de komma (0.004), of met bijvoorbeeld <0.001 wanneer er nog steeds nullen zijn op 3 cijfers achter de komma.<br />
<br />
==Statistische richtlijnen van medische tijdschriften==<br />
<br />
*[http://www.equator-network.org/reporting-guidelines/sampl/ The SAMPL Guidelines.] Basic Statistical Reporting for Articles Published in Biomedical Journals: The “Statistical Analyses and Methods in the Published Literature” or The SAMPL Guidelines<br />
*[http://www.consort-statement.org/ CONSORT statement] The CONsolidated Standards of Reporting Trials Statement is intended to improve the reporting of a randomized controlled trial (RCT), enabling readers to understand a trial's design, conduct, analysis and interpretation, and to assess the validity of its results<br />
*[http://www.equator-network.org/ The Equator Network] biedt alle laatste versies van guidelines behorend bij specifieke designs (meta-analyse, diagnostische studie, observationele studie etc.)<br />
*[http://www.editorialmanager.com/jtcvs/account/Statistical%20Release%20Statement.pdf Journal of Thoracic and cardiovascular surgery statistical release statement]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/?term=22482869 The process of continuous journal improvement: new author guidelines for statistical and analytical reporting in VACCINE. Oberg AL, Poland GA. Vaccine. 2012 Apr 19;30(19):2915-7.]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/3082452 Gardner MJ, Machin D, Campbell MJ, “Use of Check Lists in Assessing the Statistical Content of Medical Studies” BMJ. 1986;292:810-2]<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/3341656 Bailar JC, Mosteller F, “Guidelines for Statistical Reporting in Articles for Medical Journals” Ann Intern Med. 1988;108:226-73]<br />
<br />
==Overige richtlijnen ==<br />
<br />
*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500002928.pdf ICH Topic E9 Statistical Principles for Clinical Trials] - Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). <br />
*[http://www.writingcenter.uconn.edu/pdf/Writing_the_Empirical_Journal_Article_BEM.pdf Writing the Empirical Journal Article, Daryl J. Bem] - Veel nuttige adviezen over wat er in een artikel moet staan. Ook adviezen over taalgebruik / vorm en over het beantwoorden van commentaar van reviewers.<br />
*[http://www.psiweb.org/docs/gsop.pdf Statisticians in the Pharmaceutical Industry: Guidelines For Standard Operating Procedures for Good Statistical Practice in Clinical Research] - Richtlijnen voor het volgens GCP standaarden uitvoeren en rapporteren van statistische analyses.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Associatiematen_2x2_tabel&diff=3480Associatiematen 2x2 tabel2023-01-11T10:50:11Z<p>M Wolvers: /* Kan ik een OR interpreteren als een RR? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Rob de Haan|prof. dr. R.J. de Haan]]<br />
|coauthor= [[user:Michel Soete|M. Soete]]<br />
}}<br />
==Relatief risico==<br />
Het relatieve risico (RR), ook wel risk ratio genoemd, is een bekende associatiemaat voor variabelen met twee uitkomstcategorieën. De maat drukt de sterkte uit van het verband tussen een determinant en een uitkomst. De waarden van het RR liggen tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie het RR gelijk is aan 1.<br />
Laten we ervan uitgaan dat we in een grootschalige, placebogecontroleerde klinische trial (n=4444) het effect willen onderzoek van langdurig statine gebruik op de reductie van sterfte. De onderzoekgroep wordt gevormd door patiënten die een myocard infarct hebben gehad of lijden aan angina pectoris. De trial laat de volgende resultaten zien.<br />
<br />
<center><br />
<table><br />
<tr><td></td><td> wel sterfte</td><td>geen sterfte</td><td>totaal</td></tr><br />
<tr><td>statine </td><td>182 (a) </td><td>2039 (b)</td><td>2221 (a+b)</td></tr><br />
<tr><td>placebo </td><td>256 (c) </td><td>1967 (d)</td><td>2223 (c+d)</td></tr><br />
</table><br />
</center><br />
<br />
Het RR wordt berekend door:<br />
<br />
(a/(a+b)) / (c/(c+d)) = (182/2221) / (256/2223) = 0.71<br />
<br />
<br />
Men deelt dus de kans op het optreden van sterfte in de behandelgroep door de kans op het optreden van sterfte in de placebogroep. Anders geformuleerd; het RR drukt de verhouding uit tussen de sterfte incidentie onder patiënten die wel of niet behandeld zijn. RR < 1 betekent in dit voorbeeld een gunstig behandeleffect, een RR > 1 een ongunstig effect. Met andere woorden: statine reduceert de kans op sterfte met een factor 0,71. De associatie tussen behandeling en uitkomst blijkt ook significant te zijn: p < 0,001 ([[Chi-kwadraat toets]]).<br />
<br />
==Relatieve risicoreductie==<br />
Aan de hand van het bovenstaande voorbeeld kan ook de zogenaamde relatieve risicoreductie (RRR) worden berekend. De RRR wordt berekend door: <br />
<br />
100% * (1 – RR) = 100% * (1 – 0,71) = 29%. <br />
<br />
Met andere woorden: door de statine behandeling daalt het sterfterisico met 29%.<br />
<br />
==Absolute risicoreductie==<br />
Men kan de afname van sterfterisico ook uitdrukken in een absolute risicoreductie (ARR). Het sterftepercentage in de statine groep is (182/2221) = 8,2% en in de placebogroep (256/2223) = 11,5%. De ARR is dus 11,5% - 8,2 = 3,3%. Met andere woorden: door 100 patiënten te behandelen spaart met 3,3 levens.<br />
<br />
==Number Needed to Treat==<br />
De inverse van de ARR is de Number Needed to Treat (NNT). Deze maat geeft goed inzicht in de klinische relevantie van een therapeutisch effect. De NNT wordt als volgt berekend: <br />
100% / ARR. In dit voorbeeld is de NNT dus 100% / 3,3 = 30. Met andere woorden: om 1 sterfgeval te voorkomen, moet men 30 patiënten met statine behandelen. <br />
<br />
==Odds ratio==<br />
De associatie tussen variabelen met twee uitkomstcategorieën kan ook uitgedrukt worden in een odds ratio (OR). De keuze tussen OR en RR is afhankelijk van het onderzoeksdesign. In het trialvoorbeeld van hiervoor is er sprake van een prospectieve studieopzet, die de mogelijkheid biedt om een absolute kans uit te rekenen op het optreden van een bepaalde uitkomst. In andere onderzoekssituaties, zoals in case-control onderzoek of retrospectief onderzoek, is het niet mogelijk deze absolute kans direct te berekenen worden, en moet een alternatieve associatiemaat worden gebruikt: de odds ratio (OR). De OR kan gezien worden als een schatter van het RR, waarbij het niet gaat om het berekenen van absolute kansen op de uitkomstvariabelen, maar om de relatieve kansen daarvan. Net als bij het RR liggen de waarden van de OR tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie de OR gelijk is aan 1.<br />
Laten we ervan uitgaan dat we in een case-control studie de associatie willen onderzoeken tussen roken en het krijgen van een cardiovasculaire aandoening (voorbeeld ontleend aan “Inleiding in de toegepaste biostatistiek” van J.W.R Twisk, Elsevier Gezondheidszorg, Maarssen, 2007). Onder de cases met een cardiovasculaire aandoening (=147) bevinden zich 86 rokers (59%), in de controlegroep zonder cardiovasculaire aandoening (n=53) roken 14 personen (26%).<br />
<br />
<center><br />
<table><br />
<tr><td></td><td> cardiov aandoening</td><td>geen cardiov aandoening</td></tr><br />
<tr><td>roken </td><td>86 (a) </td><td>14 (b)</td></tr><br />
<tr><td>niet roken </td><td>61 (c) </td><td>39 (d)</td></tr><br />
</table><br />
</center><br />
<br />
De OR wordt berekend door:<br />
<br />
(a/b) / (c/d) = (86/14) / (61/39) = 3,9<br />
<br />
Men deelt dus de verhouding van kansen. De verhoudingen a/b en c/d worden in het Engels ‘odds’ genoemd. In dit voorbeeld is a/b de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder rokers, en c/d de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder niet-rokers. De OR is dus een maat voor de risicoverhouding op ziekte bij aanwezigheid of afwezigheid van de determinant. OR < 1 betekent in dit voorbeeld een beschermend effect van de determinant op de uitkomst, een OR > 1 een schadelijk effect. Met andere woorden: de odds op het hebben van een cardiovasculaire aandoening voor rokers is 3,9 keer zo groot als de odds op het hebben van deze aandoening voor niet-rokers. Deze associatie blijkt ook significant te zijn: p < 0,001 ([[Chi-kwadraat toets]]).<br />
<br />
Omdat de interpretatie van een odds nogal lastig is, wordt de OR vaak opgevat als een [[Associatiematen_2x2_tabel#Relatief risico|RR]], maar zij zijn niet hetzelfde. De OR is namelijk altijd een overschatting van het RR. Deze overschatting wordt groter naarmate de prevalentie van de uitkomstvariabele groter wordt.<br />
<br />
De odds ratio wordt veel gebruikt bij [[logistische regressie]].<br />
<br />
==Hoe werkt de diagnostische odds ratio?==<br />
<br />
De odds ratio, afgekort als OR, is een associatiemaat voor variabelen met twee uitkomstcategorieën. De odds ratio wordt in de geneeskunde vaak toegepast als risicomaat voor de associatie van een risicofactor met een ziektetoestand. Ook kan de odds ratio worden gebruikt bij het evalueren van [[diagnostisch onderzoek|diagnostische testen]], we spreken dan van de diagnostische odds ratio. De 2x2 tabel ziet er dan als volgt uit.<br />
<br />
<center><br />
<table><br />
<tr><td></td><td>Wel ziekte</td><td>Geen ziekte</td><td>totaal</td></tr><br />
<tr><td>Positieve testuitslag</td><td>a</td><td>b</td><td>a+b</td></tr><br />
<tr><td>Negatieve testuitslag</td><td>c</td><td>d</td><td>c+d</td></tr><br />
<tr><td>totaal</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr><br />
</table><br />
</center><br />
<br />
a is dan het aantal van de 'waar-positieven' en die frequentie is, tenzij bij gebrek aan associatie, relatief gezien altijd hoger bij diegenen die een positieve testuitslag hebben dan bij de 'negatieven' a/(a+b)> c/(c+d) en hoger dan de prevalentie (a+c)/(a+b+c+d). 'Waar-positieven' zijn personen die (terecht) positief zijn omdat ze ook tevens ziek zijn. b is dan de frequentie van de 'vals-positieven', deze scoren positief op de test maar zijn niet ziek, c is het aantal 'vals-negatieven', d is het aantal 'waar-negatieven'. De diagnostische OR is hier het product der 'waren' (a*d) gedeeld door het product der 'valsen' (b*c):<br />
<br />
:<math>OR = \frac{a/b}{c/d}=\frac{a*d}{b*c}.</math><br />
<br />
Is de OR van test A groter dan die van test B dan is test A diagnostisch beter dan test B. <br />
<br />
De OR kan ook gebruikt worden om te oordelen of een test beantwoordt aan een mathematische eis voor een screening test. Volgens bepaalde auteurs zou de OR van een screeningtest gelijk aan of groter dan 100 moeten zijn. <br />
<br />
== Hoe transformeer ik een OR van onder de 1 naar een OR boven de 1? ==<br />
<br />
''In mijn onderzoek ben ik na een regressie analyse op een odds ratio en een CI van 0.65 en 0.43-0.97 respectivelijk uitgekomen. Nu zou ik deze willen omrekenen naar een odds/CI boven de 1. Kan dat en zo ja hoe?<br />
<br />
Om de odds ratio "de andere kant op" te krijgen, moet je de referentie categorie van de variabele veranderen. Bijvoorbeeld: als mannen vs vrouwen, waarbij vrouwen je referentie (0) is, een OR <1 geeft, dan geeft vrouwen vs mannen, waarbij mannen je referentie (0) is, een OR>1. De resulterende OR is gelijk aan de reciproke (of inverse) van de OR (1/OR).<br />
<br />
NB: Het heeft geen zin bij de [[Associatiematen_2x2_tabel#Hoe_werkt_de_diagnostische_odds_ratio.3F|diagnostische OR]] de inverse odds ratio te berekenen. De diagnostische OR is steeds groter dan 1. Dit volgt uit de bepaling van het begrip 'positief testresultaat'. Een positief testresultaat is een testresultaat dat relatief gezien meer bij personen voorkomt die aan de doelziekte (target disease) lijden dan bij personen die er niet aan lijden. a/(a +c) moet bij de diagnostische odds ratio dus altijd groter zijn dan c/(c+d).<br />
<br />
== Kan ik een OR interpreteren als een RR? ==<br />
''Ik heb altijd geleerd dat odds ratio's niet geïnterpreteerd mogen worden als risico's. In dit [http://www.ncbi.nlm.nih.gov/pubmed/24581683 artikel uit de Lancet], zoeken ze naar een verband tussen verpleging (aantal per patiënten / opleiding) en ziekenhuissterfte. Daar eindigen ze uiteindelijk met odds ratio's (1.068 en 0.929) waaruit ze concluderen dat het een stap ophogen van de ene een toename van 7% in mortaliteit oplevert en een toename van de andere een afname van mortaliteit oplevert van 7%. Waarom mag je hier de OR wel interpreteren als een risico waarde?<br />
<br />
Je hebt gelijk, een OR van 1.068 betekent dat de odds op mortaliteit 7% hoger is en niet dat sec het risico op mortaliteet 7% hoger is. Echter, wanneer prevalentie laag is (weinig mortaliteit overall), dan zullen de OR en RR erg op elkaar gaan lijken en dan kan de OR ook gebruikt worden als een benadering voor de RR. Zie voor achtergrond daarbij de volgende [http://www.wynneconsult.com/root/Assoc/Rela315.htm kennisbasis statistiek] pagina's.<br />
<br />
== Referenties ==<br />
*Een heldere uitleg over wanneer een odds ratio en wanneer een relatief risico te gebruiken [http://www.wynneconsult.com/root/Assoc/Rela315.htm]. Klik door op "Kennisbasis Statistiek".<br />
<br />
*Een voorbeeld van het gebruik van de diagnostische odds ratio: [http://www.bmj.com/content/339/bmj.b3537?tab=responses M. Soete (2009). The odds ratio gives proof that the PSA-test does not meet the formal requirements for a screening test, rapid response, BMJ.]<br />
<br />
*[http://thestatsgeek.com/2015/01/03/interpreting-odds-and-odds-ratios/ TheStatsGeek - Interpreting odds and odds ratios] Een heldere (engelstalige) uitleg over wat de odds betekent en waarom we deze zoveel gebruiken.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Associatiematen_2x2_tabel&diff=3479Associatiematen 2x2 tabel2023-01-11T10:45:29Z<p>M Wolvers: /* Kan ik een OR interpreteren als een RR? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Rob de Haan|prof. dr. R.J. de Haan]]<br />
|coauthor= [[user:Michel Soete|M. Soete]]<br />
}}<br />
==Relatief risico==<br />
Het relatieve risico (RR), ook wel risk ratio genoemd, is een bekende associatiemaat voor variabelen met twee uitkomstcategorieën. De maat drukt de sterkte uit van het verband tussen een determinant en een uitkomst. De waarden van het RR liggen tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie het RR gelijk is aan 1.<br />
Laten we ervan uitgaan dat we in een grootschalige, placebogecontroleerde klinische trial (n=4444) het effect willen onderzoek van langdurig statine gebruik op de reductie van sterfte. De onderzoekgroep wordt gevormd door patiënten die een myocard infarct hebben gehad of lijden aan angina pectoris. De trial laat de volgende resultaten zien.<br />
<br />
<center><br />
<table><br />
<tr><td></td><td> wel sterfte</td><td>geen sterfte</td><td>totaal</td></tr><br />
<tr><td>statine </td><td>182 (a) </td><td>2039 (b)</td><td>2221 (a+b)</td></tr><br />
<tr><td>placebo </td><td>256 (c) </td><td>1967 (d)</td><td>2223 (c+d)</td></tr><br />
</table><br />
</center><br />
<br />
Het RR wordt berekend door:<br />
<br />
(a/(a+b)) / (c/(c+d)) = (182/2221) / (256/2223) = 0.71<br />
<br />
<br />
Men deelt dus de kans op het optreden van sterfte in de behandelgroep door de kans op het optreden van sterfte in de placebogroep. Anders geformuleerd; het RR drukt de verhouding uit tussen de sterfte incidentie onder patiënten die wel of niet behandeld zijn. RR < 1 betekent in dit voorbeeld een gunstig behandeleffect, een RR > 1 een ongunstig effect. Met andere woorden: statine reduceert de kans op sterfte met een factor 0,71. De associatie tussen behandeling en uitkomst blijkt ook significant te zijn: p < 0,001 ([[Chi-kwadraat toets]]).<br />
<br />
==Relatieve risicoreductie==<br />
Aan de hand van het bovenstaande voorbeeld kan ook de zogenaamde relatieve risicoreductie (RRR) worden berekend. De RRR wordt berekend door: <br />
<br />
100% * (1 – RR) = 100% * (1 – 0,71) = 29%. <br />
<br />
Met andere woorden: door de statine behandeling daalt het sterfterisico met 29%.<br />
<br />
==Absolute risicoreductie==<br />
Men kan de afname van sterfterisico ook uitdrukken in een absolute risicoreductie (ARR). Het sterftepercentage in de statine groep is (182/2221) = 8,2% en in de placebogroep (256/2223) = 11,5%. De ARR is dus 11,5% - 8,2 = 3,3%. Met andere woorden: door 100 patiënten te behandelen spaart met 3,3 levens.<br />
<br />
==Number Needed to Treat==<br />
De inverse van de ARR is de Number Needed to Treat (NNT). Deze maat geeft goed inzicht in de klinische relevantie van een therapeutisch effect. De NNT wordt als volgt berekend: <br />
100% / ARR. In dit voorbeeld is de NNT dus 100% / 3,3 = 30. Met andere woorden: om 1 sterfgeval te voorkomen, moet men 30 patiënten met statine behandelen. <br />
<br />
==Odds ratio==<br />
De associatie tussen variabelen met twee uitkomstcategorieën kan ook uitgedrukt worden in een odds ratio (OR). De keuze tussen OR en RR is afhankelijk van het onderzoeksdesign. In het trialvoorbeeld van hiervoor is er sprake van een prospectieve studieopzet, die de mogelijkheid biedt om een absolute kans uit te rekenen op het optreden van een bepaalde uitkomst. In andere onderzoekssituaties, zoals in case-control onderzoek of retrospectief onderzoek, is het niet mogelijk deze absolute kans direct te berekenen worden, en moet een alternatieve associatiemaat worden gebruikt: de odds ratio (OR). De OR kan gezien worden als een schatter van het RR, waarbij het niet gaat om het berekenen van absolute kansen op de uitkomstvariabelen, maar om de relatieve kansen daarvan. Net als bij het RR liggen de waarden van de OR tussen 0 (maximale negatieve associatie) en +oneindig (maximale positieve associatie), terwijl bij het ontbreken van associatie de OR gelijk is aan 1.<br />
Laten we ervan uitgaan dat we in een case-control studie de associatie willen onderzoeken tussen roken en het krijgen van een cardiovasculaire aandoening (voorbeeld ontleend aan “Inleiding in de toegepaste biostatistiek” van J.W.R Twisk, Elsevier Gezondheidszorg, Maarssen, 2007). Onder de cases met een cardiovasculaire aandoening (=147) bevinden zich 86 rokers (59%), in de controlegroep zonder cardiovasculaire aandoening (n=53) roken 14 personen (26%).<br />
<br />
<center><br />
<table><br />
<tr><td></td><td> cardiov aandoening</td><td>geen cardiov aandoening</td></tr><br />
<tr><td>roken </td><td>86 (a) </td><td>14 (b)</td></tr><br />
<tr><td>niet roken </td><td>61 (c) </td><td>39 (d)</td></tr><br />
</table><br />
</center><br />
<br />
De OR wordt berekend door:<br />
<br />
(a/b) / (c/d) = (86/14) / (61/39) = 3,9<br />
<br />
Men deelt dus de verhouding van kansen. De verhoudingen a/b en c/d worden in het Engels ‘odds’ genoemd. In dit voorbeeld is a/b de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder rokers, en c/d de verhouding tussen de kans op het wel en niet hebben van een cardiovasculaire aandoening onder niet-rokers. De OR is dus een maat voor de risicoverhouding op ziekte bij aanwezigheid of afwezigheid van de determinant. OR < 1 betekent in dit voorbeeld een beschermend effect van de determinant op de uitkomst, een OR > 1 een schadelijk effect. Met andere woorden: de odds op het hebben van een cardiovasculaire aandoening voor rokers is 3,9 keer zo groot als de odds op het hebben van deze aandoening voor niet-rokers. Deze associatie blijkt ook significant te zijn: p < 0,001 ([[Chi-kwadraat toets]]).<br />
<br />
Omdat de interpretatie van een odds nogal lastig is, wordt de OR vaak opgevat als een [[Associatiematen_2x2_tabel#Relatief risico|RR]], maar zij zijn niet hetzelfde. De OR is namelijk altijd een overschatting van het RR. Deze overschatting wordt groter naarmate de prevalentie van de uitkomstvariabele groter wordt.<br />
<br />
De odds ratio wordt veel gebruikt bij [[logistische regressie]].<br />
<br />
==Hoe werkt de diagnostische odds ratio?==<br />
<br />
De odds ratio, afgekort als OR, is een associatiemaat voor variabelen met twee uitkomstcategorieën. De odds ratio wordt in de geneeskunde vaak toegepast als risicomaat voor de associatie van een risicofactor met een ziektetoestand. Ook kan de odds ratio worden gebruikt bij het evalueren van [[diagnostisch onderzoek|diagnostische testen]], we spreken dan van de diagnostische odds ratio. De 2x2 tabel ziet er dan als volgt uit.<br />
<br />
<center><br />
<table><br />
<tr><td></td><td>Wel ziekte</td><td>Geen ziekte</td><td>totaal</td></tr><br />
<tr><td>Positieve testuitslag</td><td>a</td><td>b</td><td>a+b</td></tr><br />
<tr><td>Negatieve testuitslag</td><td>c</td><td>d</td><td>c+d</td></tr><br />
<tr><td>totaal</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr><br />
</table><br />
</center><br />
<br />
a is dan het aantal van de 'waar-positieven' en die frequentie is, tenzij bij gebrek aan associatie, relatief gezien altijd hoger bij diegenen die een positieve testuitslag hebben dan bij de 'negatieven' a/(a+b)> c/(c+d) en hoger dan de prevalentie (a+c)/(a+b+c+d). 'Waar-positieven' zijn personen die (terecht) positief zijn omdat ze ook tevens ziek zijn. b is dan de frequentie van de 'vals-positieven', deze scoren positief op de test maar zijn niet ziek, c is het aantal 'vals-negatieven', d is het aantal 'waar-negatieven'. De diagnostische OR is hier het product der 'waren' (a*d) gedeeld door het product der 'valsen' (b*c):<br />
<br />
:<math>OR = \frac{a/b}{c/d}=\frac{a*d}{b*c}.</math><br />
<br />
Is de OR van test A groter dan die van test B dan is test A diagnostisch beter dan test B. <br />
<br />
De OR kan ook gebruikt worden om te oordelen of een test beantwoordt aan een mathematische eis voor een screening test. Volgens bepaalde auteurs zou de OR van een screeningtest gelijk aan of groter dan 100 moeten zijn. <br />
<br />
== Hoe transformeer ik een OR van onder de 1 naar een OR boven de 1? ==<br />
<br />
''In mijn onderzoek ben ik na een regressie analyse op een odds ratio en een CI van 0.65 en 0.43-0.97 respectivelijk uitgekomen. Nu zou ik deze willen omrekenen naar een odds/CI boven de 1. Kan dat en zo ja hoe?<br />
<br />
Om de odds ratio "de andere kant op" te krijgen, moet je de referentie categorie van de variabele veranderen. Bijvoorbeeld: als mannen vs vrouwen, waarbij vrouwen je referentie (0) is, een OR <1 geeft, dan geeft vrouwen vs mannen, waarbij mannen je referentie (0) is, een OR>1. De resulterende OR is gelijk aan de reciproke (of inverse) van de OR (1/OR).<br />
<br />
NB: Het heeft geen zin bij de [[Associatiematen_2x2_tabel#Hoe_werkt_de_diagnostische_odds_ratio.3F|diagnostische OR]] de inverse odds ratio te berekenen. De diagnostische OR is steeds groter dan 1. Dit volgt uit de bepaling van het begrip 'positief testresultaat'. Een positief testresultaat is een testresultaat dat relatief gezien meer bij personen voorkomt die aan de doelziekte (target disease) lijden dan bij personen die er niet aan lijden. a/(a +c) moet bij de diagnostische odds ratio dus altijd groter zijn dan c/(c+d).<br />
<br />
== Kan ik een OR interpreteren als een RR? ==<br />
''Ik heb altijd geleerd dat odds ratio's niet geïnterpreteerd mogen worden als risico's. In dit[http://www.ncbi.nlm.nih.gov/pubmed/24581683 artikel uit de Lancet], zoeken ze naar een verband tussen verpleging (aantal per patiënten / opleiding) en ziekenhuissterfte. Daar eindigen ze uiteindelijk met odds ratio's (1.068 en 0.929) waaruit ze concluderen dat het een stap ophogen van de ene een toename van 7% in mortaliteit oplevert en een toename van de andere een afname van mortaliteit oplevert van 7%. Waarom mag je hier de OR wel interpreteren als een risico waarde?<br />
<br />
Je hebt gelijk, een OR van 1.068 betekent dat de odds op mortaliteit 7% hoger is en niet dat sec het risico op mortaliteet 7% hoger is. Echter, wanneer prevalentie laag is (weinig mortaliteit overall), dan zullen de OR en RR erg op elkaar gaan lijken en dan kan de OR ook gebruikt worden als een benadering voor de RR. Zie voor achtergrond daarbij de volgende [http://www.wynneconsult.com/root/Assoc/Rela315.htm kennisbasis statistiek] pagina's.<br />
<br />
== Referenties ==<br />
*Een heldere uitleg over wanneer een odds ratio en wanneer een relatief risico te gebruiken [http://www.wynneconsult.com/root/Assoc/Rela315.htm]. Klik door op "Kennisbasis Statistiek".<br />
<br />
*Een voorbeeld van het gebruik van de diagnostische odds ratio: [http://www.bmj.com/content/339/bmj.b3537?tab=responses M. Soete (2009). The odds ratio gives proof that the PSA-test does not meet the formal requirements for a screening test, rapid response, BMJ.]<br />
<br />
*[http://thestatsgeek.com/2015/01/03/interpreting-odds-and-odds-ratios/ TheStatsGeek - Interpreting odds and odds ratios] Een heldere (engelstalige) uitleg over wat de odds betekent en waarom we deze zoveel gebruiken.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Betrouwbaarheidsinterval&diff=3478Betrouwbaarheidsinterval2023-01-11T10:40:08Z<p>M Wolvers: /* Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
Het betrouwbaarheidsinterval (Engels confidence interval (CI)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Het is een interval waar binnen je verwacht dat de werkelijke waarde ligt. Formeel zegt het interval iets over welke waardes verwacht worden als een experiment meerdere keren herhaald zou worden. Vaak wordt het 95% betrouwbaarheidsinterval gebruikt. Hiermee zeg je eigenlijk: stel ik zou mijn onderzoek 100 maal herhalen, dan verwacht ik dat de werkelijke waarde (parameter) minstens 95 keer binnen het (voor ieder onderzoek apart opgestelde) 95% betrouwbaarheidsinterval ligt. <br />
<br />
==Wanneer gebruik ik een betrouwbaarheidsinterval?==<br />
Je kunt een betrouwbaarheidsinterval gebruiken bij iedere schatting die je maakt. Bijvoorbeeld: als ik van een groep patienten het gemiddelde gewicht gemeten heb, dan kan ik het gemiddelde gewicht van de hele patientpopulatie schatten middels door het gemiddelde van mijn steekproef te nemen en de zekerheid van deze schatting aangeven met een betrouwbaarheidsinterval. <br />
<br />
Vaak wordt er in het medisch onderzoek een betrouwbaarheidsinterval gegeven rondom de schatting van een bepaald effect (of een bepaald verschil tussen groepen). Bijvoorbeeld: "women receiving treatment were less likely to report severe pain (risk ratio 0.41, 95% confidence interval 0.32 to 0.55)".<br />
<br />
==Welke software is er voor het berekenen van betrouwbaarheidsintervallen?==<br />
In de meeste statistische pakketten kun je aangeven dat je de beschrijving van een variabele of de resultaten van een analyse met bijbehorend betrouwbaarheidsinterval wilt zien. Het programma [[statistische software#CIA|CIA]] (beschikbaar in de softwarewinkel van de CDW), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen.<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval rondom een incidence rate?==<br />
<br />
'' Ik heb nu de death rate per 1000y berekend, door het totaal aantal overledenen te delen door de som aantal jaren follow up (persoonsjaren). Graag zou ik bij deze death rate een 95% CI willen berekenen in SPSS. Kan dit?<br />
<br />
Ik ken geen methode om deze confidence intervallen in [[statistische software|SPSS]] uit te rekenen. De manier waarop dit kan staat op de [http://www.statisticalhelp.com/rates/poisson_rate_confidence_interval.htm site van StatsDirect Ltd] beschreven. <br />
Je kunt dit zelf implementeren (in bijv excel, of [[statistische software|R]]), maar je kunt ook gebruik maken van bestaande implementaties. De nieuwere versies van het programma [http://www.som.soton.ac.uk/research/sites/cia/ CIA] heeft opties hiervoor en ook op de website [http://www.openepi.com OpenEpi] vind je onder 'Person Time' opties.<br />
<br />
==Welke betrouwbaarheidsintervallen horen er bij de toetsen die ik gedaan heb?==<br />
''In mijn onderzoek voer ik een Chi-square test, Mann-Whitney test en een Kaplan-Meier analyse uit om twee groepen met elkaar te vergelijken. In de eerste versie van mijn artikel had ik de p-waarden gerapporteerd. Omdat we slechts een beperkt aantal deelnemers hebben stelde één van mijn co-auteurs voor om ipv de p-waarde het 95%-betrouwbaarheidsinterval te rapporteren. Naar mijn idee kan ik dit interval bij bovengenoemde testen in SPSS echter niet uit de analyses krijgen. Klopt dit? Hebben jullie ideeën over hoe ik de intervallen wel kan verkrijgen? <br />
<br />
Een 95% betrouwbaarheidsinterval kun je berekenen rondom een ‘[[effect maten|effect maat]]’. Voor ieder van de genoemde vergelijkingen zou je dan moeten gaan kiezen welke effectmaat je wilt rapporteren en daarbij het betrouwbaarheidsinterval uitrekenen.<br />
<br />
- Bij een [[Chi-kwadraat toets]] (het vergelijken van proporties) kun je denken aan een [[Associatiematen_2x2_tabel|risk difference, risk ratio of odds ratio]]. De laatste 2 kun je inclusief betrouwbaarheidsinterval opvragen in de crosstabs procedure van SPSS (vink ‘risk’ aan, let wel goed op welke groep als referentie gekozen wordt). Een risk difference wordt volgens mij niet aangeboden in de crosstabs procedure. Je zou die bijv kunnen verkrijgen via de ‘two by two table’ calculator op de [http://www.openepi.com OpenEpi website] . Of met [[Statistische_software#CIA|CIA]].<br />
<br />
- bij een [[Mann-Whitney U toets]] kun je denken aan het rapporteren van de betrouwbaarheidsintervallen rondom de twee medianen van beide groepen en een geschat verschil tussen de medianen + betrouwbaarheidsinterval. Volgens mij geeft SPSS voor die laatste geen optie. Je zou dit ook via [[Statistische_software#CIA|CIA]] kunnen berekenen.<br />
<br />
- [[Survival analyse|Kaplan Meier analyse]]: indien je daar alleen een (of meerdere) survival curves mee plot, dan ligt het voor de hand dat je een 95% betrouwbaarheidsinterval rondom het geschatte survival (of event) percentage rapporteert. SPSS geeft dat voor bijv mean en median survival (indien deze beide berekend kunnen worden). Voor de curve zelf geeft SPSS niet een betrouwbaarheidsinterval. Dit zou je eventueel kunnen berekenen met [[Statistische software#R|R]], functie survfit. Wellicht ben je meer geintersseerd in een schatting van het verschil in termen van ratio tussen 2 curves op een bepaald punt. Dat zou je eventueel zelf mbv de standaard errors die SPSS geeft + een delta methode aanpassing kunnen berekenen.<br />
<br />
==Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking?==<br />
<br />
''Onze gematchte dichotome uitkomstmaat hebben we vergeleken met gepaarde testen ([[McNemar toets]]), waar een aantal hele mooie p-waarden uitkomen. Om deze bevindingen echter nog iets meer kracht bij te zetten, zouden we hier ook graag een [[Associatiematen_2x2_tabel#Relatief_risico|relatief risico]] met betrouwbaarheidsinterval bij weer willen geven. Als je echter op de 'gewone' manier deze relatieve risico's berekent, past de conclusie over significantie op basis van het betrouwbaarheidsinterval niet altijd bij de p-waarde uit de McNemar toets. Zo kan het betrouwbaarheidsinterval de 1 bevatten, maar wel een P van <0.05 of andersom. Dit verschil is waarschijnlijk te verklaren doordat dit relatief risico met betrouwbaarheidsinterval geen rekening houdt met het feit dat het om gepaarde data gaat. Mijn vraag is dan ook of er een mogelijkheid is om het relatieve risico met betrouwbaarheidsinterval over gepaarde data te berekenen, zodanig dat we zowel dit betrouwbaarheidsinterval als de p-waarde uit de McNemar-toets samen in een tabel weer kunnen geven. <br />
<br />
Na een kleine zoektocht kom ik hiervoor op de volgende [http://www.ncbi.nlm.nih.gov/pubmed/16345058 methode van Bonett en Price]. <br />
Op deze [https://www.researchgate.net/publication/305073462_Excel_spreadsheet_to_calculate_Bonett-Price_confidence_interval_for_a_ratio_of_paired_proportions_or_of_sizes_of_overlapping_groups website] staat een uitwerking hiervan in de vorm van een Excel-calculator aangeboden. Let erop dat er in de calculator van de volgende datastructuur wordt uitgegaan:<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Cases (of gepaarde groep 1)<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|positief<br />
|width="120" align="center"|negatief<br />
|-<br />
|rowspan="2" align="center"|Controls (of gepaarde groep 2)<br />
|align="center" | positief<br />
|align="center" | a<br />
|align="center" | b<br />
|-<br />
|align="center" | negatief<br />
|align="center" | c<br />
|align="center" | d<br />
|-<br />
|}<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval behorend bij een verschil tussen twee medianen?==<br />
<br />
''Achtergrond: we verrichten een randomized cross-over studie waarbij twee interventies worden vergeleken. Bij normaal verdeelde data geef ik per interventie:<br />
<br />
''Mean + SD, + een paired difference, een SD van de paired difference, en een 95%CI van de paired difference<br />
<br />
''Een aantal (secondaire) uitkomstmaten zijn niet normaal verdeeld. Ik geef hierbij nu per interventie:<br />
<br />
''Median + IQR, + paired difference en een IQR van de paired difference. <br />
<br />
''Ik zou graag tevens een betrouwbaarheidsinterval geven van deze niet normaal verdeelde data. Is dat mogelijk?<br />
<br />
Ja dat kan. Ik begrijp dat je een betrouwbaarheidsinterval wilt berekenen bij het gepaarde verschil. Je zou hiervoor de Hodges-Lehmann procedure kunnen gebruiken. In [[statistische_software#SPSS|SPSS]] 28 kun je een dergelijk betrouwbaarheidsinterval opvragen onder Analyze -> Nonparametric Tests -> Related Samples. <br />
<br />
Let wel op welk verschil je precies schat. Déze Hodges-Lehmann procedure schat het mediane verschil (= de mediaan van alle gepaarde verschillen). Dit is niet hetzelfde als het verschil tussen de twee medianen per interventiegroep.<br />
<br />
==Referenties ==<br />
<br />
*Douglas G. Altman, David Machin, Trevor N. Bryant, Martin J. Gardner, Statistics with confidence, BMJ books. <br />
*[http://www.som.soton.ac.uk/research/sites/cia/ CIA] Confidence interval analysis - software behorend bij het boek Statistics with confidence.<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://www.openepi.com OpenEpi] Dean AG, Sullivan KM, Soe MM. OpenEpi: Open Source Epidemiologic Statistics for Public Health, Version 2.3.1. www.OpenEpi.com, updated 2011/23/06, accessed 2011/11/28.<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/16345058 Bonett DG, Price RM. Confidence intervals for a ratio of binomial proportions based on paired data. Stat Med. 2006 Sep 15;25(17):3039-47.]<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Effect_maten&diff=3477Effect maten2023-01-11T10:35:30Z<p>M Wolvers: </p>
<hr />
<div>== Waarom komen onze effect sizes niet overeen met onze p-waardes?==<br />
<br />
''We zijn bezig met een manuscript over neuropsychologie bij behandelde en controlepatiënten. We hebben Cohen's d effect sizes toegevoegd aan de tabel met de verschilscores (3 weken follow-up t.o.v. baseline en 8 maanden follow-up t.o.v. baseline). De effect sizes hebben we als volgt berekend: 'We computed effect sizes according to Cohen’s d. Effect size is defined as the difference between the mean change scores of both groups divided by the pooled SD of the change scores. An effect of 0.2 reflects a small effect, 0.5 a medium, and 0.8 a large effect.' Onze effect sizes zijn nogal groot, soms zelfs als de p-waarde niet significant is. We vinden dit moeilijk te interpreteren. Kunt u ons adviseren? <br />
<br />
De ogenschijnlijke discrepanties tussen effect size en p-waardes zouden statistisch als volgt verklaard kunnen worden: Cohen's d geeft een maat aan de sterkte van het effect, in relatie tot de spreiding (SD). Gegeven dat je een grote n hebt, kun je het effect en de SD goed schatten en zal deze maat in het algemeen in lijn zijn met de p-waardes. Bij kleine n echter, is Cohen's d niet in staat om de onzekerheid door de kleine aantallen te verwerken. Er wordt in de berekening nergens gecorrigeerd / rekening gehouden met het aantal datapunten dat als input heeft gediend voor het effect en de spreiding. Bij een toets (en resulterende p-waarde) wordt dat aspect uiteraard wel meegenomen. Met andere woorden: als je in een kleine groep een sterk effect ziet, dan zal er een grote Cohen's d zijn en een niet significante p-waarde. Andersom geldt dit ook: in een hele grote steekproef kan een kleine effect size (kleine Cohen's d) wel statistisch significant zijn. Wellicht verklaart dit bij jullie de vraagtekens?<br />
<br />
== Hoe interpreteer ik mijn kleine maar statistisch significante effect size? ==<br />
<br />
''Ik weet even niet goed hoe ik de gevonden effect size in mijn onderzoek naar trends in tevredenheid moet interpreteren. Ik heb een sample size tussen de 7000 en 9000 patiënten, en ik vind diverse significante positieve trendlijnen (met andere woorden, de tevredenheid is significant gestegen). Slechts in 1 geval zijn de verschillen tussen de metingen ook relevant (Cohen's d is hier > 0.20), bij de overige uitkomsten vind ik bij de significante trendlijnen effect sizes van 0.07-0.14. Wat zegt dit nou precies? Ik ben denk ik door de grote sample size in staat om kleine verschillen te vinden, maar wat zegt het nou of ze wel of niet klinisch relevant zijn in dit geval? <br />
<br />
Er zijn altijd twee kanten van het verhaal: <br />
<br />
- sterkte van het effect / effect size geeft aan of er sprake is van een relevant effect<br />
<br />
- statistische significantie geeft aan of het effect op toeval zou kunnen kunnen berusten of naar verwachting werkelijk aanwezig is<br />
<br />
Zeker in een grote dataset (zoals die van jou) is het goed mogelijk dat een klein en daarmee niet zo relevante trend als significant gevonden wordt. Het is dan bewezen dat het er is, maar het stelt op zich niet zo veel voor. De statistische significantie zegt niets over of iets ook relevant is. Overigens adviseer ik je voor het beoordelen van de relevantie ook naar de tevredenheidsscores zelf te kijken en niet alleen naar gestandaardiseerde effect sizes (zoals Cohen's d), omdat je op de originele schaal vaak nog makkelijker kan beoordelen of iets een relevante toename is of niet.<br />
<br />
== Referenties ==<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Betrouwbaarheidsinterval&diff=3476Betrouwbaarheidsinterval2023-01-11T10:07:37Z<p>M Wolvers: /* Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking? */ link naar excel-spreadsheet aangepast</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
Het betrouwbaarheidsinterval (Engels confidence interval (CI)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Het is een interval waar binnen je verwacht dat de werkelijke waarde ligt. Formeel zegt het interval iets over welke waardes verwacht worden als een experiment meerdere keren herhaald zou worden. Vaak wordt het 95% betrouwbaarheidsinterval gebruikt. Hiermee zeg je eigenlijk: stel ik zou mijn onderzoek 100 maal herhalen, dan verwacht ik dat de werkelijke waarde (parameter) minstens 95 keer binnen het (voor ieder onderzoek apart opgestelde) 95% betrouwbaarheidsinterval ligt. <br />
<br />
==Wanneer gebruik ik een betrouwbaarheidsinterval?==<br />
Je kunt een betrouwbaarheidsinterval gebruiken bij iedere schatting die je maakt. Bijvoorbeeld: als ik van een groep patienten het gemiddelde gewicht gemeten heb, dan kan ik het gemiddelde gewicht van de hele patientpopulatie schatten middels door het gemiddelde van mijn steekproef te nemen en de zekerheid van deze schatting aangeven met een betrouwbaarheidsinterval. <br />
<br />
Vaak wordt er in het medisch onderzoek een betrouwbaarheidsinterval gegeven rondom de schatting van een bepaald effect (of een bepaald verschil tussen groepen). Bijvoorbeeld: "women receiving treatment were less likely to report severe pain (risk ratio 0.41, 95% confidence interval 0.32 to 0.55)".<br />
<br />
==Welke software is er voor het berekenen van betrouwbaarheidsintervallen?==<br />
In de meeste statistische pakketten kun je aangeven dat je de beschrijving van een variabele of de resultaten van een analyse met bijbehorend betrouwbaarheidsinterval wilt zien. Het programma [[statistische software#CIA|CIA]] (beschikbaar in de softwarewinkel van de CDW), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen.<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval rondom een incidence rate?==<br />
<br />
'' Ik heb nu de death rate per 1000y berekend, door het totaal aantal overledenen te delen door de som aantal jaren follow up (persoonsjaren). Graag zou ik bij deze death rate een 95% CI willen berekenen in SPSS. Kan dit?<br />
<br />
Ik ken geen methode om deze confidence intervallen in [[statistische software|SPSS]] uit te rekenen. De manier waarop dit kan staat op de [http://www.statisticalhelp.com/rates/poisson_rate_confidence_interval.htm site van StatsDirect Ltd] beschreven. <br />
Je kunt dit zelf implementeren (in bijv excel, of [[statistische software|R]]), maar je kunt ook gebruik maken van bestaande implementaties. De nieuwere versies van het programma [http://www.som.soton.ac.uk/research/sites/cia/ CIA] heeft opties hiervoor en ook op de website [http://www.openepi.com OpenEpi] vind je onder 'Person Time' opties.<br />
<br />
==Welke betrouwbaarheidsintervallen horen er bij de toetsen die ik gedaan heb?==<br />
''In mijn onderzoek voer ik een Chi-square test, Mann-Whitney test en een Kaplan-Meier analyse uit om twee groepen met elkaar te vergelijken. In de eerste versie van mijn artikel had ik de p-waarden gerapporteerd. Omdat we slechts een beperkt aantal deelnemers hebben stelde één van mijn co-auteurs voor om ipv de p-waarde het 95%-betrouwbaarheidsinterval te rapporteren. Naar mijn idee kan ik dit interval bij bovengenoemde testen in SPSS echter niet uit de analyses krijgen. Klopt dit? Hebben jullie ideeën over hoe ik de intervallen wel kan verkrijgen? <br />
<br />
Een 95% betrouwbaarheidsinterval kun je berekenen rondom een ‘[[effect maten|effect maat]]’. Voor ieder van de genoemde vergelijkingen zou je dan moeten gaan kiezen welke effectmaat je wilt rapporteren en daarbij het betrouwbaarheidsinterval uitrekenen.<br />
<br />
- Bij een [[Chi-kwadraat toets]] (het vergelijken van proporties) kun je denken aan een [[Associatiematen_2x2_tabel|risk difference, risk ratio of odds ratio]]. De laatste 2 kun je inclusief betrouwbaarheidsinterval opvragen in de crosstabs procedure van SPSS (vink ‘risk’ aan, let wel goed op welke groep als referentie gekozen wordt). Een risk difference wordt volgens mij niet aangeboden in de crosstabs procedure. Je zou die bijv kunnen verkrijgen via de ‘two by two table’ calculator op de [http://www.openepi.com OpenEpi website] . Of met [[Statistische_software#CIA|CIA]].<br />
<br />
- bij een [[Mann-Whitney U toets]] kun je denken aan het rapporteren van de betrouwbaarheidsintervallen rondom de twee medianen van beide groepen en een geschat verschil tussen de medianen + betrouwbaarheidsinterval. Volgens mij geeft SPSS voor die laatste geen optie. Je zou dit ook via [[Statistische_software#CIA|CIA]] kunnen berekenen.<br />
<br />
- [[Survival analyse|Kaplan Meier analyse]]: indien je daar alleen een (of meerdere) survival curves mee plot, dan ligt het voor de hand dat je een 95% betrouwbaarheidsinterval rondom het geschatte survival (of event) percentage rapporteert. SPSS geeft dat voor bijv mean en median survival (indien deze beide berekend kunnen worden). Voor de curve zelf geeft SPSS niet een betrouwbaarheidsinterval. Dit zou je eventueel kunnen berekenen met [[Statistische software#R|R]], functie survfit. Wellicht ben je meer geintersseerd in een schatting van het verschil in termen van ratio tussen 2 curves op een bepaald punt. Dat zou je eventueel zelf mbv de standaard errors die SPSS geeft + een delta methode aanpassing kunnen berekenen.<br />
<br />
==Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking?==<br />
<br />
''Onze gematchte dichotome uitkomstmaat hebben we vergeleken met gepaarde testen ([[McNemar toets]]), waar een aantal hele mooie p-waarden uitkomen. Om deze bevindingen echter nog iets meer kracht bij te zetten, zouden we hier ook graag een [[Associatiematen_2x2_tabel#Relatief_risico|relatief risico]] met betrouwbaarheidsinterval bij weer willen geven. Als je echter op de 'gewone' manier deze relatieve risico's berekent, past de conclusie over significantie op basis van het betrouwbaarheidsinterval niet altijd bij de p-waarde uit de McNemar toets. Zo kan het betrouwbaarheidsinterval de 1 bevatten, maar wel een P van <0.05 of andersom. Dit verschil is waarschijnlijk te verklaren doordat dit relatief risico met betrouwbaarheidsinterval geen rekening houd met het feit dat het om gepaarde data gaat. Mijn vraag is dan ook of er een mogelijkheid is om het relatieve risico met betrouwbaarheidsinterval over gepaarde data te berekenen, zodanig dat we zowel dit betrouwbaarheidsinterval als de p-waarde uit de McNemar toets samen in een tabel weer kunnen geven. <br />
<br />
Na een kleine zoektocht kom ik hiervoor op de volgende [http://www.ncbi.nlm.nih.gov/pubmed/16345058 methode van Bonett en Price]. <br />
Op deze [https://www.researchgate.net/publication/305073462_Excel_spreadsheet_to_calculate_Bonett-Price_confidence_interval_for_a_ratio_of_paired_proportions_or_of_sizes_of_overlapping_groups website] staat een uitwerking hiervan in de vorm van een Excel-calculator aangeboden. Let erop dat er in de calculator van de volgende datastructuur wordt uitgegaan:<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Cases (of gepaarde groep 1)<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|positief<br />
|width="120" align="center"|negatief<br />
|-<br />
|rowspan="2" align="center"|Controls (of gepaarde groep 2)<br />
|align="center" | positief<br />
|align="center" | a<br />
|align="center" | b<br />
|-<br />
|align="center" | negatief<br />
|align="center" | c<br />
|align="center" | d<br />
|-<br />
|}<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval behorend bij een verschil tussen twee medianen?==<br />
<br />
''Achtergrond: we verrichten een randomized cross-over studie waarbij twee interventies worden vergeleken. Bij normaal verdeelde data geef ik per interventie:<br />
<br />
''Mean + SD, + een paired difference, een SD van de paired difference, en een 95%CI van de paired difference<br />
<br />
''Een aantal (secondaire) uitkomstmaten zijn niet normaal verdeeld. Ik geef hierbij nu per interventie:<br />
<br />
''Median + IQR, + paired difference en een IQR van de paired difference. <br />
<br />
''Ik zou graag tevens een betrouwbaarheidsinterval geven van deze niet normaal verdeelde data. Is dat mogelijk?<br />
<br />
Ja dat kan. Ik begrijp dat je een betrouwbaarheidsinterval wilt berekenen bij het gepaarde verschil. Je zou hiervoor de Hodges-Lehmann procedure kunnen gebruiken. In [[statistische_software#SPSS|SPSS]] 28 kun je een dergelijk betrouwbaarheidsinterval opvragen onder Analyze -> Nonparametric Tests -> Related Samples. <br />
<br />
Let wel op welk verschil je precies schat. Déze Hodges-Lehmann procedure schat het mediane verschil (= de mediaan van alle gepaarde verschillen). Dit is niet hetzelfde als het verschil tussen de twee medianen per interventiegroep.<br />
<br />
==Referenties ==<br />
<br />
*Douglas G. Altman, David Machin, Trevor N. Bryant, Martin J. Gardner, Statistics with confidence, BMJ books. <br />
*[http://www.som.soton.ac.uk/research/sites/cia/ CIA] Confidence interval analysis - software behorend bij het boek Statistics with confidence.<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://www.openepi.com OpenEpi] Dean AG, Sullivan KM, Soe MM. OpenEpi: Open Source Epidemiologic Statistics for Public Health, Version 2.3.1. www.OpenEpi.com, updated 2011/23/06, accessed 2011/11/28.<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/16345058 Bonett DG, Price RM. Confidence intervals for a ratio of binomial proportions based on paired data. Stat Med. 2006 Sep 15;25(17):3039-47.]<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Betrouwbaarheidsinterval&diff=3475Betrouwbaarheidsinterval2023-01-11T09:20:45Z<p>M Wolvers: /* Hoe bereken ik een betrouwbaarheidsinterval behorend bij een verschil tussen twee medianen? */ verwijzing naar SPSS aangepast</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
Het betrouwbaarheidsinterval (Engels confidence interval (CI)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Het is een interval waar binnen je verwacht dat de werkelijke waarde ligt. Formeel zegt het interval iets over welke waardes verwacht worden als een experiment meerdere keren herhaald zou worden. Vaak wordt het 95% betrouwbaarheidsinterval gebruikt. Hiermee zeg je eigenlijk: stel ik zou mijn onderzoek 100 maal herhalen, dan verwacht ik dat de werkelijke waarde (parameter) minstens 95 keer binnen het (voor ieder onderzoek apart opgestelde) 95% betrouwbaarheidsinterval ligt. <br />
<br />
==Wanneer gebruik ik een betrouwbaarheidsinterval?==<br />
Je kunt een betrouwbaarheidsinterval gebruiken bij iedere schatting die je maakt. Bijvoorbeeld: als ik van een groep patienten het gemiddelde gewicht gemeten heb, dan kan ik het gemiddelde gewicht van de hele patientpopulatie schatten middels door het gemiddelde van mijn steekproef te nemen en de zekerheid van deze schatting aangeven met een betrouwbaarheidsinterval. <br />
<br />
Vaak wordt er in het medisch onderzoek een betrouwbaarheidsinterval gegeven rondom de schatting van een bepaald effect (of een bepaald verschil tussen groepen). Bijvoorbeeld: "women receiving treatment were less likely to report severe pain (risk ratio 0.41, 95% confidence interval 0.32 to 0.55)".<br />
<br />
==Welke software is er voor het berekenen van betrouwbaarheidsintervallen?==<br />
In de meeste statistische pakketten kun je aangeven dat je de beschrijving van een variabele of de resultaten van een analyse met bijbehorend betrouwbaarheidsinterval wilt zien. Het programma [[statistische software#CIA|CIA]] (beschikbaar in de softwarewinkel van de CDW), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen.<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval rondom een incidence rate?==<br />
<br />
'' Ik heb nu de death rate per 1000y berekend, door het totaal aantal overledenen te delen door de som aantal jaren follow up (persoonsjaren). Graag zou ik bij deze death rate een 95% CI willen berekenen in SPSS. Kan dit?<br />
<br />
Ik ken geen methode om deze confidence intervallen in [[statistische software|SPSS]] uit te rekenen. De manier waarop dit kan staat op de [http://www.statisticalhelp.com/rates/poisson_rate_confidence_interval.htm site van StatsDirect Ltd] beschreven. <br />
Je kunt dit zelf implementeren (in bijv excel, of [[statistische software|R]]), maar je kunt ook gebruik maken van bestaande implementaties. De nieuwere versies van het programma [http://www.som.soton.ac.uk/research/sites/cia/ CIA] heeft opties hiervoor en ook op de website [http://www.openepi.com OpenEpi] vind je onder 'Person Time' opties.<br />
<br />
==Welke betrouwbaarheidsintervallen horen er bij de toetsen die ik gedaan heb?==<br />
''In mijn onderzoek voer ik een Chi-square test, Mann-Whitney test en een Kaplan-Meier analyse uit om twee groepen met elkaar te vergelijken. In de eerste versie van mijn artikel had ik de p-waarden gerapporteerd. Omdat we slechts een beperkt aantal deelnemers hebben stelde één van mijn co-auteurs voor om ipv de p-waarde het 95%-betrouwbaarheidsinterval te rapporteren. Naar mijn idee kan ik dit interval bij bovengenoemde testen in SPSS echter niet uit de analyses krijgen. Klopt dit? Hebben jullie ideeën over hoe ik de intervallen wel kan verkrijgen? <br />
<br />
Een 95% betrouwbaarheidsinterval kun je berekenen rondom een ‘[[effect maten|effect maat]]’. Voor ieder van de genoemde vergelijkingen zou je dan moeten gaan kiezen welke effectmaat je wilt rapporteren en daarbij het betrouwbaarheidsinterval uitrekenen.<br />
<br />
- Bij een [[Chi-kwadraat toets]] (het vergelijken van proporties) kun je denken aan een [[Associatiematen_2x2_tabel|risk difference, risk ratio of odds ratio]]. De laatste 2 kun je inclusief betrouwbaarheidsinterval opvragen in de crosstabs procedure van SPSS (vink ‘risk’ aan, let wel goed op welke groep als referentie gekozen wordt). Een risk difference wordt volgens mij niet aangeboden in de crosstabs procedure. Je zou die bijv kunnen verkrijgen via de ‘two by two table’ calculator op de [http://www.openepi.com OpenEpi website] . Of met [[Statistische_software#CIA|CIA]].<br />
<br />
- bij een [[Mann-Whitney U toets]] kun je denken aan het rapporteren van de betrouwbaarheidsintervallen rondom de twee medianen van beide groepen en een geschat verschil tussen de medianen + betrouwbaarheidsinterval. Volgens mij geeft SPSS voor die laatste geen optie. Je zou dit ook via [[Statistische_software#CIA|CIA]] kunnen berekenen.<br />
<br />
- [[Survival analyse|Kaplan Meier analyse]]: indien je daar alleen een (of meerdere) survival curves mee plot, dan ligt het voor de hand dat je een 95% betrouwbaarheidsinterval rondom het geschatte survival (of event) percentage rapporteert. SPSS geeft dat voor bijv mean en median survival (indien deze beide berekend kunnen worden). Voor de curve zelf geeft SPSS niet een betrouwbaarheidsinterval. Dit zou je eventueel kunnen berekenen met [[Statistische software#R|R]], functie survfit. Wellicht ben je meer geintersseerd in een schatting van het verschil in termen van ratio tussen 2 curves op een bepaald punt. Dat zou je eventueel zelf mbv de standaard errors die SPSS geeft + een delta methode aanpassing kunnen berekenen.<br />
<br />
==Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking?==<br />
<br />
''Onze gematchte dichotome uitkomstmaat hebben we vergeleken met gepaarde testen ([[McNemar toets]]), waar een aantal hele mooie p-waarden uitkomen. Om deze bevindingen echter nog iets meer kracht bij te zetten, zouden we hier ook graag een [[Associatiematen_2x2_tabel#Relatief_risico|relatief risico]] met betrouwbaarheidsinterval bij weer willen geven. Als je echter op de 'gewone' manier deze relatieve risico's berekent, past de conclusie over significantie op basis van het betrouwbaarheidsinterval niet altijd bij de p-waarde uit de McNemar toets. Zo kan het betrouwbaarheidsinterval de 1 bevatten, maar wel een P van <0.05 of andersom. Dit verschil is waarschijnlijk te verklaren doordat dit relatief risico met betrouwbaarheidsinterval geen rekening houd met het feit dat het om gepaarde data gaat. Mijn vraag is dan ook of er een mogelijkheid is om het relatieve risico met betrouwbaarheidsinterval over gepaarde data te berekenen, zodanig dat we zowel dit betrouwbaarheidsinterval als de p-waarde uit de McNemar toets samen in een tabel weer kunnen geven. <br />
<br />
Na een kleine zoektocht kom ik hiervoor op de volgende [http://www.ncbi.nlm.nih.gov/pubmed/16345058 methode van Price en Bonett]. <br />
Op deze [http://medicine.cf.ac.uk/primary-care-public-health/resources/ bijbehorende website] staat een uitwerking hiervan in de vorm van een excel-calculator aangeboden. Let erop dat er in de calculator van de volgende datastructuur wordt uitgegaan:<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Cases (of gepaarde groep 1)<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|positief<br />
|width="120" align="center"|negatief<br />
|-<br />
|rowspan="2" align="center"|Controls (of gepaarde groep 2)<br />
|align="center" | positief<br />
|align="center" | a<br />
|align="center" | b<br />
|-<br />
|align="center" | negatief<br />
|align="center" | c<br />
|align="center" | d<br />
|-<br />
|}<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval behorend bij een verschil tussen twee medianen?==<br />
<br />
''Achtergrond: we verrichten een randomized cross-over studie waarbij twee interventies worden vergeleken. Bij normaal verdeelde data geef ik per interventie:<br />
<br />
''Mean + SD, + een paired difference, een SD van de paired difference, en een 95%CI van de paired difference<br />
<br />
''Een aantal (secondaire) uitkomstmaten zijn niet normaal verdeeld. Ik geef hierbij nu per interventie:<br />
<br />
''Median + IQR, + paired difference en een IQR van de paired difference. <br />
<br />
''Ik zou graag tevens een betrouwbaarheidsinterval geven van deze niet normaal verdeelde data. Is dat mogelijk?<br />
<br />
Ja dat kan. Ik begrijp dat je een betrouwbaarheidsinterval wilt berekenen bij het gepaarde verschil. Je zou hiervoor de Hodges-Lehmann procedure kunnen gebruiken. In [[statistische_software#SPSS|SPSS]] 28 kun je een dergelijk betrouwbaarheidsinterval opvragen onder Analyze -> Nonparametric Tests -> Related Samples. <br />
<br />
Let wel op welk verschil je precies schat. Déze Hodges-Lehmann procedure schat het mediane verschil (= de mediaan van alle gepaarde verschillen). Dit is niet hetzelfde als het verschil tussen de twee medianen per interventiegroep.<br />
<br />
==Referenties ==<br />
<br />
*Douglas G. Altman, David Machin, Trevor N. Bryant, Martin J. Gardner, Statistics with confidence, BMJ books. <br />
*[http://www.som.soton.ac.uk/research/sites/cia/ CIA] Confidence interval analysis - software behorend bij het boek Statistics with confidence.<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://www.openepi.com OpenEpi] Dean AG, Sullivan KM, Soe MM. OpenEpi: Open Source Epidemiologic Statistics for Public Health, Version 2.3.1. www.OpenEpi.com, updated 2011/23/06, accessed 2011/11/28.<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/16345058 Bonett DG, Price RM. Confidence intervals for a ratio of binomial proportions based on paired data. Stat Med. 2006 Sep 15;25(17):3039-47.]<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Betrouwbaarheidsinterval&diff=3474Betrouwbaarheidsinterval2023-01-11T08:56:26Z<p>M Wolvers: /* Welke software is er voor het berekenen van betrouwbaarheidsintervallen? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
Het betrouwbaarheidsinterval (Engels confidence interval (CI)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Het is een interval waar binnen je verwacht dat de werkelijke waarde ligt. Formeel zegt het interval iets over welke waardes verwacht worden als een experiment meerdere keren herhaald zou worden. Vaak wordt het 95% betrouwbaarheidsinterval gebruikt. Hiermee zeg je eigenlijk: stel ik zou mijn onderzoek 100 maal herhalen, dan verwacht ik dat de werkelijke waarde (parameter) minstens 95 keer binnen het (voor ieder onderzoek apart opgestelde) 95% betrouwbaarheidsinterval ligt. <br />
<br />
==Wanneer gebruik ik een betrouwbaarheidsinterval?==<br />
Je kunt een betrouwbaarheidsinterval gebruiken bij iedere schatting die je maakt. Bijvoorbeeld: als ik van een groep patienten het gemiddelde gewicht gemeten heb, dan kan ik het gemiddelde gewicht van de hele patientpopulatie schatten middels door het gemiddelde van mijn steekproef te nemen en de zekerheid van deze schatting aangeven met een betrouwbaarheidsinterval. <br />
<br />
Vaak wordt er in het medisch onderzoek een betrouwbaarheidsinterval gegeven rondom de schatting van een bepaald effect (of een bepaald verschil tussen groepen). Bijvoorbeeld: "women receiving treatment were less likely to report severe pain (risk ratio 0.41, 95% confidence interval 0.32 to 0.55)".<br />
<br />
==Welke software is er voor het berekenen van betrouwbaarheidsintervallen?==<br />
In de meeste statistische pakketten kun je aangeven dat je de beschrijving van een variabele of de resultaten van een analyse met bijbehorend betrouwbaarheidsinterval wilt zien. Het programma [[statistische software#CIA|CIA]] (beschikbaar in de softwarewinkel van de CDW), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen.<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval rondom een incidence rate?==<br />
<br />
'' Ik heb nu de death rate per 1000y berekend, door het totaal aantal overledenen te delen door de som aantal jaren follow up (persoonsjaren). Graag zou ik bij deze death rate een 95% CI willen berekenen in SPSS. Kan dit?<br />
<br />
Ik ken geen methode om deze confidence intervallen in [[statistische software|SPSS]] uit te rekenen. De manier waarop dit kan staat op de [http://www.statisticalhelp.com/rates/poisson_rate_confidence_interval.htm site van StatsDirect Ltd] beschreven. <br />
Je kunt dit zelf implementeren (in bijv excel, of [[statistische software|R]]), maar je kunt ook gebruik maken van bestaande implementaties. De nieuwere versies van het programma [http://www.som.soton.ac.uk/research/sites/cia/ CIA] heeft opties hiervoor en ook op de website [http://www.openepi.com OpenEpi] vind je onder 'Person Time' opties.<br />
<br />
==Welke betrouwbaarheidsintervallen horen er bij de toetsen die ik gedaan heb?==<br />
''In mijn onderzoek voer ik een Chi-square test, Mann-Whitney test en een Kaplan-Meier analyse uit om twee groepen met elkaar te vergelijken. In de eerste versie van mijn artikel had ik de p-waarden gerapporteerd. Omdat we slechts een beperkt aantal deelnemers hebben stelde één van mijn co-auteurs voor om ipv de p-waarde het 95%-betrouwbaarheidsinterval te rapporteren. Naar mijn idee kan ik dit interval bij bovengenoemde testen in SPSS echter niet uit de analyses krijgen. Klopt dit? Hebben jullie ideeën over hoe ik de intervallen wel kan verkrijgen? <br />
<br />
Een 95% betrouwbaarheidsinterval kun je berekenen rondom een ‘[[effect maten|effect maat]]’. Voor ieder van de genoemde vergelijkingen zou je dan moeten gaan kiezen welke effectmaat je wilt rapporteren en daarbij het betrouwbaarheidsinterval uitrekenen.<br />
<br />
- Bij een [[Chi-kwadraat toets]] (het vergelijken van proporties) kun je denken aan een [[Associatiematen_2x2_tabel|risk difference, risk ratio of odds ratio]]. De laatste 2 kun je inclusief betrouwbaarheidsinterval opvragen in de crosstabs procedure van SPSS (vink ‘risk’ aan, let wel goed op welke groep als referentie gekozen wordt). Een risk difference wordt volgens mij niet aangeboden in de crosstabs procedure. Je zou die bijv kunnen verkrijgen via de ‘two by two table’ calculator op de [http://www.openepi.com OpenEpi website] . Of met [[Statistische_software#CIA|CIA]].<br />
<br />
- bij een [[Mann-Whitney U toets]] kun je denken aan het rapporteren van de betrouwbaarheidsintervallen rondom de twee medianen van beide groepen en een geschat verschil tussen de medianen + betrouwbaarheidsinterval. Volgens mij geeft SPSS voor die laatste geen optie. Je zou dit ook via [[Statistische_software#CIA|CIA]] kunnen berekenen.<br />
<br />
- [[Survival analyse|Kaplan Meier analyse]]: indien je daar alleen een (of meerdere) survival curves mee plot, dan ligt het voor de hand dat je een 95% betrouwbaarheidsinterval rondom het geschatte survival (of event) percentage rapporteert. SPSS geeft dat voor bijv mean en median survival (indien deze beide berekend kunnen worden). Voor de curve zelf geeft SPSS niet een betrouwbaarheidsinterval. Dit zou je eventueel kunnen berekenen met [[Statistische software#R|R]], functie survfit. Wellicht ben je meer geintersseerd in een schatting van het verschil in termen van ratio tussen 2 curves op een bepaald punt. Dat zou je eventueel zelf mbv de standaard errors die SPSS geeft + een delta methode aanpassing kunnen berekenen.<br />
<br />
==Hoe bereken ik het betrouwbaarheidsinterval rondom een relatief risico behorend bij een gepaarde (McNemar) vergelijking?==<br />
<br />
''Onze gematchte dichotome uitkomstmaat hebben we vergeleken met gepaarde testen ([[McNemar toets]]), waar een aantal hele mooie p-waarden uitkomen. Om deze bevindingen echter nog iets meer kracht bij te zetten, zouden we hier ook graag een [[Associatiematen_2x2_tabel#Relatief_risico|relatief risico]] met betrouwbaarheidsinterval bij weer willen geven. Als je echter op de 'gewone' manier deze relatieve risico's berekent, past de conclusie over significantie op basis van het betrouwbaarheidsinterval niet altijd bij de p-waarde uit de McNemar toets. Zo kan het betrouwbaarheidsinterval de 1 bevatten, maar wel een P van <0.05 of andersom. Dit verschil is waarschijnlijk te verklaren doordat dit relatief risico met betrouwbaarheidsinterval geen rekening houd met het feit dat het om gepaarde data gaat. Mijn vraag is dan ook of er een mogelijkheid is om het relatieve risico met betrouwbaarheidsinterval over gepaarde data te berekenen, zodanig dat we zowel dit betrouwbaarheidsinterval als de p-waarde uit de McNemar toets samen in een tabel weer kunnen geven. <br />
<br />
Na een kleine zoektocht kom ik hiervoor op de volgende [http://www.ncbi.nlm.nih.gov/pubmed/16345058 methode van Price en Bonett]. <br />
Op deze [http://medicine.cf.ac.uk/primary-care-public-health/resources/ bijbehorende website] staat een uitwerking hiervan in de vorm van een excel-calculator aangeboden. Let erop dat er in de calculator van de volgende datastructuur wordt uitgegaan:<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Cases (of gepaarde groep 1)<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|positief<br />
|width="120" align="center"|negatief<br />
|-<br />
|rowspan="2" align="center"|Controls (of gepaarde groep 2)<br />
|align="center" | positief<br />
|align="center" | a<br />
|align="center" | b<br />
|-<br />
|align="center" | negatief<br />
|align="center" | c<br />
|align="center" | d<br />
|-<br />
|}<br />
<br />
==Hoe bereken ik een betrouwbaarheidsinterval behorend bij een verschil tussen twee medianen?==<br />
<br />
''Achtergrond: we verrichten een randomized cross-over studie waarbij twee interventies worden vergeleken. Bij normaal verdeelde data geef ik per interventie:<br />
<br />
''Mean + SD, + een paired difference, een SD van de paired difference, en een 95%CI van de paired difference<br />
<br />
''Een aantal (secondaire) uitkomstmaten zijn niet normaal verdeeld. Ik geef hierbij nu per interventie:<br />
<br />
''Median + IQR, + paired difference en een IQR van de paired difference. <br />
<br />
''Ik zou graag tevens een betrouwbaarheidsinterval geven van deze niet normaal verdeelde data. Is dat mogelijk?<br />
<br />
Ja dat kan. Ik begrijp dat je een betrouwbaarheidsinterval wilt berekenen bij het gepaarde verschil. Je zou hiervoor de Hodges-Lehmann procedure kunnen gebruiken. Als je met [[statistische_software#SPSS|SPSS]] werkt geeft [http://www-01.ibm.com/support/knowledgecenter/SSLVMB_21.0.0/com.ibm.spss.statistics.help/alg_nonparametric_related_hodges-lehman.htm deze website] tips voor hoe deze aan te roepen.<br />
<br />
Let wel op welk verschil je precies schat. De Hodges-Lehmann procedure schat het mediane verschil (= de mediaan van alle gepaarde verschillen). Dit is niet hetzelfde als het verschil tussen de twee medianen per interventiegroep.<br />
<br />
==Referenties ==<br />
<br />
*Douglas G. Altman, David Machin, Trevor N. Bryant, Martin J. Gardner, Statistics with confidence, BMJ books. <br />
*[http://www.som.soton.ac.uk/research/sites/cia/ CIA] Confidence interval analysis - software behorend bij het boek Statistics with confidence.<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://www.openepi.com OpenEpi] Dean AG, Sullivan KM, Soe MM. OpenEpi: Open Source Epidemiologic Statistics for Public Health, Version 2.3.1. www.OpenEpi.com, updated 2011/23/06, accessed 2011/11/28.<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/16345058 Bonett DG, Price RM. Confidence intervals for a ratio of binomial proportions based on paired data. Stat Med. 2006 Sep 15;25(17):3039-47.]<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Standaardfout/standard_error&diff=3473Standaardfout/standard error2023-01-11T08:46:08Z<p>M Wolvers: /* Hoe bereken ik de SE van een procentuele toename? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De standaardfout van een schatting geeft de precisie van die schatting weer. De standaardfout (Engels: standard error (SE)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Formeel geeft de waarde de spreiding (standaarddeviatie) van de schatting weer als er meerdere samples zouden zijn, waarbij er bij iedere sample opnieuw de schatting gemaakt wordt. <br />
<br />
==Hoe bereken ik de SE van een procentuele toename?==<br />
''Ik heb in een controlegroep (1) en een interventiegroep (2) een mean en SE. Als samenvattende maat bereken ik de procentuele toename in de interventiegroep t.o.v. de controlegroep: (mean_2 - mean_1) / mean_1 * 100%. Hoe kan ik een SE berekenen van deze percentuele toename?<br />
<br />
Het is niet gebruikelijk om een SE te berekenen op deze 'procentuele' schaal. Reden hiervoor is dat als je bijvoorbeeld een 30% decrease zou hebben met een SE van 20%, je bij het doorrekenen naar een 95% [[betrouwbaarheidsinterval]] op 'rare' negatieve percentages (30% +/- 1,95*20%) uit zou komen. In het algemeen gebruik je de SE op een schaal waar je met redelijkheid kunt aannemen dat een normale verdeling geldt (om dezelfde reden wordt er bijvoorbeeld bij [[logistische regressie]] de SE vermeld bij de regressiecoëfficiënten en niet bij de odds ratio). Je kunt wel de SE berekenen op een getransformeerde schaal. In het bijzonder zou je hier de natuurlijk logaritme van de fold increase kunnen gebruiken:<br />
<br />
ln(mean_2/mean_1) = ln(mean_2) - ln(mean_1).<br />
<br />
De bijbehorende SE op deze schaal is (dit kun je berekenen met behulp van de [http://en.wikipedia.org/wiki/Variance#Approximating_the_variance_of_a_function delta methode]):<br />
<br />
wortel (SE_1^2 / mean_1^2 + SE_2^2 / mean_2^2).<br />
<br />
Op deze getransformeerde schaal zou je wel berekeningen kunnen doen (bijvoorbeeld poolen van studieresultaten of berekenen van een 95% betrouwbaarheidsinterval voor beschrijving). Vanaf de op deze schaal uitgerekende getallen kun je altijd weer terug transformeren, met behulp van de volgende omzetting:<br />
<br />
(mean_2-mean_1)/mean_1 = e^(ln(mean_2/mean_1)) - 1<br />
<br />
==Hoe bereken ik de standard error van een standaarddeviatie?==<br />
<br />
De standard error van de schatting van een standaarddeviatie kan berekend worden als: <br />
<br />
s / wortel(2*(n-1)) ~ 0.71* standard error of the mean ,<br />
<br />
waarbij s de sample standaarddeviatie en n het aantal waarnemingen. Zie ook deze [http://www.miislita.com/information-retrieval-tutorial/a-tutorial-on-standard-errors.pdf tutorial]. <br />
<br />
==Referenties ==<br />
<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://thestatsgeek.com/2013/06/30/standard-deviation-versus-standard-error/ Standard error versus standard deviation on TheStatsGeek.com] Een zeer heldere Engelstalige uitleg over deze twee grootheden.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Template:Onderschrift&diff=3472Template:Onderschrift2023-01-11T08:43:35Z<p>M Wolvers: url cursus aangepast</p>
<hr />
<div><div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
<br />
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan of naar de pagina [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de [https://elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk.<br />
<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=KEUZE_TOETS&diff=3471KEUZE TOETS2023-01-11T08:41:18Z<p>M Wolvers: </p>
<hr />
<div>= Schema welke toets bij welke vergelijking =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan="3"|<br />
! style="background:#d0e5f5;" colspan="5" |type vergelijking<br />
|-<br />
! style="background:#efefef;"| 1 groep<br />
! style="background:#efefef;" colspan="2"|2 groepen <br />
! style="background:#efefef;" colspan="2"|>2 groepen<br />
|-<br />
! vs. referentie<br />
! gepaard<br />
! ongepaard<br />
! gepaard<br />
! ongepaard<br />
|-<br />
!style="background:#d0e5f5;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)<br />
!style= width="50" height="100" |normaal<br />
verdeeld<br />
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]<br />
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]<br />
|style="" width="100" |<br />
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]<br />
<br />
|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
|style="" width="100" |[[One-way ANOVA]]<br />
|-<br />
!style= height="100" |niet normaal<br />
verdeeld<br />
|style="" |[[tekentoets]]<br />
|style="" |[[Wilcoxon signed rank toets]]<br />
|style="" |[[Mann-Whitney U toets]]<br />
|style="" |[[Friedman toets]]<br />
|style="" |[[Kruskal Wallis]]<br />
|-<br />
! style="background:#efefef;" rowspan="2"| categorisch (discreet)<br />
! style= height="100" | binair<br />
| style="" |[[z-test voor proporties | tests voor enkele proportie]]<br />
| style="" |[[McNemar toets]]<br />
| style="" |[[Chi-kwadraat toets]]/<br />
[[Fisher's exact toets]]<br />
| style="" |[[Cochran's Q toets]]<br />
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]<br />
|-<br />
! style= height="100" |nominaal / <br />
ordinaal<br />
| style="" |x<br />
| style="" |[[McNemar toets]] /<br />
[[Wilcoxon signed rank toets]]<br />
| style="" |[[Chi-kwadraat toets]] (trend)<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style="" |[[Chi-kwadraat toets]] (trend) <br />
|}<br />
<br />
= Schema welke analyse bij welke associatie =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan ="3"|<br />
! style="background:#faecc8;" colspan="4" |type associatie<br />
|-<br />
! style="background:#efefef;" colspan="2" | crosssectioneel<br />
! style="background:#efefef;" colspan="2" |longitudinaal <br />
|-<br />
!width="100" |een onafhankelijke variabele<br />
!width="100" |meer onafhankelijke variabelen<br />
!width="100" |een onafhankelijke variabele<br />
!width="100" |meer onafhankelijke variabelen<br />
|-<br />
!style="background:#faecc8;" rowspan="5" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)<br />
!height="100" width="50"| normaal<br />
verdeeld<br />
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]<br />
<br />
|[[lineaire regressie|meervoudige lineaire regressie]]<br />
|colspan="2" rowspan="2"| [[herhaalde metingen]]<br />
|-<br />
!height="100" |niet normaal<br />
verdeeld<br />
|[[Correlatie#Spearman's rho|Spearman's rho]]<br />
|x<br />
|-<br />
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek <br />
!| <br />
|<br />
|<br />
|[[survival analyse|Kaplan Meier analyse]]<br />
|[[survival analyse#Cox regressie|Cox regressie]]<br />
|-<br />
!style="background:#efefef;" rowspan="2" | categorisch (discreet)<br />
!height="100" |binair <br />
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]<br />
|[[logistische regressie]]<br />
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]<br />
|-<br />
!height="100"| nominaal<br />
/ordinaal<br />
|x<br />
|[[multinomiale logistische regressie|multinomiale]]<br />
/ [[ordinale logistische regressie]]<br />
|}<br />
<br />
= Van welk type is mijn data?=<br />
<br />
==Continue variabelen==<br />
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).<br />
<br />
==Discrete variabelen==<br />
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.<br />
<br />
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patiënt is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist. <br />
<br />
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.<br />
<br />
===Binaire variabelen===<br />
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).<br />
<br />
===Nominale variabelen===<br />
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.<br />
<br />
===Ordinale variabelen===<br />
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieën: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).<br />
<br />
= Heb ik gepaarde of ongepaarde data?=<br />
<br />
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. <br />
<br />
*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.<br />
<br />
*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen met behulp van een bloeddrukband. We hebben bij 30 patiënten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patiënten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.<br />
<br />
== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==<br />
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?<br />
<br />
De patiënten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patiënten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patiëntgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:<br />
<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]<br />
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]<br />
<br />
= Hoe beoordeel ik de normaliteit van mijn data? =<br />
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.<br />
<br />
Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.<br />
<br />
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===<br />
<br />
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?<br />
<br />
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. <br />
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.<br />
<br />
===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===<br />
<br />
''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''<br />
<br />
Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:<br />
<br />
"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."<br />
<br />
Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details). <br />
<br />
Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.<br />
<br />
===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===<br />
<br />
''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen? <br />
<br />
Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaarddeviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen en uit te wijken naar non-parametrische toetsen. Met echt klein kun je denken aan <25, zie ook dit artikel <cite>[cessie2020]</cite>.<br />
<br />
=Hoe kan ik in SPSS mijn data transformeren?=<br />
<br />
''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?<br />
<br />
Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variabele VAROUD te nemen. <br />
<br />
==Ik heb een probleem met log transformatie vanwege nullen in de data==<br />
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?<br />
<br />
De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij alle (dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijvoorbeeld 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).<br />
<br />
==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==<br />
<br />
''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.<br />
<br />
Het is altijd fijn als de analysemethode het resultaat niet beïnvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrelevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt). De voor/na delen in het algemeen zijn:<br />
<br />
-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien<br />
<br />
-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden<br />
<br />
Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.<br />
<br />
==Geen normaliteit na log-transformatie, wat nu?==<br />
<br />
''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data? <br />
<br />
Inderdaad, de transformatie wordt in het algemeen toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.<br />
<br />
==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==<br />
<br />
Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.<br />
<br />
=Hoe ga ik om met waarden onder of boven een detectielimiet?=<br />
<br />
''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?<br />
<br />
Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.<br />
<br />
Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer parallel aan eerste casus een willekeurig groot (maar gelijk) getal invullen. <br />
<br />
Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.<br />
<br />
=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=<br />
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode? <br />
<br />
Als een kleine aantal waardes (dus zeg tot 5%) onder de detectielimiet vallen, kan je een assigned value gebruiken. Echter als het percentage waardes onder de detectielimiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval als 46% (64/140) van je data onder de detectielimiet vallen.<br />
<br />
Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].<br />
<br />
==Referenties==<br />
<biblio><br />
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of<br />
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml] <br />
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]<br />
</biblio><br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [https://elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. De helpdesk statistiek biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van Amsterdam UMC, locatie AMC kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] statistische ondersteuning aanvragen.<br />
<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Wiki_Statistiek&diff=3470Wiki Statistiek2023-01-11T08:33:36Z<p>M Wolvers: url aangepast</p>
<hr />
<div><div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek van [https://www.amc.nl/ Amsterdam UMC, locatie AMC.]'''</big></font></h2><br />
<br />
In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:<br />
<br />
*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki. <br />
<br />
*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.<br />
<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"> <br />
'''Populaire pagina's'''<br />
<br />
{| class="wikitable"<br />
|-<br />
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]<br />
|-<br />
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]<br />
|-<br />
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]<br />
|-<br />
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]<br />
|-<br />
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]<br />
|}<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
'''Laatste toevoegingen:'''<br />
<br />
*''[[Systematische_reviews | De methodologie van systematische reviews]]<br />
*''[[Mann-Whitney_U_toets#Welke_effectmaat_kan_ik_rapporteren_als_ik_een_Mann-Whitney_U_toets_doe.3F | Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe?]]<br />
*''[[Poweranalyse#Hoe_bereken_ik_de_steekproefgrootte_voor_een_studie_met_.C3.A9.C3.A9n_groep.2C_waarbij_de_uitkomst_een_proportie_is.3F | Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?]]<br />
*''[[KEUZE_TOETS#Hoe_ga_ik_ermee_om_als_ik_veel_waarden_onder_of_boven_een_detectielimiet_heb.3F | Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?]]<br />
*''[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictiemodel_te_bouwen.3F | Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?]]<br />
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]<br />
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]<br />
<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
'''Over de wiki biostatistiek'''<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC, kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk!<br />
<br />
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan of naar de pagina [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de [https://elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Auteurschap&diff=3469Auteurschap2023-01-11T08:15:41Z<p>M Wolvers: </p>
<hr />
<div>Alle [[meeschrijven|tekstuele bijdragen]] op deze wiki zijn te volgen via de 'Geschiedenis' pagina's. Daarop staat per aanpassing de gebruikersnaam van degene die de wijziging gemaakt heeft. Naast deze functie die standaard gegenereerd wordt door [http://www.mediawiki.org Mediawiki], worden er per pagina ook auteurs vermeld. <br />
<br />
De wiki biostatistiek hanteert verschillende rollen:<br />
<br />
;Auteur: De hoofdauteur van de pagina. De persoon die het typewerk heeft gedaan en substantieel heeft bijgedragen aan de pagina. <br />
;Co-auteur(s): Gebruikers die belangrijke verbeteringen hebben gemaakt aan de pagina of de pagina hebben gecontroleerd op juistheid. <br />
;Moderator: Alle pagina's van de wiki biostatistiek worden gemodereerd door een statisticus van de afdeling Epidemiology and Data Science (EDS) van [http://www.amc.nl/ Amsterdam UMC]. De moderator is verantwoordelijk voor het controleren van de aanpassingen aan de pagina's en kan een wijziging al dan niet goedkeuren. Het [[meeschrijven|schrijven]] op de pagina's is beperkt tot gebruikers met inloggegevens. Op deze manier proberen we het niveau van de pagina's hoog te houden. De moderator controleert alle aanpassingen, maar foutieve informatie kan nooit 100% vermeden worden. Zie ook onze [[WikiStatistiek:General disclaimer|disclaimer]]. In technische termen heeft de moderator het gebruikersniveau van 'bureaucrat'.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Standaardfout/standard_error&diff=3468Standaardfout/standard error2023-01-11T08:12:09Z<p>M Wolvers: </p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De standaardfout van een schatting geeft de precisie van die schatting weer. De standaardfout (Engels: standard error (SE)) wordt gebruikt om aan te geven hoe zeker je bent van een geschatte waarde. Formeel geeft de waarde de spreiding (standaarddeviatie) van de schatting weer als er meerdere samples zouden zijn, waarbij er bij iedere sample opnieuw de schatting gemaakt wordt. <br />
<br />
==Hoe bereken ik de SE van een procentuele toename?==<br />
''Ik heb in een controle (1) en een interventie (2) groep een mean en SE. Als samenvattende maat bereken ik de procentuele toename in de interventiegroep t.o.v. de controlegroep: (mean_2 - mean_1) / mean_1 * 100%. Hoe kan ik een SE berekenen van deze percentuele toename?<br />
<br />
Het is niet gebruikelijk om een SE te berekenen op deze 'procentuele' schaal. Reden hiervoor is dat als je bijv een 30% decrease zou hebben met een SE van 20%, je bij het doorrekenen naar een 95% [[betrouwbaarheidsinterval]] op 'rare' negatieve percentages (30% +/- 1,95*20%) uit zou komen. In het algemeen gebruik je de SE op een schaal waar je met redelijkheid kunt aannemen dat een normale verdeling geldt (om dezelfde reden wordt er bijvoorbeeld bij [[logistische regressie]] de SE vermeld bij de regressiecoëfficiënten en niet bij de odds ratio). Je kunt wel de SE berekenen op een getransformeerde schaal. In het bijzonder zou je hier de natuurlijk logaritme van de fold increase kunnen gebruiken:<br />
<br />
ln(mean_2/mean_1) = ln(mean_2) - ln(mean_1).<br />
<br />
De bijbehorende SE op deze schaal is (dit kun je berekenen met behulp van de [http://en.wikipedia.org/wiki/Variance#Approximating_the_variance_of_a_function delta methode]):<br />
<br />
wortel (SE_1^2 / mean_1^2 + SE_2^2 / mean_2^2).<br />
<br />
Op deze getransformeerde schaal zou je wel berekeningen kunnen doen (bijvoorbeeld poolen van studieresultaten of berekenen van een 95% betrouwbaarheidsinterval voor beschrijving). Vanaf de op deze schaal uitgerekende getallen kun je altijd weer terug transformeren, met behulp van de volgende omzetting:<br />
<br />
(mean_2-mean_1)/mean_1 = e^(ln(mean_2/mean_1)) - 1<br />
<br />
==Hoe bereken ik de standard error van een standaarddeviatie?==<br />
<br />
De standard error van de schatting van een standaarddeviatie kan berekend worden als: <br />
<br />
s / wortel(2*(n-1)) ~ 0.71* standard error of the mean ,<br />
<br />
waarbij s de sample standaarddeviatie en n het aantal waarnemingen. Zie ook deze [http://www.miislita.com/information-retrieval-tutorial/a-tutorial-on-standard-errors.pdf tutorial]. <br />
<br />
==Referenties ==<br />
<br />
*[http://www.bmj.com/cgi/reprint/331/7521/903 Douglas G. Altman, J Martin Bland, Statistical Notes, Standard deviations and standard errors, BMJ 2005;331:903]<br />
*[http://thestatsgeek.com/2013/06/30/standard-deviation-versus-standard-error/ Standard error versus standard deviation on TheStatsGeek.com] Een zeer heldere Engelstalige uitleg over deze twee grootheden.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Z-test_voor_proporties&diff=3467Z-test voor proporties2023-01-10T14:20:53Z<p>M Wolvers: </p>
<hr />
<div>''Aan dit onderwerp wordt nog gewerkt. [[meeschrijven|Bijdragen]] aan de wiki? Mail naar statistiek@amsterdamumc.nl.''<br />
<br />
<br />
<br />
De z-test voor proporties is een parametrische toets voor binaire/dichotome variabelen, waarmee je een geobserveerde proportie in jouw steekproef kunt vergelijken met/toetsen tegen een vooraf gespecificeerde proportie (de nulhypothese). <br />
<br />
Voor extreme proporties (richting nul of één) of voor kleine steekproeven is deze test echter niet geschikt.</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=KEUZE_TOETS&diff=3466KEUZE TOETS2023-01-10T13:48:08Z<p>M Wolvers: /* Schema welke toets bij welke vergelijking */</p>
<hr />
<div>= Schema welke toets bij welke vergelijking =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan="3"|<br />
! style="background:#d0e5f5;" colspan="5" |type vergelijking<br />
|-<br />
! style="background:#efefef;"| 1 groep<br />
! style="background:#efefef;" colspan="2"|2 groepen <br />
! style="background:#efefef;" colspan="2"|>2 groepen<br />
|-<br />
! vs. referentie<br />
! gepaard<br />
! ongepaard<br />
! gepaard<br />
! ongepaard<br />
|-<br />
!style="background:#d0e5f5;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)<br />
!style= width="50" height="100" |normaal<br />
verdeeld<br />
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]<br />
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]<br />
|style="" width="100" |<br />
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]<br />
<br />
|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
|style="" width="100" |[[One-way ANOVA]]<br />
|-<br />
!style= height="100" |niet normaal<br />
verdeeld<br />
|style="" |[[tekentoets]]<br />
|style="" |[[Wilcoxon signed rank toets]]<br />
|style="" |[[Mann-Whitney U toets]]<br />
|style="" |[[Friedman toets]]<br />
|style="" |[[Kruskal Wallis]]<br />
|-<br />
! style="background:#efefef;" rowspan="2"| categorisch (discreet)<br />
! style= height="100" | binair<br />
| style="" |[[z-test voor proporties | tests voor enkele proportie]]<br />
| style="" |[[McNemar toets]]<br />
| style="" |[[Chi-kwadraat toets]]/<br />
[[Fisher's exact toets]]<br />
| style="" |[[Cochran's Q toets]]<br />
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]<br />
|-<br />
! style= height="100" |nominaal / <br />
ordinaal<br />
| style="" |x<br />
| style="" |[[McNemar toets]] /<br />
[[Wilcoxon signed rank toets]]<br />
| style="" |[[Chi-kwadraat toets]] (trend)<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style="" |[[Chi-kwadraat toets]] (trend) <br />
|}<br />
<br />
= Schema welke analyse bij welke associatie =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan ="3"|<br />
! style="background:#faecc8;" colspan="4" |type associatie<br />
|-<br />
! style="background:#efefef;" colspan="2" | crosssectioneel<br />
! style="background:#efefef;" colspan="2" |longitudinaal <br />
|-<br />
!width="100" |een onafhankelijke variabele<br />
!width="100" |meer onafhankelijke variabelen<br />
!width="100" |een onafhankelijke variabele<br />
!width="100" |meer onafhankelijke variabelen<br />
|-<br />
!style="background:#faecc8;" rowspan="5" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)<br />
!height="100" width="50"| normaal<br />
verdeeld<br />
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]<br />
<br />
|[[lineaire regressie|meervoudige lineaire regressie]]<br />
|colspan="2" rowspan="2"| [[herhaalde metingen]]<br />
|-<br />
!height="100" |niet normaal<br />
verdeeld<br />
|[[Correlatie#Spearman's rho|Spearman's rho]]<br />
|x<br />
|-<br />
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek <br />
!| <br />
|<br />
|<br />
|[[survival analyse|Kaplan Meier analyse]]<br />
|[[survival analyse#Cox regressie|Cox regressie]]<br />
|-<br />
!style="background:#efefef;" rowspan="2" | categorisch (discreet)<br />
!height="100" |binair <br />
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]<br />
|[[logistische regressie]]<br />
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]<br />
|-<br />
!height="100"| nominaal<br />
/ordinaal<br />
|x<br />
|[[multinomiale logistische regressie|multinomiale]]<br />
/ [[ordinale logistische regressie]]<br />
|}<br />
<br />
= Van welk type is mijn data?=<br />
<br />
==Continue variabelen==<br />
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).<br />
<br />
==Discrete variabelen==<br />
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.<br />
<br />
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patiënt is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist. <br />
<br />
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.<br />
<br />
===Binaire variabelen===<br />
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).<br />
<br />
===Nominale variabelen===<br />
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.<br />
<br />
===Ordinale variabelen===<br />
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieën: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).<br />
<br />
= Heb ik gepaarde of ongepaarde data?=<br />
<br />
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. <br />
<br />
*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.<br />
<br />
*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen met behulp van een bloeddrukband. We hebben bij 30 patiënten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patiënten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.<br />
<br />
== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==<br />
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?<br />
<br />
De patiënten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patiënten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patiëntgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:<br />
<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]<br />
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]<br />
<br />
= Hoe beoordeel ik de normaliteit van mijn data? =<br />
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.<br />
<br />
Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.<br />
<br />
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===<br />
<br />
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?<br />
<br />
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. <br />
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.<br />
<br />
===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===<br />
<br />
''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''<br />
<br />
Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:<br />
<br />
"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."<br />
<br />
Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details). <br />
<br />
Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.<br />
<br />
===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===<br />
<br />
''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen? <br />
<br />
Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaarddeviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen en uit te wijken naar non-parametrische toetsen. Met echt klein kun je denken aan <25, zie ook dit artikel <cite>[cessie2020]</cite>.<br />
<br />
=Hoe kan ik in SPSS mijn data transformeren?=<br />
<br />
''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?<br />
<br />
Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variabele VAROUD te nemen. <br />
<br />
==Ik heb een probleem met log transformatie vanwege nullen in de data==<br />
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?<br />
<br />
De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij alle (dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijvoorbeeld 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).<br />
<br />
==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==<br />
<br />
''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.<br />
<br />
Het is altijd fijn als de analysemethode het resultaat niet beïnvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrelevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt). De voor/na delen in het algemeen zijn:<br />
<br />
-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien<br />
<br />
-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden<br />
<br />
Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.<br />
<br />
==Geen normaliteit na log-transformatie, wat nu?==<br />
<br />
''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data? <br />
<br />
Inderdaad, de transformatie wordt in het algemeen toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.<br />
<br />
==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==<br />
<br />
Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.<br />
<br />
=Hoe ga ik om met waarden onder of boven een detectielimiet?=<br />
<br />
''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?<br />
<br />
Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.<br />
<br />
Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer parallel aan eerste casus een willekeurig groot (maar gelijk) getal invullen. <br />
<br />
Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.<br />
<br />
=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=<br />
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode? <br />
<br />
Als een kleine aantal waardes (dus zeg tot 5%) onder de detectielimiet vallen, kan je een assigned value gebruiken. Echter als het percentage waardes onder de detectielimiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval als 46% (64/140) van je data onder de detectielimiet vallen.<br />
<br />
Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].<br />
<br />
==Referenties==<br />
<biblio><br />
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of<br />
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml] <br />
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]<br />
</biblio><br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. De helpdesk statistiek biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van Amsterdam UMC, locatie AMC kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] statistische ondersteuning aanvragen.<br />
<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3465Poweranalyse2023-01-10T13:36:32Z<p>M Wolvers: /* Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een poweranalyse of steekproefgrootteberekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout-negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.<br />
<br />
Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatiecoefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als de proportie dichter bij .5 ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkel percentage waarbij ik een vaste breedte van het betrouwbaarheidsinterval rondom dat percentage wens. Wat mij verbaast is dat de aantallen patiënten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuïtief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewone 1-6) dobbelsteen en weet niet wat er voor een ogen op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussen 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2, 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3464Poweranalyse2023-01-10T13:35:50Z<p>M Wolvers: /* Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een poweranalyse of steekproefgrootteberekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout-negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.<br />
<br />
Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatiecoefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als de proportie dichter bij .5 ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkel percentage waarbij ik een vaste breedte van het betrouwbaarheidsinterval rondom dat percentage wens. Wat mij verbaast is dat de aantallen patiënten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuïtief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewone 1-6) dobbelsteen en weet niet wat er voor een ogen op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussen 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2, 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Wiki_Statistiek&diff=3463Wiki Statistiek2023-01-10T13:35:25Z<p>M Wolvers: </p>
<hr />
<div><div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek van [https://www.amc.nl/ Amsterdam UMC, locatie AMC.]'''</big></font></h2><br />
<br />
In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:<br />
<br />
*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki. <br />
<br />
*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.<br />
<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"> <br />
'''Populaire pagina's'''<br />
<br />
{| class="wikitable"<br />
|-<br />
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]<br />
|-<br />
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]<br />
|-<br />
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]<br />
|-<br />
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]<br />
|-<br />
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]<br />
|}<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
'''Laatste toevoegingen:'''<br />
<br />
*''[[Systematische_reviews | De methodologie van systematische reviews]]<br />
*''[[Mann-Whitney_U_toets#Welke_effectmaat_kan_ik_rapporteren_als_ik_een_Mann-Whitney_U_toets_doe.3F | Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe?]]<br />
*''[[Poweranalyse#Hoe_bereken_ik_de_steekproefgrootte_voor_een_studie_met_.C3.A9.C3.A9n_groep.2C_waarbij_de_uitkomst_een_proportie_is.3F | Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?]]<br />
*''[[KEUZE_TOETS#Hoe_ga_ik_ermee_om_als_ik_veel_waarden_onder_of_boven_een_detectielimiet_heb.3F | Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?]]<br />
*''[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictiemodel_te_bouwen.3F | Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?]]<br />
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]<br />
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]<br />
<br />
</div><br />
<br />
<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;"><br />
'''Over de wiki biostatistiek'''<br />
<br />
De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC, kunnen via [https://intranet.amc.nl/web/organisatie/clusters/afdelingsoverzicht/ams-ccr/diensten-1/helpdesk-statistiek.htm intranet] ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk!<br />
<br />
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan of naar de pagina [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.<br />
<br />
</div></div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3462Poweranalyse2023-01-10T13:18:29Z<p>M Wolvers: /* Waarom doe ik een power analyse of steekproefgrootte berekening? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een poweranalyse of steekproefgrootteberekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout-negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.<br />
<br />
Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatiecoefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als de proportie dichter bij .5 ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkel percentage waarbij ik een vaste breedte van het betrouwbaarheidsinterval rondom dat percentage wens. Wat mij verbaast is dat de aantallen patiënten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuïtief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewone 1-6) dobbelsteen en weet niet wat er voor een ogen op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussen 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2, 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3461Poweranalyse2023-01-10T13:15:22Z<p>M Wolvers: /* Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een power analyse of steekproefgrootte berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.<br />
<br />
Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatiecoefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als de proportie dichter bij .5 ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkel percentage waarbij ik een vaste breedte van het betrouwbaarheidsinterval rondom dat percentage wens. Wat mij verbaast is dat de aantallen patiënten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuïtief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewone 1-6) dobbelsteen en weet niet wat er voor een ogen op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussen 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2, 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3460Poweranalyse2023-01-10T13:09:32Z<p>M Wolvers: /* Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een power analyse of steekproefgrootte berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.<br />
<br />
Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatiecoefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3459Poweranalyse2023-01-10T13:02:11Z<p>M Wolvers: /* Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een power analyse of steekproefgrootte berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3458Poweranalyse2023-01-10T13:00:55Z<p>M Wolvers: /* Hoeveel patiënten heb ik nodig om een predictie model te bouwen? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een power analyse of steekproefgrootte berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?===<br />
''Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=3457Poweranalyse2023-01-10T12:59:54Z<p>M Wolvers: /* Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]<br />
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
}}<br />
<br />
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
==Waarom doe ik een power analyse of steekproefgrootte berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15. <br />
<br />
Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H0 verworpen<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 niet verworpen<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
*De gewenste power van de studie (1-β)<br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
*Het gewenste significantie niveau (α)<br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
*Eenzijdig of tweezijdige toets<br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen<br />
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen. <br />
<br />
Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>. <br />
<br />
Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.<br />
<br />
Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).<br />
<br />
*Verwachte spreiding / standaard deviatie<br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
*Welke statistische toets<br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
*Wat te doen als ik onvoldoende informatie heb?<br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==<br />
<br />
''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?<br />
<br />
Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is. <br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk: <br />
<br />
- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’. <br />
<br />
- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.<br />
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.<br />
<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie. <br />
<br />
Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.<br />
<br />
Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
<br />
===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===<br />
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?'' <br />
<br />
Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.<br />
<br />
===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===<br />
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.<br />
<br />
===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===<br />
<br />
Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Is een poweranalyse zinvol bij een tevredenheidsenquete?===<br />
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?<br />
<br />
Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.<br />
<br />
===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===<br />
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?<br />
<br />
De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.<br />
<br />
In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.<br />
<br />
===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===<br />
<br />
''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??<br />
<br />
Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:<br />
<br />
Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan. <br />
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken. <br />
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%. <br />
<br />
Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.<br />
<br />
===Hoeveel patiënten heb ik bij een pilot studie nodig? ===<br />
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.<br />
<br />
===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===<br />
<br />
''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?<br />
<br />
Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite> <br />
<br />
<math><br />
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}<br />
</math>.<br />
<br />
<br />
Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.<br />
<br />
===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===<br />
<br />
''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?<br />
<br />
Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.<br />
<br />
===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===<br />
<br />
''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?<br />
<br />
De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.<br />
<br />
De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:<br />
<br />
<math><br />
N_{\rm{per\, <br />
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}<br />
</math>.<br />
<br />
<br />
<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28). <br />
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.<br />
<br />
Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je <br />
<br />
<math><br />
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444<br />
</math><br />
<br />
patienten met slechte en 444 patienten met goede nier functie nodig. <br />
<br />
Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.<br />
<br />
===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===<br />
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.<br />
<br />
''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''<br />
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>. <br />
<br />
Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!<br />
<br />
===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===<br />
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?'' <br />
<br />
In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. <br />
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.<br />
<br />
Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.<br />
<br />
== Referenties ==<br />
<biblio><br />
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]<br />
<br />
#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]<br />
<br />
#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]<br />
<br />
#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]<br />
<br />
#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]<br />
<br />
#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]<br />
<br />
#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]<br />
<br />
#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]<br />
<br />
#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]<br />
<br />
#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]<br />
<br />
#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].<br />
<br />
<br />
#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].<br />
<br />
#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]<br />
<br />
<br />
#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].<br />
<br />
#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI]. <br />
<br />
#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]<br />
<br />
<br />
#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI] <br />
<br />
#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]<br />
<br />
#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]<br />
<br />
# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]<br />
<br />
<br />
#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]<br />
<br />
#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]<br />
<br />
#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]<br />
<br />
#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]<br />
<br />
#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]<br />
<br />
#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI] <br />
<br />
<br />
<br />
</biblio><br />
<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Lineaire_regressie&diff=3456Lineaire regressie2023-01-10T09:09:30Z<p>M Wolvers: /* Hoe interpreteer ik mijn SPSS output bij gebruik van een meervoudig lineair model? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= prof dr R.J. de Haan<br />
|coauthor= <br />
}}<br />
== Wanneer gebruik ik een lineair regressie model? ==<br />
Als je een [[correlatie|correlatietechniek]] toepast, ben je geïnteresseerd in de mate van samenhang tussen twee variabelen <math>X</math> en <math>Y</math>, bijvoorbeeld een onderzoek naar de samenhang tussen leeftijd en scores op een cognitieve test. Met lineaire regressie ga je een stap verder. Met deze techniek probeer je de waarden van de uitkomst <math>Y</math> via een lineair verband te voorspellen uit die van <math>X</math>. De uitkomstvariabele <math>Y</math> wordt de afhankelijke variabele genoemd, en de voorspeller <math>X</math> de onafhankelijke variabele.<br />
We spreken van enkelvoudige (ook wel ''simple'' of ''univariable'') regressie als we de uitkomst willen voorspellen met één predictor. In de praktijk zal dat in vele gevallen niet voldoende zijn en is het wenselijk om de effecten van twee of meer voorspellers te analyseren. We spreken dan van [[multivariabele regressie|meervoudige (ook wel ''multiple'' of ''multivariable'')]] lineaire regressie. <br />
<br />
Om een lineaire regressie te kunnen gebruiken, moeten de onderzoeksgegevens aan een aantal statistische voorwaarden voldoen: <br />
#Over de gehele range van geobserveerde waarden moet sprake zijn van een lineaire samenhang tussen de onafhankelijke variabele <math>X</math> en de afhankelijke variabele <math>Y</math> (tip: maak eerst een scatterplot om de aard van de samenhang tussen <math>X</math> en <math>Y</math> te exploreren);<br />
#Wat betreft het type data mogen de <math>X</math> variabelen zowel [[KEUZE TOETS#Van welk type is mijn data?|discreet als continu]] zijn. De afhankelijke variabele <math>Y</math> mag alleen continu zijn;<br />
#Voor elke waarde van <math>X</math> moeten de observaties van <math>Y</math> onafhankelijk van elkaar zijn; dat wil zeggen dat de <math>Y</math> variabelen slechts 1 keer bij een persoon zijn gemeten. Lineaire regressie is dus niet geschikt om voor onderzoeksgegevens te analyseren waarbij de patiënten herhaaldelijk in de tijd zijn gemeten (voor [[herhaalde metingen]] bestaan andere technieken).<br />
#De variabele <math>Y</math> heeft een normaal verdeling voor elke waarde van <math>X</math>.<br />
#De verdelingen van de <math>Y</math> variabele hebben een gelijke variantie (of standaard deviatie) voor elke waarde van <math>X</math>.<br />
<br />
De assumpties 1, 4 en 5 kunnen met behulp van de residuen van het lineaire model worden gecontroleerd.<br />
<br />
==Hoe werkt (enkelvoudige) lineaire regressie?==<br />
<br />
In lineaire regressie bepalen we de regressielijn, die het beste de lineaire relatie tussen de <math>X</math> en <math>Y</math> variabelen beschrijft. De lineaire regressielijn wordt geschat met behulp van de vergelijking: <br />
<br />
<math>Y = a+b \times X + \epsilon</math><br />
<br />
<math>Y</math> is de afhankelijke, uitkomstvariabele; <math>X</math> de onafhankelijke voorspeller; en 'a' en 'b' zijn de regressiecoëfficiënten; <math>\epsilon</math> representeert de afstand tussen de regressielijn en de datapunten (de residuen). Regressiecoëfficiënt ‘a’ wordt ook wel de intercept genoemd, en geeft de waarde van <math>Y</math> aan als <math>X=0</math> (de intercept bepaalt dus de hoogte van de regressielijn). De regressiecoëfficiënt ‘b’ weerspiegelt de helling (''slope'') van de regressielijn, en geeft de gemiddelde toename van <math>Y</math> aan als de <math>X</math> variabele met 1 eenheid toeneemt.<br />
<br />
[[Image:LineaireRegressie.png]]<br />
<br />
==Hoe interpreteer ik mijn SPSS output bij gebruik van een enkelvoudig lineair model?==<br />
<br />
Stel dat in een steekproef van n=25 de [[correlatie|Pearson’s correlatie]] tussen de leeftijd van proefpersonen en hun lichaamsvetpercentage 0.81 is. We willen deze samenhang echter niet alleen beschrijven, maar op basis van de leeftijd van de persoon nu ook een voorspelling doen over zijn of haar lichaamsvetpercentage. Als we in [[statistische software#SPSS|SPSS]] in de schermen van de module Linear Regression de variabelen ‘vetpercentage’ als afhankelijke (''dependent'') variabele opgeven, en de variabele leeftijd als onafhankelijke (''independent''), dan zullen de volgende tabellen worden gegenereerd: Model Summary, ANOVA en Coeficients. NB: in de hierna volgende voorbeelden worden sommige SPSS tabellen in verkorte vorm weergegeven.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="5" align="center"|Model Summary<br />
|-<br />
|width="100"| Model<br />
|width="100" style="background:#faecc8" | R<br />
|width="100" style="background:#faecc8" | R square<br />
|width="100" | Adjusted R square<br />
|width="100" | SE of the estimate<br />
|-<br />
|align="left"|1<br />
|align="right" style="background:#faecc8"| .821<br />
|align="right" style="background:#faecc8"| .659<br />
|align="right"|.645<br />
|align="right"|6.3898<br />
|-<br />
|}<br />
<br />
De tabel Model Summary geeft de [[correlatie|Pearson’s correlatie]] weer tussen de betreffende <math>X</math> en <math>Y</math> variabelen. De kolom 'R square' is een zogenaamde ''goodness-of-fit'' maat. Deze maat geeft uitdrukking aan hoe goed de geobserveerde data clusteren rond de geschatte regressielijn. In een enkelvoudige lineaire regressie is dat het kwadraat van de correlatie. De proportie wordt meestal in een percentage ‘verklaarde variantie’ uitgedrukt. In dit voorbeeld betekent R square dus dat de totale variatie in vetpercentages voor 66% verklaard kan worden door de lineaire regressie c.q. de verschillen in leeftijd.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|ANOVA<br />
|-<br />
|width="100"| Model<br />
|width="100" | Sum of squares<br />
|width="100" | df<br />
|width="100" | Mean Square<br />
|style="background:#faecc8" width="100" | F<br />
|style="background:#faecc8" width="100" | Sig.<br />
|-<br />
|align="left" width="100" | 1 <br />
|width="100" |&nbsp;<br />
|width="100" |&nbsp;<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|align="left" width="100" |Regression <br />
|align="right" width="100" |1818,362<br />
|align="right" width="100" |1<br />
|align="right" width="100" |1818,362<br />
|align="right" style="background:#faecc8" width="100" |44,535<br />
|align="right" style="background:#faecc8" width="100" |,000<br />
|- <br />
|align="left" width="100" |Residuals<br />
|align="right" width="100" |939,078<br />
|align="right" width="100" |23<br />
|align="right" width="100" |40,829<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|align="left" width="100" |Total<br />
|align="right" width="100" |2757,440<br />
|align="right" width="100" |24<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|}<br />
<br />
De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënt b = 0 (‘er is geen samenhang tussen <math>X</math> en <math>Y</math>, dus de regressielijn loopt horizontaal - zonder helling - door de puntenwolk’). Uit de tabel kunnen we opmaken dat leeftijd een significante voorspeller is van het gemeten vetpercentage (regressiecoëfficiënt b ≠ 0). Of, anders geformuleerd, we kunnen concluderen dat het vetpercentages van de proefpersonen significant verklaard kunnen worden door hun verschillen in leeftijd.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|Coefficients<br />
|-<br />
|colspan="2" width="100"|&nbsp; <br />
|colspan="2" style="background:#faecc8" align="center" width="100" | Unstandardized<br />
coefficients<br />
|width="100" | t<br />
|width="100" | Sig.<br />
|-<br />
|model<br />
|style="background:#faecc8" |&nbsp;<br />
|style="background:#faecc8" |B<br />
|SE<br />
|&nbsp;<br />
|&nbsp;<br />
|-<br />
|rowspan="2" | 1<br />
|align="left" style="background:#faecc8" |(Constant)<br />
|align="right" style="background:#faecc8" |2,507<br />
|align="right"|3,932<br />
|align="right"|,638<br />
|align="right"|,530<br />
|-<br />
|align="left" style="background:#faecc8" | Leeftijd<br />
|align="right" style="background:#faecc8" | ,549<br />
|align="right"| ,082<br />
|align="right"|6,673<br />
|align="right"|,000<br />
|}<br />
a. dependent variable: vetpercentage<br />
<br />
De t-test in de derde tabel – Coefficients- geeft niet meer informatie dan hetgeen we al wisten uit de F-test in de ANOVA tabel, namelijk dat leeftijd een significante voorspeller is van het gemeten vetpercentage. In deze tabel wordt de lineaire vergelijking <math>Y = a + b\times X</math> weergegeven. De regressiecoëfficiënt a zien we (enigszins verwarrend in SPSS) staan onder de kolom B, rechts van de cel ‘Constant’, en heeft de waarde 2,51. Regressiecoëfficiënt b wordt ook onder de kolom B vermeld, rechts van de variabele ‘leeftijd’, en heeft de waarde 0,55. We kunnen nu de lineaire vergelijking als volgt invullen: vetpercentage = 2,51 + (0,55 <math>\times</math> leeftijd). Het verwachte vetpercentage van een proefpersoon van 60 jaar oud is dus: 2,507+ (0,549 <math>\times</math> 60) = 35,45%.<br />
<br />
==Hoe werkt meervoudige lineaire regressie?==<br />
<br />
Bij [[multivariabele regressie|meervoudige ('multiple' of 'multivariable')]] lineaire regressie zijn we geïnteresseerd in het tegelijkertijd modelleren van twee of meer onafhankelijke variabelen. Je kunt je voorstellen dat niet alleen de leeftijd, maar ook het geslacht van de proefpersoon een bijdrage levert aan de voorspelling van zijn of haar vetpercentage. Ander voorbeeld: omdat er een associatie is tussen de lengte en het gewicht van een kind, willen we in een onderzoek naar de relatie tussen gewicht en systolische bloeddruk ook de lengte van het kind in de statische analyse betrekken. Kortom, we passen meervoudige lineaire regressie toe om:<br />
#de waarde van een afhankelijke variabele te voorpellen met (te verklaren uit) een set van onafhankelijke variabelen, en/of<br />
#na te gaan in welke mate een onafhankelijke <math>X</math> variabele lineair gerelateerd is aan de afhankelijke <math>Y</math> variabele, rekening houdend met (geadjusteerd voor) de invloed van andere <math>X</math> variabelen.<br />
<br />
In de meervoudige lineaire regressievergelijking<br />
<br />
<math>Y = a + b_1\times X_1+b_2\times X_2+\ldots+b_k\times X_k + \epsilon </math><br />
<br />
zijn <math>X_i, (i = 1,2,\ldots,k),</math> de verklarende variabelen of covariaten, is <math>Y</math> de afhankelijk variabele, en vormen <math>b_1, b_2, \ldots, b_k</math> de (partiële) regressiecoëfficiënten; <math>\epsilon</math> is representeerd weer de residuele fout (de afstand van de datapunten tot de regressielijn). De coëfficiënt <math>b_1</math> geeft aan hoeveel <math>Y</math> toeneemt als <math>X_1</math> met één eenheid toeneemt, rekening houdend met (geadjusteerd voor) de invloed van de andere <math>X</math> variabelen door die constant te houden. Op deze wijze kunnen we dus de impact van <math>X_1</math> op <math>Y</math> analyseren onafhankelijk van de invloed van de andere <math>X</math> variabelen.<br />
<br />
==Hoe interpreteer ik mijn SPSS output bij gebruik van een meervoudig lineair model?==<br />
Stel dat we bij 100 kinderen een onderzoek doen naar de relatie tussen gewicht en systolische bloeddruk. We weten dat er een relatie is tussen het gewicht en de lengte van een kind, en mogelijk speelt het geslacht ook een rol. In een meervoudig lineaire regressie analyseren we nu het effect van gewicht (kg), lengte (cm) en geslacht (0 = jongen; 1 = meisje). <br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="4" align="center"| Model Summary<br />
|-<br />
|width="100"| Model<br />
|width="100" | R<br />
|width="100" | R square<br />
|width="130" style="background:#faecc8" | Adjusted R square<br />
|-<br />
|align="left"|1<br />
|align="right"|.564<br />
|align="right"|.318<br />
|align="right" style="background:#faecc8"| .297<br />
|-<br />
|}<br />
a. Adjusted R square betekent dat bij berekening van de verklaarde variantie rekening is gehouden met het aantal verklarende variabelen in het model.<br />
<br />
Uit de Model Summary komt naar voren dat de adjusted R square = 0,297. Met andere woorden; ongeveer 30% van de variatie in systolische bloeddruk kan verklaard worden door verschillen in gewicht, lengte en geslacht van de kinderen.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|ANOVA<br />
|-<br />
|width="100"| Model<br />
|width="100" | Sum of squares<br />
|width="100" | df<br />
|width="100" | Mean Square<br />
|style="background:#faecc8" width="100" | F<br />
|style="background:#faecc8" width="100" | Sig.<br />
|-<br />
|align="left" width="100" | 1 <br />
|width="100" | &nbsp;<br />
|width="100" | &nbsp;<br />
|width="100" | &nbsp;<br />
|style="background:#faecc8" width="100" | &nbsp;<br />
|style="background:#faecc8" width="100" | &nbsp;<br />
|-<br />
|width="100" align="left" |Regression <br />
|align="right" width="100" |2804,045<br />
|align="right" width="100" |3<br />
|align="right" width="100" |934,682<br />
|align="right" style="background:#faecc8" width="100" |14,952<br />
|align="right" style="background:#faecc8" width="100" |,0001<br />
|- <br />
|width="100" align="left"|Residuals<br />
|align="right" width="100" |6001,261<br />
|align="right" width="100" |96<br />
|align="right" width="100" |62,513<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|width="100" align="left"|Total<br />
|align="right" width="100" |8805,306<br />
|align="right" width="100" |99<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|}<br />
<br />
<br />
De F-test in de ANOVA tabel toetst de nulhypothese: regressiecoëfficiënten <math>b_i</math> zijn 0. Uit de analyse komt naar voren dat er een significante lineaire relatie is tussen de systolische bloeddruk en minstens één van de onafhankelijke <math>X</math> variabelen.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|Coefficients<br />
|-<br />
|colspan="2" width="100"| &nbsp;<br />
|colspan="2" style="background:#faecc8" | Unstandardized<br />
coefficients<br />
|width="100" | t<br />
|width="100" | Sig.<br />
|-<br />
|width="100"|model<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |B<br />
|width="100"| SE<br />
|&nbsp;<br />
|&nbsp;<br />
|-<br />
|rowspan="4" align="top" align="left"| 1<br />
|style="background:#faecc8" align="left"|(Constant)<br />
|align="right" style="background:#faecc8" |75,211<br />
|align="right"|17,118<br />
|align="right"|4,641<br />
|align="right"|,0001<br />
|-<br />
|style="background:#faecc8" align="left"| Gewicht<br />
|align="right" style="background:#faecc8" | 1,180<br />
|align="right"|,261<br />
|align="right"|4,512<br />
|align="right"|,0001<br />
|-<br />
|style="background:#faecc8" align="left"| Lengte<br />
|align="right" style="background:#faecc8" | -,031<br />
|align="right"|,172<br />
|align="right"|-,181<br />
|align="right"|,857<br />
|-<br />
|style="background:#faecc8" align="left" | Geslacht<br />
|align="right" style="background:#faecc8" | 4,230<br />
|align="right"|1,611<br />
|align="right"|2,626<br />
|align="right"|,010<br />
|}<br />
<br />
De t-test laat zien dat de relatie tussen gewicht en systolische bloeddruk significant is (p < 0,001). Geadjusteerd voor de effecten van lengte en geslacht, leidt 1 kilogram gewichtstoename tot een gemiddelde systolische bloeddrukstijging van 1,18 mmHg. Geadjusteerd voor de invloeden van gewicht en geslacht is de relatie tussen lengte en systolische bloeddruk echter niet significant (p = 0,86). Er is ook een significante relatie (p = 0,01) tussen geslacht en bloeddruk: meisjes hebben - gemiddeld genomen – een 4,23 mmHg hogere systolische bloeddrukwaarde dan jongens, rekening houdend met verschillen in gewicht en lengte tussen kinderen. Kortom, gewicht en geslacht blijken onafhankelijke voorspellers te zijn van de systolische bloeddruk.<br />
Met behulp van de gegeven regressiecoëfficiënten uit de tabel kunnen we de lineaire vergelijking verder invullen. Zo is de verwachte systolische bloeddruk van een meisje van 37 kg met een lengte van 115 cm: 75,21 + (1,18 <math>\times</math> 37) – (0,03 <math>\times</math> 115) + (4,23 <math>\times</math> 1) = 119,65 mmHg.<br />
<br />
== Hoe interpreteer ik de resultaten van mijn lineaire model bij een logtransformatie van de uitkomstmaat? ==<br />
<br />
''Ik heb een vraag over de interpretatie van de B-waarden in mijn lineaire regressie analyse. De afhankelijke variabele is namelijk een log-getransformeerde cortisolwaarde waardoor de B-waarde (en wellicht ook de gestandaardiseerde Beta) moeilijker te interpreteren zijn. Ik heb daarom de B-waarden terug getransformeerd (Transformed B (EXP(B-waarde)) en krijg dan waarden rond de 1. <br />
''Mijn vraag is nu: hoe leg ik de B-waarden uit tijdens de presentatie op een congres komende week? Normaal gesproken spreek je van bij 1 unit toename in de onafhankelijke variabele van ...(B-waarde) afname in cortisolwaarde. Zelf dacht ik dat bijvoorbeeld Transformed [EXP(beta)] = 0.97, CI (0.95-0.99), p = .027 nu uitgelegd kan worden als: iedere unit toename van de onafhankelijke variabele geeft een afname van 3% in cortisol. Klopt dit?<br />
<br />
Als je een linear model fit om het effect van X op de log-getransformeerde cortisolwaarde te beoordelen, ziet dat er als volgt uit:<br />
<br />
log(cortisol) = intercept + B*X<br />
<br />
Inderdaad, een unit toename in X geeft B toename van de log(cortisol). Als we dit terug willen vertalen naar "gewone" cortisolwaarden, gebruiken we de inverse van de log:<br />
<br />
Exp(log(cortisol)) = exp (intercept + B*SRIP)<br />
<br />
Dit is gelijk aan:<br />
<br />
cortisol = exp ( intercept + B*SRIP)<br />
<br />
Bekijken we nu het verschil in cortisolwaarden bij toename van 1 unit SRIP:<br />
<br />
cortisol = exp ( intercept + B*X + B)<br />
<br />
Dan is dit gebruik makend van de rekenregels gelijk aan:<br />
<br />
exp (intercept + B*X) * exp (B) <br />
<br />
Nu is het eerste gedeelte van bovenstaande vergelijking precies gelijk aan de cortisolwaarde op het "beginpunt", dus inderdaad: een unit extra SRIP geeft vermenigvuldiging van de cortisolwaarde met de factor exp(B). En ook inderdaad: indien de exp(B) = 0.97, dan geeft vermenigvuldiging hiermee een afname van 3%.<br />
<br />
Je interpretatie was dus juist. (In het bovenstaande ben ik wel vanuit gegaan dat de cortisol waardes met de natuurlijke logaritme getransformeerd zijn en niet bijvoorbeeld met een 10log).<br />
<br />
Zie voor uitgebreidere uitleg over het interpreteren van regressiecoëfficiënten bij gebruik van een logtransformatie deze pagina van [https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-are-log-transformed UCLA: Academic Technology Services, Statistical Consulting Group].<br />
<br />
== Waar vind ik lineaire regressie in SPSS? ==<br />
<br />
Je vindt lineaire regressie in SPSS 28 onder Analyze -> Regression -> Linear.<br />
<br />
== Hoe geef ik categorische variabelen mee bij lineaire regressie in SPSS? ==<br />
<br />
Voor het gebruiken van [[KEUZE TOETS#Van welk type is mijn data? |categorische variabelen]] als voorspeller in een lineair model moeten er in SPSS eerst dummyvariabelen aangemaakt worden. Om bijvoorbeeld het effect van roken (met categorieën 'no', 'previous' of 'current') op systolische bloeddruk te onderzoeken, moeten er twee dummyvariabelen aangemaakt worden. Als we de groep die nooit gerookt heeft als referentie beschouwen, dan maken we een 0/1 variabele voor 'previous smoker' en een 0/1 variabele voor 'current smoker'. In het algemeen geldt: bij n categorieën moeten n-1 dummyvariabelen aangemaakt worden. In de output vinden we nu het voor het verschil previous vs no smoking en current vs no smoking de [[Lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressiecoefficient]] met bijhorende significantietest. Eventueel kan de "overall test" die weergeeft of de variabele roken überhaupt bijdraagt aan het model verkregen worden door de voorspellers in twee blokken mee te geven aan het regressiemodel: Een blok met alle variabelen behalve roken en een tweede blok met de twee dummyvariabelen voor roken toegevoegd. Als er bij 'Statistics' 'R squared change' staat aangevinkt, dan geeft SPSS ook een p-waarde behorend bij het toevoegen van alle drie de rook-categorieën.<br />
<br />
Alternatief kun je in plaats van de standaard ''Analyze -> Regression -> Linear'' procedure gebruik maken van de ''Analyze -> General Linear Model -> Univariate'' module. Hierin kun je aangeven wat de categorische variabelen zijn door deze als 'Fixed factor(s)' aan te duiden, de numerieke voorspellers meld je onder 'Covariate(s)'. Onder 'Model...' geef je vervolgens aan welke termen je in het model wilt, plus eventuele interacties. Vraag onder 'Options' om de gebruikelijke regressiecoëfficiënten in de output te zien. Deze module doet hetzelfde als een gewone lineaire regressie, maar heeft meer opties/mogelijkheden die vaak niet van toepassing zijn.<br />
<br />
==Mijn voorspeller is niet normaal verdeeld, kan ik nu nog lineaire regressie gebruiken?==<br />
<br />
''Ik heb een onderzoek gedaan bij patiënten met neurologische afwijking, deze patiënten kunnen afwijkingen in de hersenen hebben. Daarom heb ik een MRI van de hersenen gemaakt en een aantal neuropsychologische testen gedaan. Ik wil onderzoeken of kinderen met véél afwijkingen ook slechter scoren op de neuropsychologische testen. De variabele die de MRI afwijkingen aangeeft is niet normaal verdeeld: de helft van de patiënten heeft geen afwijkingen (afwijkscore is 0), de andere helft van de patiënten heeft afwijkingsscore 5 tot >10.000. Het liefst zou ik een aantal lineaire regressies doen met als voorspeller de afwijkscore en als uitkomst telkens één van de neuropsychologische testen. Een deel van de neuropsychologische testen zijn afhankelijk van de leeftijd, die moet dan dus ook mee in het model als voorspeller. Ik twijfel of ik wel een (multipele) lineaire regressie mag doen gezien de scheve verdeling van de afwijkvariabele. [[KEUZE TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|Logtransformeren]] helpt wel iets maar dan nog is het niet normaal verdeeld. Is er nog een oplossing te vinden zodat ik wel de (multipele) lineaire regressie kan uitvoeren? Een alternatief is een simpel correlatiemodel maken, dat kan ik non-parameterisch m.b.v. een [[Correlatie|Spearman's correlatie]] doen. Volgens mij mag ik dan gewoon de ongetransformeerde afwijkscore nemen als variabele en kijken wat de Spearman's correlatie is met de neuropsychologische testen. Klopt dat? Maar dan heb ik een probleem in die gevallen waarbij ik de leeftijd ook moet meenemen als variabele, dan moet ik partial correlations doen en dan leeftijd als 'controlling for' variabele meenemen. Maar dat is weer niet non-parametrisch, is er een manier om dat te omzeilen?<br />
<br />
Heel sec bekeken hoeft de voorspeller in een lineaire regressie niet normaal verdeeld te zijn. Die voorwaarde geldt voor de uitkomstmaat (of eigenlijk voor de residuen van uitkomstmaat minus modelvoorspelling). Echter, als je de afwijkscore als numerieke covariaat in het model zou gebruiken, dan maak je wel een andere ferme aanname, namelijk dat iedere 1 punt toename in afwijkscore met een vaste toe- of afname op de uitkomsten van de neuropsychologische testen correspondeert. En dit is gezien de grote spreiding in afwijkingswaarden waarschijnlijk niet realistisch. De schattingen in zo'n regressie zouden onevenredig zwaar beïnvloed worden door de patiënten met >10000 score. <br />
<br />
Een niet-parametrische [[Correlatie|Spearman correlatie]] berekenen kan inderdaad. Hierbij heb je zoals je zelf al aangeeft echter geen mogelijkheid tot corrigeren voor andere factoren (de partial correlaties zijn eigenlijk gewoon multipele lineaire regressies). <br />
<br />
Wat je alternatief zou kunnen doen is het opdelen van de afwijkvariabele in categorieën. Een grove indeling in wel of geen afwijking zou kunnen, of een meer fijnmazige in bijvoorbeeld 0, >0 tot 50, >500. Het liefst gebruik je 'logische afkappunten'. Let er wel op dat er nog een redelijk aantal patiënten in ieder van de categorieën valt om het schatbaar te houden. Een regressie met deze categorische variabele als voorspeller kan dan kijken of het behoren tot een andere categorie voorspellend is voor de testuitkomsten. Hierbij is het weer mogelijk te corrigeren voor andere factoren. Ook zou je kunnen proberen om door middel van een transformatie de variabele minder scheef verdeeld te krijgen, bijvoorbeeld een [[KEUZE_TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|logtransformatie]].<br />
<br />
== Referenties ==<br />
[http://www.isqr.uni-freiburg.de/reginmed2011/interaction.pdf Course material on interaction and effect modification] from the web based distance learning course - Regression Models as a Tool in Medical Research - International School of Quantitative Research, University of Freiburg. <br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Lineaire_regressie&diff=3455Lineaire regressie2023-01-09T12:48:38Z<p>M Wolvers: /* Waar vind ik lineaire regressie in SPSS? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= prof dr R.J. de Haan<br />
|coauthor= <br />
}}<br />
== Wanneer gebruik ik een lineair regressie model? ==<br />
Als je een [[correlatie|correlatietechniek]] toepast, ben je geïnteresseerd in de mate van samenhang tussen twee variabelen <math>X</math> en <math>Y</math>, bijvoorbeeld een onderzoek naar de samenhang tussen leeftijd en scores op een cognitieve test. Met lineaire regressie ga je een stap verder. Met deze techniek probeer je de waarden van de uitkomst <math>Y</math> via een lineair verband te voorspellen uit die van <math>X</math>. De uitkomstvariabele <math>Y</math> wordt de afhankelijke variabele genoemd, en de voorspeller <math>X</math> de onafhankelijke variabele.<br />
We spreken van enkelvoudige (ook wel ''simple'' of ''univariable'') regressie als we de uitkomst willen voorspellen met één predictor. In de praktijk zal dat in vele gevallen niet voldoende zijn en is het wenselijk om de effecten van twee of meer voorspellers te analyseren. We spreken dan van [[multivariabele regressie|meervoudige (ook wel ''multiple'' of ''multivariable'')]] lineaire regressie. <br />
<br />
Om een lineaire regressie te kunnen gebruiken, moeten de onderzoeksgegevens aan een aantal statistische voorwaarden voldoen: <br />
#Over de gehele range van geobserveerde waarden moet sprake zijn van een lineaire samenhang tussen de onafhankelijke variabele <math>X</math> en de afhankelijke variabele <math>Y</math> (tip: maak eerst een scatterplot om de aard van de samenhang tussen <math>X</math> en <math>Y</math> te exploreren);<br />
#Wat betreft het type data mogen de <math>X</math> variabelen zowel [[KEUZE TOETS#Van welk type is mijn data?|discreet als continu]] zijn. De afhankelijke variabele <math>Y</math> mag alleen continu zijn;<br />
#Voor elke waarde van <math>X</math> moeten de observaties van <math>Y</math> onafhankelijk van elkaar zijn; dat wil zeggen dat de <math>Y</math> variabelen slechts 1 keer bij een persoon zijn gemeten. Lineaire regressie is dus niet geschikt om voor onderzoeksgegevens te analyseren waarbij de patiënten herhaaldelijk in de tijd zijn gemeten (voor [[herhaalde metingen]] bestaan andere technieken).<br />
#De variabele <math>Y</math> heeft een normaal verdeling voor elke waarde van <math>X</math>.<br />
#De verdelingen van de <math>Y</math> variabele hebben een gelijke variantie (of standaard deviatie) voor elke waarde van <math>X</math>.<br />
<br />
De assumpties 1, 4 en 5 kunnen met behulp van de residuen van het lineaire model worden gecontroleerd.<br />
<br />
==Hoe werkt (enkelvoudige) lineaire regressie?==<br />
<br />
In lineaire regressie bepalen we de regressielijn, die het beste de lineaire relatie tussen de <math>X</math> en <math>Y</math> variabelen beschrijft. De lineaire regressielijn wordt geschat met behulp van de vergelijking: <br />
<br />
<math>Y = a+b \times X + \epsilon</math><br />
<br />
<math>Y</math> is de afhankelijke, uitkomstvariabele; <math>X</math> de onafhankelijke voorspeller; en 'a' en 'b' zijn de regressiecoëfficiënten; <math>\epsilon</math> representeert de afstand tussen de regressielijn en de datapunten (de residuen). Regressiecoëfficiënt ‘a’ wordt ook wel de intercept genoemd, en geeft de waarde van <math>Y</math> aan als <math>X=0</math> (de intercept bepaalt dus de hoogte van de regressielijn). De regressiecoëfficiënt ‘b’ weerspiegelt de helling (''slope'') van de regressielijn, en geeft de gemiddelde toename van <math>Y</math> aan als de <math>X</math> variabele met 1 eenheid toeneemt.<br />
<br />
[[Image:LineaireRegressie.png]]<br />
<br />
==Hoe interpreteer ik mijn SPSS output bij gebruik van een enkelvoudig lineair model?==<br />
<br />
Stel dat in een steekproef van n=25 de [[correlatie|Pearson’s correlatie]] tussen de leeftijd van proefpersonen en hun lichaamsvetpercentage 0.81 is. We willen deze samenhang echter niet alleen beschrijven, maar op basis van de leeftijd van de persoon nu ook een voorspelling doen over zijn of haar lichaamsvetpercentage. Als we in [[statistische software#SPSS|SPSS]] in de schermen van de module Linear Regression de variabelen ‘vetpercentage’ als afhankelijke (''dependent'') variabele opgeven, en de variabele leeftijd als onafhankelijke (''independent''), dan zullen de volgende tabellen worden gegenereerd: Model Summary, ANOVA en Coeficients. NB: in de hierna volgende voorbeelden worden sommige SPSS tabellen in verkorte vorm weergegeven.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="5" align="center"|Model Summary<br />
|-<br />
|width="100"| Model<br />
|width="100" style="background:#faecc8" | R<br />
|width="100" style="background:#faecc8" | R square<br />
|width="100" | Adjusted R square<br />
|width="100" | SE of the estimate<br />
|-<br />
|align="left"|1<br />
|align="right" style="background:#faecc8"| .821<br />
|align="right" style="background:#faecc8"| .659<br />
|align="right"|.645<br />
|align="right"|6.3898<br />
|-<br />
|}<br />
<br />
De tabel Model Summary geeft de [[correlatie|Pearson’s correlatie]] weer tussen de betreffende <math>X</math> en <math>Y</math> variabelen. De kolom 'R square' is een zogenaamde ''goodness-of-fit'' maat. Deze maat geeft uitdrukking aan hoe goed de geobserveerde data clusteren rond de geschatte regressielijn. In een enkelvoudige lineaire regressie is dat het kwadraat van de correlatie. De proportie wordt meestal in een percentage ‘verklaarde variantie’ uitgedrukt. In dit voorbeeld betekent R square dus dat de totale variatie in vetpercentages voor 66% verklaard kan worden door de lineaire regressie c.q. de verschillen in leeftijd.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|ANOVA<br />
|-<br />
|width="100"| Model<br />
|width="100" | Sum of squares<br />
|width="100" | df<br />
|width="100" | Mean Square<br />
|style="background:#faecc8" width="100" | F<br />
|style="background:#faecc8" width="100" | Sig.<br />
|-<br />
|align="left" width="100" | 1 <br />
|width="100" |&nbsp;<br />
|width="100" |&nbsp;<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|align="left" width="100" |Regression <br />
|align="right" width="100" |1818,362<br />
|align="right" width="100" |1<br />
|align="right" width="100" |1818,362<br />
|align="right" style="background:#faecc8" width="100" |44,535<br />
|align="right" style="background:#faecc8" width="100" |,000<br />
|- <br />
|align="left" width="100" |Residuals<br />
|align="right" width="100" |939,078<br />
|align="right" width="100" |23<br />
|align="right" width="100" |40,829<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|align="left" width="100" |Total<br />
|align="right" width="100" |2757,440<br />
|align="right" width="100" |24<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|}<br />
<br />
De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënt b = 0 (‘er is geen samenhang tussen <math>X</math> en <math>Y</math>, dus de regressielijn loopt horizontaal - zonder helling - door de puntenwolk’). Uit de tabel kunnen we opmaken dat leeftijd een significante voorspeller is van het gemeten vetpercentage (regressiecoëfficiënt b ≠ 0). Of, anders geformuleerd, we kunnen concluderen dat het vetpercentages van de proefpersonen significant verklaard kunnen worden door hun verschillen in leeftijd.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|Coefficients<br />
|-<br />
|colspan="2" width="100"|&nbsp; <br />
|colspan="2" style="background:#faecc8" align="center" width="100" | Unstandardized<br />
coefficients<br />
|width="100" | t<br />
|width="100" | Sig.<br />
|-<br />
|model<br />
|style="background:#faecc8" |&nbsp;<br />
|style="background:#faecc8" |B<br />
|SE<br />
|&nbsp;<br />
|&nbsp;<br />
|-<br />
|rowspan="2" | 1<br />
|align="left" style="background:#faecc8" |(Constant)<br />
|align="right" style="background:#faecc8" |2,507<br />
|align="right"|3,932<br />
|align="right"|,638<br />
|align="right"|,530<br />
|-<br />
|align="left" style="background:#faecc8" | Leeftijd<br />
|align="right" style="background:#faecc8" | ,549<br />
|align="right"| ,082<br />
|align="right"|6,673<br />
|align="right"|,000<br />
|}<br />
a. dependent variable: vetpercentage<br />
<br />
De t-test in de derde tabel – Coefficients- geeft niet meer informatie dan hetgeen we al wisten uit de F-test in de ANOVA tabel, namelijk dat leeftijd een significante voorspeller is van het gemeten vetpercentage. In deze tabel wordt de lineaire vergelijking <math>Y = a + b\times X</math> weergegeven. De regressiecoëfficiënt a zien we (enigszins verwarrend in SPSS) staan onder de kolom B, rechts van de cel ‘Constant’, en heeft de waarde 2,51. Regressiecoëfficiënt b wordt ook onder de kolom B vermeld, rechts van de variabele ‘leeftijd’, en heeft de waarde 0,55. We kunnen nu de lineaire vergelijking als volgt invullen: vetpercentage = 2,51 + (0,55 <math>\times</math> leeftijd). Het verwachte vetpercentage van een proefpersoon van 60 jaar oud is dus: 2,507+ (0,549 <math>\times</math> 60) = 35,45%.<br />
<br />
==Hoe werkt meervoudige lineaire regressie?==<br />
<br />
Bij [[multivariabele regressie|meervoudige ('multiple' of 'multivariable')]] lineaire regressie zijn we geïnteresseerd in het tegelijkertijd modelleren van twee of meer onafhankelijke variabelen. Je kunt je voorstellen dat niet alleen de leeftijd, maar ook het geslacht van de proefpersoon een bijdrage levert aan de voorspelling van zijn of haar vetpercentage. Ander voorbeeld: omdat er een associatie is tussen de lengte en het gewicht van een kind, willen we in een onderzoek naar de relatie tussen gewicht en systolische bloeddruk ook de lengte van het kind in de statische analyse betrekken. Kortom, we passen meervoudige lineaire regressie toe om:<br />
#de waarde van een afhankelijke variabele te voorpellen met (te verklaren uit) een set van onafhankelijke variabelen, en/of<br />
#na te gaan in welke mate een onafhankelijke <math>X</math> variabele lineair gerelateerd is aan de afhankelijke <math>Y</math> variabele, rekening houdend met (geadjusteerd voor) de invloed van andere <math>X</math> variabelen.<br />
<br />
In de meervoudige lineaire regressievergelijking<br />
<br />
<math>Y = a + b_1\times X_1+b_2\times X_2+\ldots+b_k\times X_k + \epsilon </math><br />
<br />
zijn <math>X_i, (i = 1,2,\ldots,k),</math> de verklarende variabelen of covariaten, is <math>Y</math> de afhankelijk variabele, en vormen <math>b_1, b_2, \ldots, b_k</math> de (partiële) regressiecoëfficiënten; <math>\epsilon</math> is representeerd weer de residuele fout (de afstand van de datapunten tot de regressielijn). De coëfficiënt <math>b_1</math> geeft aan hoeveel <math>Y</math> toeneemt als <math>X_1</math> met één eenheid toeneemt, rekening houdend met (geadjusteerd voor) de invloed van de andere <math>X</math> variabelen door die constant te houden. Op deze wijze kunnen we dus de impact van <math>X_1</math> op <math>Y</math> analyseren onafhankelijk van de invloed van de andere <math>X</math> variabelen.<br />
<br />
==Hoe interpreteer ik mijn SPSS output bij gebruik van een meervoudig lineair model?==<br />
Laten we ervan uitgaan dat we bij 100 kinderen een onderzoek doen naar de relatie tussen gewicht en systolische bloeddruk. We weten dat er een relatie is tussen het gewicht en de lengte van een kind, en mogelijk speelt het geslacht ook een rol. In een meervoudig lineaire regressie analyseren we nu het effect van gewicht (kg), lengte (cm) en geslacht (0 = jongen; 1 = meisje). <br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="4" align="center"| Model Summary<br />
|-<br />
|width="100"| Model<br />
|width="100" | R<br />
|width="100" | R square<br />
|width="130" style="background:#faecc8" | Adjusted R square<br />
|-<br />
|align="left"|1<br />
|align="right"|.564<br />
|align="right"|.318<br />
|align="right" style="background:#faecc8"| .297<br />
|-<br />
|}<br />
a. Adjusted R square betekent dat bij berekening van de verklaarde variantie rekening is gehouden met het aantal verklarende variabelen in het model.<br />
<br />
Uit de Model Summary komt naar voren dat de adjusted R square = 0,297. Met andere woorden; ongeveer 30% van de variatie in systolische bloeddruk kan verklaard worden door verschillen in gewicht, lengte en geslacht van de kinderen.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|ANOVA<br />
|-<br />
|width="100"| Model<br />
|width="100" | Sum of squares<br />
|width="100" | df<br />
|width="100" | Mean Square<br />
|style="background:#faecc8" width="100" | F<br />
|style="background:#faecc8" width="100" | Sig.<br />
|-<br />
|align="left" width="100" | 1 <br />
|width="100" | &nbsp;<br />
|width="100" | &nbsp;<br />
|width="100" | &nbsp;<br />
|style="background:#faecc8" width="100" | &nbsp;<br />
|style="background:#faecc8" width="100" | &nbsp;<br />
|-<br />
|width="100" align="left" |Regression <br />
|align="right" width="100" |2804,045<br />
|align="right" width="100" |3<br />
|align="right" width="100" |934,682<br />
|align="right" style="background:#faecc8" width="100" |14,952<br />
|align="right" style="background:#faecc8" width="100" |,0001<br />
|- <br />
|width="100" align="left"|Residuals<br />
|align="right" width="100" |6001,261<br />
|align="right" width="100" |96<br />
|align="right" width="100" |62,513<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|width="100" align="left"|Total<br />
|align="right" width="100" |8805,306<br />
|align="right" width="100" |99<br />
|width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|-<br />
|}<br />
<br />
<br />
De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënten <math>b_i</math> zijn 0. Uit de analyse komt naar voren dat er een significante lineaire relatie is tussen de systolische bloeddruk en minstens één van de onafhankelijke <math>X</math> variabelen.<br />
<br />
{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"<br />
!colspan="6" align="center"|Coefficients<br />
|-<br />
|colspan="2" width="100"| &nbsp;<br />
|colspan="2" style="background:#faecc8" | Unstandardized<br />
coefficients<br />
|width="100" | t<br />
|width="100" | Sig.<br />
|-<br />
|width="100"|model<br />
|style="background:#faecc8" width="100" |&nbsp;<br />
|style="background:#faecc8" width="100" |B<br />
|width="100"| SE<br />
|&nbsp;<br />
|&nbsp;<br />
|-<br />
|rowspan="4" align="top" align="left"| 1<br />
|style="background:#faecc8" align="left"|(Constant)<br />
|align="right" style="background:#faecc8" |75,211<br />
|align="right"|17,118<br />
|align="right"|4,641<br />
|align="right"|,0001<br />
|-<br />
|style="background:#faecc8" align="left"| Gewicht<br />
|align="right" style="background:#faecc8" | 1,180<br />
|align="right"|,261<br />
|align="right"|4,512<br />
|align="right"|,0001<br />
|-<br />
|style="background:#faecc8" align="left"| Lengte<br />
|align="right" style="background:#faecc8" | -,031<br />
|align="right"|,172<br />
|align="right"|-,181<br />
|align="right"|,857<br />
|-<br />
|style="background:#faecc8" align="left" | Geslacht<br />
|align="right" style="background:#faecc8" | 4,230<br />
|align="right"|1,611<br />
|align="right"|2,626<br />
|align="right"|,010<br />
|}<br />
<br />
De t-test laat zien dat de relatie tussen gewicht en systolische bloeddruk significant is (p < 0,001). Geadjusteerd voor de effecten van lengte en geslacht, leidt 1 kilogram gewichtstoename tot een gemiddelde systolische bloeddrukstijging van 1,18 mmHg. Geadjusteerd voor de invloeden van gewicht en geslacht is de relatie tussen lengte en systolische bloeddruk echter niet significant (p = 0,86). Er is ook een significante relatie (p = 0,01) tussen geslacht en bloeddruk: meisjes hebben - gemiddeld genomen – een 4,23 mmHg hogere systolische bloeddrukwaarde dan jongens, rekening houdend met verschillen in gewicht en lengte tussen kinderen. Kortom, gewicht en geslacht blijken onafhankelijke voorspellers te zijn van de systolische bloeddruk.<br />
Met behulp van de gegeven regressiecoëfficiënten uit de tabel kunnen we de lineaire vergelijking verder invullen. Zo is de verwachte systolische bloeddruk van een meisje van 37 kg met een lengte van 115 cm: 75,21 + (1,18 <math>\times</math> 37) – (0,03 <math>\times</math> 115) + (4,23 <math>\times</math> 1) = 119,65 mmHg.<br />
<br />
== Hoe interpreteer ik de resultaten van mijn lineaire model bij een logtransformatie van de uitkomstmaat? ==<br />
<br />
''Ik heb een vraag over de interpretatie van de B-waarden in mijn lineaire regressie analyse. De afhankelijke variabele is namelijk een log-getransformeerde cortisolwaarde waardoor de B-waarde (en wellicht ook de gestandaardiseerde Beta) moeilijker te interpreteren zijn. Ik heb daarom de B-waarden terug getransformeerd (Transformed B (EXP(B-waarde)) en krijg dan waarden rond de 1. <br />
''Mijn vraag is nu: hoe leg ik de B-waarden uit tijdens de presentatie op een congres komende week? Normaal gesproken spreek je van bij 1 unit toename in de onafhankelijke variabele van ...(B-waarde) afname in cortisolwaarde. Zelf dacht ik dat bijvoorbeeld Transformed [EXP(beta)] = 0.97, CI (0.95-0.99), p = .027 nu uitgelegd kan worden als: iedere unit toename van de onafhankelijke variabele geeft een afname van 3% in cortisol. Klopt dit?<br />
<br />
Als je een linear model fit om het effect van X op de log-getransformeerde cortisolwaarde te beoordelen, ziet dat er als volgt uit:<br />
<br />
log(cortisol) = intercept + B*X<br />
<br />
Inderdaad, een unit toename in X geeft B toename van de log(cortisol). Als we dit terug willen vertalen naar "gewone" cortisolwaarden, gebruiken we de inverse van de log:<br />
<br />
Exp(log(cortisol)) = exp (intercept + B*SRIP)<br />
<br />
Dit is gelijk aan:<br />
<br />
cortisol = exp ( intercept + B*SRIP)<br />
<br />
Bekijken we nu het verschil in cortisolwaarden bij toename van 1 unit SRIP:<br />
<br />
cortisol = exp ( intercept + B*X + B)<br />
<br />
Dan is dit gebruik makend van de rekenregels gelijk aan:<br />
<br />
exp (intercept + B*X) * exp (B) <br />
<br />
Nu is het eerste gedeelte van bovenstaande vergelijking precies gelijk aan de cortisolwaarde op het "beginpunt", dus inderdaad: een unit extra SRIP geeft vermenigvuldiging van de cortisolwaarde met de factor exp(B). En ook inderdaad: indien de exp(B) = 0.97, dan geeft vermenigvuldiging hiermee een afname van 3%.<br />
<br />
Je interpretatie was dus juist. (In het bovenstaande ben ik wel vanuit gegaan dat de cortisol waardes met de natuurlijke logaritme getransformeerd zijn en niet bijvoorbeeld met een 10log).<br />
<br />
Zie voor uitgebreidere uitleg over het interpreteren van regressiecoëfficiënten bij gebruik van een logtransformatie deze pagina van [https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-are-log-transformed UCLA: Academic Technology Services, Statistical Consulting Group].<br />
<br />
== Waar vind ik lineaire regressie in SPSS? ==<br />
<br />
Je vindt lineaire regressie in SPSS 28 onder Analyze -> Regression -> Linear.<br />
<br />
== Hoe geef ik categorische variabelen mee bij lineaire regressie in SPSS? ==<br />
<br />
Voor het gebruiken van [[KEUZE TOETS#Van welk type is mijn data? |categorische variabelen]] als voorspeller in een lineair model moeten er in SPSS eerst dummyvariabelen aangemaakt worden. Om bijvoorbeeld het effect van roken (met categorieën 'no', 'previous' of 'current') op systolische bloeddruk te onderzoeken, moeten er twee dummyvariabelen aangemaakt worden. Als we de groep die nooit gerookt heeft als referentie beschouwen, dan maken we een 0/1 variabele voor 'previous smoker' en een 0/1 variabele voor 'current smoker'. In het algemeen geldt: bij n categorieën moeten n-1 dummyvariabelen aangemaakt worden. In de output vinden we nu het voor het verschil previous vs no smoking en current vs no smoking de [[Lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressiecoefficient]] met bijhorende significantietest. Eventueel kan de "overall test" die weergeeft of de variabele roken überhaupt bijdraagt aan het model verkregen worden door de voorspellers in twee blokken mee te geven aan het regressiemodel: Een blok met alle variabelen behalve roken en een tweede blok met de twee dummyvariabelen voor roken toegevoegd. Als er bij 'Statistics' 'R squared change' staat aangevinkt, dan geeft SPSS ook een p-waarde behorend bij het toevoegen van alle drie de rook-categorieën.<br />
<br />
Alternatief kun je in plaats van de standaard ''Analyze -> Regression -> Linear'' procedure gebruik maken van de ''Analyze -> General Linear Model -> Univariate'' module. Hierin kun je aangeven wat de categorische variabelen zijn door deze als 'Fixed factor(s)' aan te duiden, de numerieke voorspellers meld je onder 'Covariate(s)'. Onder 'Model...' geef je vervolgens aan welke termen je in het model wilt, plus eventuele interacties. Vraag onder 'Options' om de gebruikelijke regressiecoëfficiënten in de output te zien. Deze module doet hetzelfde als een gewone lineaire regressie, maar heeft meer opties/mogelijkheden die vaak niet van toepassing zijn.<br />
<br />
==Mijn voorspeller is niet normaal verdeeld, kan ik nu nog lineaire regressie gebruiken?==<br />
<br />
''Ik heb een onderzoek gedaan bij patiënten met neurologische afwijking, deze patiënten kunnen afwijkingen in de hersenen hebben. Daarom heb ik een MRI van de hersenen gemaakt en een aantal neuropsychologische testen gedaan. Ik wil onderzoeken of kinderen met véél afwijkingen ook slechter scoren op de neuropsychologische testen. De variabele die de MRI afwijkingen aangeeft is niet normaal verdeeld: de helft van de patiënten heeft geen afwijkingen (afwijkscore is 0), de andere helft van de patiënten heeft afwijkingsscore 5 tot >10.000. Het liefst zou ik een aantal lineaire regressies doen met als voorspeller de afwijkscore en als uitkomst telkens één van de neuropsychologische testen. Een deel van de neuropsychologische testen zijn afhankelijk van de leeftijd, die moet dan dus ook mee in het model als voorspeller. Ik twijfel of ik wel een (multipele) lineaire regressie mag doen gezien de scheve verdeling van de afwijkvariabele. [[KEUZE TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|Logtransformeren]] helpt wel iets maar dan nog is het niet normaal verdeeld. Is er nog een oplossing te vinden zodat ik wel de (multipele) lineaire regressie kan uitvoeren? Een alternatief is een simpel correlatiemodel maken, dat kan ik non-parameterisch m.b.v. een [[Correlatie|Spearman's correlatie]] doen. Volgens mij mag ik dan gewoon de ongetransformeerde afwijkscore nemen als variabele en kijken wat de Spearman's correlatie is met de neuropsychologische testen. Klopt dat? Maar dan heb ik een probleem in die gevallen waarbij ik de leeftijd ook moet meenemen als variabele, dan moet ik partial correlations doen en dan leeftijd als 'controlling for' variabele meenemen. Maar dat is weer niet non-parametrisch, is er een manier om dat te omzeilen?<br />
<br />
Heel sec bekeken hoeft de voorspeller in een lineaire regressie niet normaal verdeeld te zijn. Die voorwaarde geldt voor de uitkomstmaat (of eigenlijk voor de residuen van uitkomstmaat minus modelvoorspelling). Echter, als je de afwijkscore als numerieke covariaat in het model zou gebruiken, dan maak je wel een andere ferme aanname, namelijk dat iedere 1 punt toename in afwijkscore met een vaste toe- of afname op de uitkomsten van de neuropsychologische testen correspondeert. En dit is gezien de grote spreiding in afwijkingswaarden waarschijnlijk niet realistisch. De schattingen in zo'n regressie zouden onevenredig zwaar beïnvloed worden door de patiënten met >10000 score. <br />
<br />
Een niet-parametrische [[Correlatie|Spearman correlatie]] berekenen kan inderdaad. Hierbij heb je zoals je zelf al aangeeft echter geen mogelijkheid tot corrigeren voor andere factoren (de partial correlaties zijn eigenlijk gewoon multipele lineaire regressies). <br />
<br />
Wat je alternatief zou kunnen doen is het opdelen van de afwijkvariabele in categorieën. Een grove indeling in wel of geen afwijking zou kunnen, of een meer fijnmazige in bijvoorbeeld 0, >0 tot 50, >500. Het liefst gebruik je 'logische afkappunten'. Let er wel op dat er nog een redelijk aantal patiënten in ieder van de categorieën valt om het schatbaar te houden. Een regressie met deze categorische variabele als voorspeller kan dan kijken of het behoren tot een andere categorie voorspellend is voor de testuitkomsten. Hierbij is het weer mogelijk te corrigeren voor andere factoren. Ook zou je kunnen proberen om door middel van een transformatie de variabele minder scheef verdeeld te krijgen, bijvoorbeeld een [[KEUZE_TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|logtransformatie]].<br />
<br />
== Referenties ==<br />
[http://www.isqr.uni-freiburg.de/reginmed2011/interaction.pdf Course material on interaction and effect modification] from the web based distance learning course - Regression Models as a Tool in Medical Research - International School of Quantitative Research, University of Freiburg. <br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=3454T-toets2023-01-09T10:59:51Z<p>M Wolvers: /* Waar vind ik de t-toets in SPSS? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
=Ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteitsassumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 28: Analyze > Descriptive Statistics > Explore, klik onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder 'Factor List').<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in de output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb twee metingen gedaan (betreffende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patiëntenpopulatie. Deze populatie heb ik opgesplitst in twee groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patiënten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp dat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patiënt heeft dan één uitkomst, namelijk zijn verschil in virus. <br />
De patiënten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log-transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log-reductiefactor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet-parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==<br />
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene groep en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft op het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.<br />
<br />
De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gebruiken, zoals de [[Mann-Whitney U toets]].<br />
<br />
== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==<br />
<br />
''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groepen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch-test doen voor vergelijkingen met de groep die andere variantie vertoont en een Student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.<br />
<br />
Hier zijn de richtlijnen niet zwart-wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het sowieso van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).<br />
<br />
=Gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=One sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 28: Analyze->Descriptive Statistics->Explore, vink onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan).<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toetsen in SPSS 28 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=3453T-toets2023-01-09T10:59:03Z<p>M Wolvers: /* Wanneer gebruik ik de one sample t-toets? */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
=Ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteitsassumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 28: Analyze > Descriptive Statistics > Explore, klik onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder 'Factor List').<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in de output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb twee metingen gedaan (betreffende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patiëntenpopulatie. Deze populatie heb ik opgesplitst in twee groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patiënten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp dat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patiënt heeft dan één uitkomst, namelijk zijn verschil in virus. <br />
De patiënten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log-transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log-reductiefactor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet-parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==<br />
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene groep en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft op het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.<br />
<br />
De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gebruiken, zoals de [[Mann-Whitney U toets]].<br />
<br />
== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==<br />
<br />
''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groepen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch-test doen voor vergelijkingen met de groep die andere variantie vertoont en een Student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.<br />
<br />
Hier zijn de richtlijnen niet zwart-wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het sowieso van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).<br />
<br />
=Gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=One sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 28: Analyze->Descriptive Statistics->Explore, vink onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan).<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=3452T-toets2023-01-09T10:56:53Z<p>M Wolvers: /* gepaarde t-toets */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
=Ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteitsassumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 28: Analyze > Descriptive Statistics > Explore, klik onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder 'Factor List').<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in de output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb twee metingen gedaan (betreffende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patiëntenpopulatie. Deze populatie heb ik opgesplitst in twee groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patiënten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp dat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patiënt heeft dan één uitkomst, namelijk zijn verschil in virus. <br />
De patiënten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log-transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log-reductiefactor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet-parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==<br />
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene groep en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft op het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.<br />
<br />
De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gebruiken, zoals de [[Mann-Whitney U toets]].<br />
<br />
== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==<br />
<br />
''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groepen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch-test doen voor vergelijkingen met de groep die andere variantie vertoont en een Student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.<br />
<br />
Hier zijn de richtlijnen niet zwart-wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het sowieso van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).<br />
<br />
=Gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=One sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan).<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=3451T-toets2023-01-09T10:56:42Z<p>M Wolvers: /* one sample t-toets */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
=Ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteitsassumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 28: Analyze > Descriptive Statistics > Explore, klik onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder 'Factor List').<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in de output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb twee metingen gedaan (betreffende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patiëntenpopulatie. Deze populatie heb ik opgesplitst in twee groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patiënten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp dat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patiënt heeft dan één uitkomst, namelijk zijn verschil in virus. <br />
De patiënten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log-transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log-reductiefactor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet-parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==<br />
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene groep en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft op het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.<br />
<br />
De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gebruiken, zoals de [[Mann-Whitney U toets]].<br />
<br />
== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==<br />
<br />
''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groepen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch-test doen voor vergelijkingen met de groep die andere variantie vertoont en een Student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.<br />
<br />
Hier zijn de richtlijnen niet zwart-wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het sowieso van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).<br />
<br />
=gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=One sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan).<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=3450T-toets2023-01-09T10:56:22Z<p>M Wolvers: /* ongepaarde t-toets */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]<br />
|coauthor= <br />
}}<br />
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
=Ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteitsassumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 28: Analyze > Descriptive Statistics > Explore, klik onder het 'Plots'-kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder 'Factor List').<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in de output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb twee metingen gedaan (betreffende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patiëntenpopulatie. Deze populatie heb ik opgesplitst in twee groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patiënten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp dat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patiënt heeft dan één uitkomst, namelijk zijn verschil in virus. <br />
De patiënten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log-transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log-reductiefactor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet-parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==<br />
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene groep en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft op het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.<br />
<br />
De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gebruiken, zoals de [[Mann-Whitney U toets]].<br />
<br />
== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==<br />
<br />
''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groepen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch-test doen voor vergelijkingen met de groep die andere variantie vertoont en een Student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.<br />
<br />
Hier zijn de richtlijnen niet zwart-wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het sowieso van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).<br />
<br />
=gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=one sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan).<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Statistische_software&diff=3449Statistische software2022-04-25T15:13:52Z<p>M Wolvers: /* Randomisatie software */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= <br />
}}<br />
<br />
==Algemene statistische pakketten==<br />
<br />
===SPSS===<br />
SPSS (voluit: ''Statistical Package for the Social Sciences'') is verreweg het meest gebruikte pakket in het medisch onderzoek vanwege de gebruiksvriendelijkheid (bijna alle analyses zijn via menu's te starten). <br />
<br />
*[https://wikistatistiek.amc.nl/images/Handleiding_voor_SPSS_20_%28versie_1.0%29.pdf Handleiding basisanalyses in SPSS] geschreven door Saskia le Cessie (LUMC) - Deze handleiding beperkt zich tot de binnen het medisch onderzoek meest gebruikte statistische methoden zoals beschrijvende statistiek, het maken van grafieken, de statistische methoden voor het vergelijken van twee of meer groepen waarnemingen, het berekenen van correlaties en het uitvoeren van lineaire, logistische en Cox proportional hazard regressie.<br />
<br />
===R===<br />
R is een vrij verkrijgbaar statistisch pakket te downloaden op [http://www.r-project.org/ http://www.r-project.org]. Ga naar Download -> CRAN, selecteer een 'mirror' en installeer het pakket. Omdat R een zogeheten open source structuur kent, zijn nieuwe statistische ontwikkeling direct beschikbaar via nieuwe downloadbare packages. Het is een zeer krachtig en flexibel pakket.<br />
<br />
* Introductiemanual : [http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf Simple statistical analyses in R.pdf]. Als je de eerste paar pagina's van deze manual doorloopt, weet je de basics van het pakket.<br />
* [http://cran.r-project.org/doc/contrib/Short-refcard.pdf Short-refcard] Handige spiekkaart met veelgebruikte functies in R.<br />
* Handig Youtube instructiefilmpjes over het importeren data uit SPSS in R: [http://youtu.be/gQTASLjgviE filmpje1], [http://youtu.be/jGPl8I6lSsM filmpje2], [http://youtu.be/9kImnwZHQyc filmpje3].<br />
* Youtube kanaal [http://www.youtube.com/playlist?list=PLOU2XLYxmsIK9qQfztXeybpHvru-TrqAP 'Intro to R'].<br />
<br />
===Stata===<br />
<br />
<br />
===SAS===<br />
<br />
==Randomisatie software==<br />
<br />
Het heeft de voorkeur om de randomisatie van een RCT computergestuurd en/of door een onafhankelijk persoon te laten plaatsvinden. Twee computergestuurde opties hiervoor zijn ALEA en Castor. <br />
<br />
[https://www.aleaclinical.eu/ ALEA] is een door het Nederlands Kanker Instituut ontworpen applicatie. ALEA is gevalideerd voor toepassing in GCP trials. Met ALEA kun je de randomisatie procedure online uitvoeren. Bij inclusie van een nieuwe patiënt kan via het web opgevraagd worden naar welke studiearm deze patiënt gerandomiseerd is. Patiënten worden via de ALEA website gerandomiseerd in een eigen afgeschermde studie implementatie. Met ALEA kunnen alle typen gerandomiseerde studies ondersteund worden.<br />
<br />
Castor is een online platform voor het bouwen van Electronic Case Report Forms (eCRFs). Op dit platform kan ook een vorm van randomisatie worden uitgevoerd: gestratificeerde blokrandomisatie met alternerende blokgroottes.<br />
<br />
==Steekproefgrootte berekeningen en power analyses==<br />
<br />
===nQuery Advisor===<br />
Voor het berekenen van [[poweranalyse|sample sizes]] is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma dat de mogelijkheid biedt om voor diverse onderzoeksdesigns en type data de gewenste groepsgrootte en statistische power te berekenen. nQuery is binnen de CDW voor alle AMC medewerkers aan te vragen. <br />
<br />
===PASS===<br />
PASS is een alternatief programma voor het berekenen van [[poweranalyse|sample sizes]]. Het ondersteunt meer verschillende designs dan nQuery. Een gratis trialversie van het programma is te downloaden via [http://www.ncss.com/download/pass/free-trial/ de website van PASS].<br />
<br />
==Meta-analyses==<br />
De algemene pakketten om statistische analyses uit te voeren bieden in het algemeen geen voorgeprogrammeerde routines om meta-analyses uit te voeren. <br />
*SPSS heeft geen voorgeprogrammeerde routines om meta-analyses uit te voeren. Op internet kom je verschillende syntax bestanden en macro's voor SPSS en Excel tegen. Als je hiervoor kiest, wees bewust dat deze de benodigde parameters vaak niet op de juiste manier berekenen. <br />
*STATA heeft geen meta-analyse command, maar gebruikers van dit pakket hebben diverse packages hiervoor geschreven. Je kunt op de [http://www.stata.com/support/faqs/statistics/meta-analysis/ STATA website] meer hierover lezen. <br />
*Er zijn diverse packages voor R om meta-analyses uit te voeren. Een goede beginpunt is de [http://cran.r-project.org/web/views/MetaAnalysis.html CRAN task view meta-analysis]. <br />
<br />
Er zijn ook diverse programma's die gericht zijn op het uitvoeren van een meta-analyse. <br />
*[http://tech.cochrane.org/revman Review Manager (RevMan)] is een programma ontworpen om een Cochrane Review te schrijven en onthouden. Hiermee kan je verschillende typen meta-analyses uitvoeren. RevMan is in het AMC via de Centraal Digitale Werkplek zonder extra kosten beschikbaar.<br />
<br />
==Overige software en links==<br />
<br />
===Confidence Interval Analysis===<br />
Het programma Confidence Interval Analysis (CIA), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen. Er is een simpele versie van CIA in de CDW aan te vragen.<br />
<br />
{{onderschrift}}</div>M Wolvershttps://wikistatistiek.amc.nl/index.php?title=Missing_values&diff=3448Missing values2022-04-25T14:56:08Z<p>M Wolvers: /* Referenties */</p>
<hr />
<div>{{auteurs|<br />
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]<br />
|coauthor= <br />
}}<br />
<br />
==Welke soorten missing values zijn er? ==<br />
<br />
In het algemeen worden er drie typen missing values onderscheiden:<br />
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had. <br />
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.<br />
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.<br />
<br />
==Kan een GLM missende waarden aan? ==<br />
<br />
''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit? <br />
<br />
Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data niet compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).<br />
<br />
==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==<br />
<br />
''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))? <br />
<br />
Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.<br />
<br />
==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==<br />
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren<br />
<br />
==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==<br />
In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.<br />
<br />
Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.<br />
<br />
== Referenties ==<br />
<br />
<biblio><br />
#White2010 White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. [http://dx.doi.org/10.1002/sim.4067 DOI:10.1002/sim.4067] <br />
</biblio><br />
<br />
*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials National Research Council. The Prevention and Treatment of Missing Data in Clinical Trials. The National Academies Press, 2010.] <br />
<br />
*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.<br />
<br />
*[https://www.uvm.edu/~statdhtx/StatPages/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]<br />
<br />
*[https://pubmed.ncbi.nlm.nih.gov/16980149/ Donders AR, van der Heijden GJ, Stijnen T, Moons KG. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol. 2006 Oct;59(10):1087-91.]<br />
<br />
*[https://pubmed.ncbi.nlm.nih.gov/12589867/ Clark TG, Altman DG. Developing a prognostic model in the presence of missing data: an ovarian cancer case study. J Clin Epidemiol. 2003 Jan;56(1):28-37.]<br />
<br />
*[https://stefvanbuuren.name/fimd/sec-nutshell.html Van Buuren, Stef. Flexible imputation of missing data. Second edition. CRC press, 2018.] Link naar volledige online versie van het boek op de website van de auteur. <br />
<br />
*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].<br />
<br />
*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].<br />
<br />
*[https://pubmed.ncbi.nlm.nih.gov/19564179/ Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, Wood AM, Carpenter JR. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009 Jun 29;338:b2393.]<br />
<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14.]<br />
<br />
*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]<br />
<br />
{{onderschrift}}</div>M Wolvers