Poweranalyse
Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.
Waarom doe ik een power analyse / sample size berekening?
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan op drie punten ethische bezwaren opleveren. Ten eerste, een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie leidt dan tot een fout-negatieve conclusie. Ten tweede, in het geval van een te grote sample size, kan een deel van de proefpersonen onnodig een effectieve interventie worden onthouden. Ten derde, als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.
Wanneer heb ik een power analyse nodig?
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In de CONSORT statement, waarin je deze regels terug kan vinden, wordt expliciet de eis verwoord dat de onderzoeker vooraf aan de studie de sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een RCT inclusief sample size berekening moet vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.
Welke software is beschikbaar voor power analyse?
Voor het berekenen van de sample size is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma dat de mogelijkheid biedt om voor diverse onderzoeksdesigns en type data de gewenste groepsgrootte en statistische power te berekenen. nQuery, inclusief instructies voor het downloaden, vind je op de CRU-website onder de link Tools. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS (neem contact op met KEBB of CRU). Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.
Welke informatie heb ik nodig voor een power analyse?
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over:
- De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.
- Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken.
- Eenzijdig of tweezijdige toets.
- Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
- Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?
- Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?
- Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn (equivalentie studie), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).
- Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.
Waar vind ik de benodigde informatie voor een power analyse?
Wat is een type I en type II fout?
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief).
De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.
Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor multiple testing. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.
Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld Knottnerus (2001) of Peace (1989) voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.
Verwacht of klinisch relevant verschil
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer.
Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met nQuery een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil met een andere groep aan te tonen. Je hebt dan meer proefpersonen nodig om een verschil met een andere groep aan te tonen. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. Dus hoe meer variatie hoe moeilijker het wordt om de schatter van het effect te vinden.
Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat bijvoorbeeld de pagina KEUZE TOETS op deze wiki.
Wat te doen als ik onvoldoende informatie heb?
Eerste zoekpunt is altijd literatuur over eerdere onderzoeken. Als er geen getallen bekend zijn uit eerdere onderzoeken, moet je die zelf produceren. Een pilot onderzoek uitvoeren is dan de enige oplossing. Hoe groot de pilot moet zijn is afhankelijk van hoeveel variatie er is, bij meer variatie moet je er meer bekijken. Ook praktische punten als kosten en tijd moet je uiteraard meenemen.
Kan ik meerdere uitkomstmaten combineren in een poweranalyse?
Een poweranalyse kan maar op een evaluatie criterium van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.
Corrigeert een correcte sample size berekening voor meetfouten?
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.
Wanneer is een post hoc poweranalyse zinvol?
De resultaten van een clinical trial omvatten een behandeleffect met een betrouwbaarheidsinterval (en/of een p waarde). Bij een significant resultaat is het duidelijk dat de power voldoende was om dit verschil te detecteren. Een post-hoc powerberekening is eigenlijk alleen van belang, wanneer je geen significant verschil hebt gevonden en je twijfelt aan de power van de studie (je hebt dus geen power analyse vooraf gedaan). De berekening geeft dan aan of de p waarde groter 0.05 te maken heeft met te weinig power (het resultaat van de berekening), of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Poweranalyse in specifieke onderzoeksdesigns
Hoe doe ik een poweranalyse bij een equivalentiestudie?
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet je opgeven welk (klein) verschil tussen de groepen je ziet als verwaarloosbaar, ofwel dan zie je de groepen nog als gelijk [equivalence limit difference]. Verder geef je op welk verschil je verwacht [expected difference], dat zal in de regel kleiner zijn dan de limiet die je hanteert voor de gelijkheid. De gemeenschappelijke standaard deviatie, die je ook nodig hebt in de berekening, van de twee groepen waarvan je de gelijkheid wilt aantonen vindt je meestal in eerdere studies. Als je bovenstaande hebt ingevoerd zal nQuery de effect size voor je uitrekenen. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een significant verschil tussen de groepen verwerpt.
Hoe bereken ik een sample size voor een Kappa coëfficiënt?
De Kappa coëfficiënt is een voor kans gecorrigeerde maat van overeenkomst tussen twee beoordelaars. Een Kappa van 0 betekent dat de overeenkomst tussen twee beoordelaars volledig op kans berust, een Kappa van 1 is een volledige overeenkomst. Hoe vaak moet je twee beoordelaars een object gelijktijdig maar onafhankelijk van elkaar laten beoordelen alvorens je een valide uitspraak over de Kappa kan doen (het gaat hier over een dichotome beoordeling, bijv. ziekte is aanwezig/afwezig). In nQuery kun je voor de Kappa de sample size bereken. In het scherm nieuwe tabel, study goal and design kies je eerst “Agreement”, dan onder number of groups “one” en onder “analysis methode” voor “test”. De verdere ingrediënten voor een Kappa met 2 beoordelaars zijn: Test significance level (0,05); 1 or 2 sided test, meestal 2; Proportion successes (bijvoorbeeld proportie ziekte aanwezig), Null hypothesis agreement, k0 , geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht ook een hogere overeenkomst dan 0; Alternative agreement, k1 hier geef je de Kappa die wilt detecteren (bijv. 0,70); en vervolgens geef je de power (80% of 90%). nQuery berekend op basis van deze gegevens de sample size.
Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?
In een “clustered” trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar kunnen beinvloeden (contamineren). Het nadeel is dat je in een cluster trial meer patiënten nodig hebt dan in een “gewone” trial. Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal cluster dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ (Kerry, 1998): betreft huisartspraktijken, na interventie (placebo/experiment) wil men een verschil van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. Bij 10 patienten per praktijk heb ik 558 praktijken nodig (4% meer patienten dan een gewone trial). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor. Je hebt de volgende gegevens nodig: significatie niveau; power; standaard deviatie; klinisch relevant verschil (delta); het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster (rho, gebruikelijk is > 0,05).
Kan ik bij een diagnostische studie een poweranalyse doen?
Sensitiviteit en specificiteit gebruik je wanneer je een nieuwe test met een "gouden standaard" vergelijkt. Sensitiviteit heeft betrekking op personen die door de gold standaard als positief worden bestempeld. Sensitiviteit is dan het percentage van die groep die ook door de nieuwe test als positief worden bestempeld. Specificiteit heeft betrekking op personen die door de gold standaard als negatief worden bestempeld. Specificiteit is dan het percentage van die groep die ook door de nieuwe test als negatief worden bestempeld. Uit een powerberekening vindt je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. Er is geen directe mogelijkheid om in nQuery de sample size voor sensitiviteit uit te rekenen. Het volgende kun je doen. Bereken in nQuery de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De “expected proportion” kun je opvatten als de beoogde sensitiviteit terwijl je met de “distance from proportion to limit” de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size moet je wel corrigeren voor de proportie true positives (TP) die je verwacht. Stel je verwacht een proportie TP van 0,33 dan moet je de sample size zoals je die berekend heb met 1 proportie met (1/0,33) vermenigvuldigen.
Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de Mann Whitney U test wordt via een omweg toch gebruik gemaakt van de mean + SD van beide groepen om de power of sample size te bepalen. In de berekening wordt gevraagd om de kans dat een observatie in groep 1 kleiner is dan in groep 2 (p1 = P(X<Y) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van “assistants” in de bovenste werkbalk en vervolgens te kiezen voor de optie “calculate effect size” in NQUERY. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. Het berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zich vanzelf.
Welke informatie heb ik nodig voor een poweranalyse als ik een multivariate regressie ga doen?
Een vuistregel voor sample size van een multivariate regressie analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10 cases in je data moet hebben. Met 5 predictoren moet je in je data minstens 50 cases vinden. De predictoren in een multivariate model zijn of continue of dichotome variabelen. nQuery kan de sample size berekenen voor een multivariate regressie model met meerdere continue predictoren. nQuery test dat R2 = 0 voor normaal verdeelde covariaten. Kies in nQuery een nieuwe tabel, dan in “study goal and design” voor “regression”, “one group” en voor “test” en bij type test voor “linear regression, multiple covariates”. Vervolgens geef je de volgende waarden op: Test significance level (0,05); Number of variables, k =aantal predictoren in je model; Squared multiple correlation, R2 (wat is de verklaarde variantie of de verwachte effect size) ; en de Power (meestal 80%). Waarna de sample size wordt berekend.
Kan ik een poweranalyse doen bij een statusonderzoek?
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen twee groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaald of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. De “effect size” is nu het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.
Referenties
- J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110
- Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476
- Florey CD. Sample size for beginners. BMJ 1993; volume 306: 1181-4
- Kerry Sm, Bland JM. Statistics notes: sample size in cluster randomization. BMJ 1998; volume 316: 549
- Sample size in Wikipedia [1]
- Sample size meer uitgebreide tekst(pdf) [2]
Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.
Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.