Poweranalyse

From Wikistatistiek
Jump to navigation Jump to search
Auteur dr. J.M. Binnekade
Co-Auteur dr. ir. N. van Geloven
auteurschap op deze site

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

Waarom doe ik een poweranalyse of steekproefgrootteberekening?

Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout-negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie [1, 2].

Wanneer heb ik een power analyse nodig?

Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het CONSORT statement, waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

Welke software is beschikbaar voor een power analyse?

Voor het berekenen van de sample size is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de softwarewinkel in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld R, SAS of Stata. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

Wat is de power van een studie?

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) [3]. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

Totale populatie
werkelijk effect

H1 waar

werkelijk geen effect

H0 waar

Studie

resultaat

effect gemeten

H0 verworpen

terecht positief

power (1-β)

80%

fout positief

type I fout (α)

5%

geen effect gemeten

H0 niet verworpen

fout negatief

type II fout (β)

20%

terecht negatief

(1-α)

95%

Welke informatie heb ik nodig voor een power analyse?

Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen (meer uitleg per onderwerp):

  • De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.
  • Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken.
  • Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
  • Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
  • Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?
  • Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?
  • Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

Waar vind ik de benodigde informatie voor een power analyse?

  • De gewenste power van de studie (1-β)

De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

  • Het gewenste significantie niveau (α)

De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor multiple testing. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

  • Eenzijdig of tweezijdige toets

Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen [4, 5]. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

  • Verwacht of klinisch relevant effect dat je wilt kunnen aantonen

Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie [6].

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen [7].

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

  • Verwachte spreiding / standaard deviatie

De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met nQuery een schatting gemaakt worden op basis van wel bekende gegevens. Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

  • Welke statistische toets

Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina KEUZE TOETS van deze wiki.

  • Wat te doen als ik onvoldoende informatie heb?

Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?

Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

Kan ik meerdere uitkomstmaten combineren in een poweranalyse?

Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor multiple testing om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

Corrigeert een correcte sample size berekening voor meetfouten?

Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

Wanneer is een post hoc poweranalyse zinvol?

Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt. Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde [8, 9, 10]. Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden [11, 12].

Hoe doe ik een post hoc poweranalyse?

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie.

Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.

Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.

Poweranalyse in specifieke onderzoeksdesigns

Hoe doe ik een poweranalyse bij een equivalentiestudie?

In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

Hoe bereken ik een sample size voor een kappa coëfficiënt?

Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de kappa te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met nQuery op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:

  • Test significance level, α (bijvoorbeeld 0,05)
  • 1 or 2 sided test (meestal 2 sided)
  • Proportion successes (verwacht percentage positieve testen)
  • Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
  • Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
  • Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.


Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters?

Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?

Je kunt deze berekening met de R package kappaSize uitvoeren.

Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient?

De methoden hiervoor worden in dit artikel beschreven [13].

Hoe wordt een groepsgrootteberekening aangepast bij een ‘clustered’ trial?

In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beïnvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken [14]:

Na interventie (placebo/experiment) wil men bij patiënten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patiënten per praktijk zijn 558 praktijken nodig (4% meer patiënten dan in een trial waarbij per patiënt gerandomiseerd wordt). Bij 50 patiënten per praktijk heb ik 126 praktijken nodig (17% meer patiënten dan een gewone trial). Bij 500 patiënten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patiënten nodig als in een gewone gerandomiseerde trial. De extra patiënten t.g.v. het clustereffect noemt men het designeffect of de inflatiefactor.

Je hebt voor de berekening van de sample size bij een cluster-gerandomiseerde trial de volgende gegevens nodig: significantieniveau; power; standaarddeviatie; klinisch relevant verschil; het aantal patiënten per cluster (k); correlatie tussen patiënten in hetzelfde cluster (gebruikelijk is ). Bij de berekening van steekproefgrootte bij cluster-gerandomiseerde trials wordt vaak aangeraden een zogenaamde inflatiefactor van te gebruiken met n = de gemiddelde clustergrootte en de intraclass correlatiecoefficient. Er is een stap voor stap uitleg hierover verschenen [15].

Hoe kan ik een sample size berekening doen in een hiërarchisch design?

Voor de sample size berekening in een hiërarchisch design kunnen vaak de simpele aanpassingsmethoden zoals bij een clustered design worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

Kan ik bij een diagnostische studie een poweranalyse doen?

Bij een diagnostische studie wordt vaak de sensitiviteit en specificiteit van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. In nQuery kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd [16], ook zijn hiervoor nomograms gepubliceerd [17].

Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?

Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de Mann-Whitney U toets kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in nQuery wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?

Een vuistregel voor sample size van een multivariabele lineaire regressie analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. nQuery kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

Is een poweranalyse zinvol bij een tevredenheidsenquete?

Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?

Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als de proportie dichter bij .5 ligt, klopt dat wel?

Ik doe een sample size berekening voor het schatten van een enkel percentage waarbij ik een vaste breedte van het betrouwbaarheidsinterval rondom dat percentage wens. Wat mij verbaast is dat de aantallen patiënten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuïtief kun je hier als volgt over denken:

Stel je hebt een (gewone 1-6) dobbelsteen en weet niet wat er voor een ogen op deze dobbelsteen staan. - Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussen 0 en 25% is snel te maken. - Stel je wilt kijken hoe vaak er een even getal (2, 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

Hoeveel patiënten heb ik bij een pilot studie nodig?

Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan [18]. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig [19].

Hoeveel patiënten heb ik minder nodig als ik een cross-over studie doe i.p.v. een studie met parallelle groepen?

Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen [20]

.


Hierbij is r de correlatie tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?

In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een logistische regressie te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel nQuery als PASS, maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery [21] en PASS [22] genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules [22]zelf toe te passen.

Hoeveel patienten heb ik nodig voor een genome wide associatie studie?

Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een Bonferroni correctie, dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages en noemen. Over die en moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

.


= 1-power en als power 80% is, dan is =0.84 (als power 90% is, dan is =1.28). = significantie niveau en als =0.05, dan is =1.96. Als , dan is =5.16 en als 0.000000085 dan is =5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat =0.10. Stel verder dat de odds ratio van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de odds ratio's 1.1 of 1.2 of zoiets en dan toets je =0.10 versus =0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

Hoeveel patiënten heb ik nodig om een predictiemodel te bouwen?

Ik wil een predictiemodel voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?

In deze situatie gaat het niet om het aantal patiënten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig [23]. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen [24].

Ik wil een predictiemodel voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?

Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven [25, 26].

Denk bij het plannen van een studie om een predictiemodel te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?

Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaardoperatie. De proportie complicaties bij de huidige standaardoperatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadraat toets voor één proportie uitvoeren. In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”-teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52), de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en het benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In dit voorbeeld is dat 195.

Als je met andere proporties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

Referenties

  1. Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 DOI

    [jones2003]
  2. Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 DOI

    [florey1993]
  3. Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. Link

    [park2010]
  4. Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. DOI

    [knottnerus2001]
  5. Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. DOI

    [peace1989]
  6. Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. DOI

    [westlund2016]
  7. European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). download from ema website

    [EMAE9]
  8. Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. DOI

    [levine2001]
  9. Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. DOI

    [goodman1994]
  10. Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. DOI

    [lenth2001]
  11. Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. DOI

    [Gelman2019a]
  12. Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. DOI

    [Gelman2019b]
  13. Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. DOI

    [zou2012]
  14. Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. DOI

    [kerry1998]
  15. McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. DOI.

    [mccarthy2007]
  16. Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. DOI.

    [lameris2007]
  17. Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. DOI

    [carley2005]
  18. Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. DOI.

    [julios2005]
  19. Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. DOI.

    [hertzog2008]
  20. Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. Link

    [bonten2012]
  21. Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. DOI

    [hsieh1989]
  22. Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. <1623::AID-SIM871>3.0.CO;2-S DOI

    [hsieh1998]
  23. Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. DOI

    [ogundimu2016]
  24. van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. DOI

    [smeden2018]
  25. Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). DOI

    [knofczynski2007]
  26. Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. Link

    [brooks2012]


Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.