Poweranalyse

From Wikistatistiek
Jump to navigation Jump to search
Auteur dr. J.M. Binnekade
Co-Auteur dr. ir. N. van Geloven
auteurschap op deze site

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

AMC biostatistics manual - Sample size calculation

Zie hier de AMC biostatistics manual - Sample size calculation: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

Waarom doe ik een power analyse / sample size berekening?

Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.

Wanneer heb ik een power analyse nodig?

Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het CONSORT statement, waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

Welke software is beschikbaar voor een power analyse?

Voor het berekenen van de sample size is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link Tools (AMC intranet). Je kunt nQuery op het AMC ook installeren vanuit de NAL of voor gemigreerde computers vanuit Start -> Alle programma's -> Extra Software installeren. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld SAS of Stata. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

Wat is de power van een studie?

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

Totale populatie
werkelijk effect

H1 waar

werkelijk geen effect

H0 waar

Studie

resultaat

effect gemeten

H1 waar

terecht positief

power (1-β)

80%

fout positief

type I fout (α)

5%

geen effect gemeten

H0 waar

fout negatief

type II fout (β)

20%

terecht negatief

(1-α)

95%

Welke informatie heb ik nodig voor een power analyse?

Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen (meer uitleg per onderwerp):

  • De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.
  • Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken.
  • Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
  • Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
  • Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?
  • Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?
  • Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

Waar vind ik de benodigde informatie voor een power analyse?

  • De gewenste power van de studie (1-β)

De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

  • Het gewenste significantie niveau (α)

De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor multiple testing. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

  • Eenzijdig of tweezijdige toets

Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld Knottnerus (2001) of Peace (1989) voor overwegingen om toch eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

  • Verwacht of klinisch relevant verschil

Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer.

  • Verwachte spreiding / standaard deviatie

De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met nQuery een schatting gemaakt worden op basis van wel bekende gegevens. Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

  • Welke statistische toets

Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina KEUZE TOETS van deze wiki.

  • Wat te doen als ik onvoldoende informatie heb?

Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

Kan ik meerdere uitkomstmaten combineren in een poweranalyse?

Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.

Corrigeert een correcte sample size berekening voor meetfouten?

Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

Wanneer is een post hoc poweranalyse zinvol?

Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt. Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.

Zie ook:

Hoe doe ik een post hoc poweranalyse?

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

Poweranalyse in specifieke onderzoeksdesigns

Hoe doe ik een poweranalyse bij een equivalentiestudie?

In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

Hoe bereken ik een sample size voor een kappa coëfficiënt?

Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de kappa te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met nQuery op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:

  • Test significance level, α (bijvoorbeeld 0,05)
  • 1 or 2 sided test (meestal 2 sided)
  • Proportion successes (verwacht percentage positieve testen)
  • Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
  • Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
  • Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?

In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ (Kerry, 1998) betreft huisartspraktijken:

Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster (gebruikelijk is ). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van te gebruiken met n = de gemiddelde clustergrootte en de intraclass correlatie coefficient.

Zie voor een stap voor stap uitleg dit artikel: Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data.

Hoe kan ik een sample size berekening doen in een hiërarchisch design?

Voor de sample size berekening in een hiërarchisch design kunnen vaak de simpele aanpassingsmethoden hierboven beschreven onder 'clustered design' worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. PinT (Power analysis in Two-level designs), geschreven door prof Tom A.B. Snijders, is een programma speciaal gemaakt voor het uitvoeren van sample size berekeningen voor linear mixed models met 2 niveaus. Het programma kan gratis gedownload worden inclusief manual.

Kan ik bij een diagnostische studie een poweranalyse doen?

Bij een diagnostische studie wordt vaak de sensitiviteit en specificiteit van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. In nQuery kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.

Zie voor een voorbeeld van een dergelijke powerberekening het design artikel van de OPTIMA studie.

Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?

Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de Mann-Whitney U toets wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in nQuery wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?

Een vuistregel voor sample size van een multivariabele regressie analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. nQuery kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

Kan ik een poweranalyse doen bij een statusonderzoek?

In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.

Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?

Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?

Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan. - Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken. - Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

Hoeveel patiënten heb ik bij een pilot studie nodig?

Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patienten per groep aan (bron). Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken, kunnen de overwegingen in dit artikel nuttig zijn.

Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?

Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen (zie toelichting in dit NTVG artikel):

n_cross-over = ((1-r) * n_parallel) / 2

Hierbij is r de correlatie tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patient hoger zal zijn. Je moet goed kunnen motiveren waarom minder patienten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

Referenties

  • J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [1]
  • Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [2]
  • Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [3]
  • Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [4]
  • S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [5]
  • S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [6]
  • Sample size in Wikipedia [7]
  • Sample size meer uitgebreide tekst(pdf) [8]
  • Sample size Power Analysis and Sample Size Determination: Concepts and Software Tools - Basisuitleg geillustreerd met voorbeelden in PASS en Power and Precision [9]

Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.