https://wikistatistiek.amc.nl/api.php?action=feedcontributions&user=Noor+van+den+Bosch&feedformat=atomWikistatistiek - User contributions [en]2024-03-28T14:40:35ZUser contributionsMediaWiki 1.39.6https://wikistatistiek.amc.nl/index.php?title=KEUZE_TOETS&diff=977KEUZE TOETS2009-05-22T06:32:05Z<p>Noor van den Bosch: /* Heb ik gepaarde of ongepaarde data? */</p>
<hr />
<div>= Schema welke toets bij welke vergelijking =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan="3"|<br />
! style="background:#d0e5f5;" colspan="5" |type vergelijking<br />
|-<br />
! style="background:#efefef;"| 1 groep<br />
! style="background:#efefef;" colspan="2"|2 groepen <br />
! style="background:#efefef;" colspan="2"|>2 groepen<br />
|-<br />
! vs. referentie<br />
! gepaard<br />
! ongepaard<br />
! gepaard<br />
! ongepaard<br />
|-<br />
!style="background:#d0e5f5;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50"|continu<br />
!style= width="50" height="100" |normaal<br />
verdeeld<br />
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]<br />
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]<br />
|style="" width="100" |<br />
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]<br />
<br />
|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
|style="" width="100" |[[One-way ANOVA]]<br />
|-<br />
!style= height="100" |niet normaal<br />
verdeeld<br />
|style="" |[[sign toets]]<br />
|style="" |[[Wilcoxon signed rank toets]]<br />
|style="" |[[Mann-Whitney U toets]]<br />
|style="" |[[Friedman toets]]<br />
|style="" |[[Kruskal Wallis]]<br />
|-<br />
! style="background:#efefef;" rowspan="2"| discreet<br />
! style= height="100" | binair (proportie)<br />
| style="" |[[z-test voor proporties]]<br />
| style="" |[[McNemars toets]]<br />
| style="" |[[Chi-kwadraat toets]] / <br />
[[Fisher's exact toets]]<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style=""| [[Chi-kwadraat toets]] / <br />
[[Fisher's exact toets]]<br />
|-<br />
! style= height="100" |nominaal / <br />
ordinaal<br />
| style="" |x<br />
| style="" |[[McNemars toets]] /<br />
[[Wilcoxon signed rank toets]]<br />
| style="" |[[Chi-kwadraat toets]] (trend)/<br />
[[Fisher's exact toets]]<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style="" |[[Chi-kwadraat toets]] /<br />
[[Fisher's exact toets]]<br />
|}<br />
<br />
= Schema welke analyse bij welke associatie =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan ="3"|<br />
! style="background:#faecc8;" colspan="4" |type associatie<br />
|-<br />
! style="background:#efefef;" colspan="2" | crosssectioneel<br />
! style="background:#efefef;" colspan="2" |longitudinaal <br />
|-<br />
!width="100" |2 variabelen<br />
!width="100" |meer onafhankelijke variabelen<br />
!width="100" |2 variabelen<br />
!width="100" |meer onafhankelijke variabelen<br />
|-<br />
!style="background:#faecc8;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50" |continu<br />
!height="100" width="50"| normaal<br />
verdeeld<br />
|[[Correlatie#Pearson's rho|Pearson's rho]]<br />
<br />
|[[Lineaire regressie]]<br />
|colspan="2" rowspan="2"| [[Herhaalde metingen]]<br />
|-<br />
!height="100" |niet normaal<br />
verdeeld<br />
|[[Correlatie#Spearman's rho|Spearman's rho]] /<br />
[[Correlatie#Spearman's rho|Kendall's tau]]<br />
|Niet lineaire regressie<br />
|-<br />
!style="background:#efefef;" rowspan="2" | discreet<br />
!height="100" |binair <br />
(proporties)<br />
|[[odds ratio]]/ risk ratio/<br />
risk difference<br />
|[[Logistische regressie]]<br />
|[[Survival analyse]]<br />
|[[Survival analyse#Cox regressie|Cox regressie]]<br />
|-<br />
!height="100"| nominaal<br />
/ordinaal<br />
|x<br />
|[[multinomiale logistische regressie]]<br />
/[[ordinale logistische regressie]]<br />
|x<br />
|x<br />
|}<br />
<br />
= Van welk type is mijn data?=<br />
<br />
==Continue variabelen==<br />
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).<br />
<br />
==Discrete variabelen==<br />
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.<br />
<br />
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen. Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist. <br />
<br />
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.<br />
<br />
===Binaire variabelen===<br />
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).<br />
<br />
===Nominale variabelen===<br />
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.<br />
<br />
===Ordinale variabelen===<br />
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'.<br />
<br />
= Heb ik gepaarde of ongepaarde data?=<br />
<br />
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld: <br />
<br />
''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?<br />
<br />
In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.<br />
<br />
= Hoe beoordeel ik de normaliteit van mijn data? =<br />
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door het histogram te bekijken of een formele toets te doen. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). <br />
<br />
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===<br />
<br />
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?<br />
<br />
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. <br />
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.)<br />
<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=886Poweranalyse2009-05-15T13:53:00Z<p>Noor van den Bosch: /* Waar vind ik de benodigde informatie voor een power analyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om toch eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=885Poweranalyse2009-05-15T13:41:37Z<p>Noor van den Bosch: /* Welke informatie heb ik nodig voor een power analyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Statistische_software&diff=884Statistische software2009-05-15T13:32:14Z<p>Noor van den Bosch: /* CIA */</p>
<hr />
<div>==R==<br />
R is een vrij verkrijgbaar statistisch pakket te downloaden op [http://www.r-project.org/ http://www.r-project.org]. Ga naar Download -> CRAN, selecteer een 'mirror' en installeer het pakket. Omdat R een zogeheten open source structuur kent, zijn nieuwe statistische ontwikkeling direct beschikbaar via nieuwe downloadbare packages. Het is een zeer krachtig en flexibel pakket.<br />
<br />
*Introductiemanual: [http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf Simple statistical analyses in R.pdf]. Als je de eerste paar pagina's van deze manual doorloopt, weet je de basics van het pakket.<br />
<br />
==SPSS==<br />
==Stata==<br />
==SAS==<br />
==nQuery Advisor==<br />
Voor het berekenen van sample sizes is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma dat de mogelijkheid biedt om voor diverse onderzoeksdesigns en type data de gewenste groepsgrootte en statistische power te berekenen. nQuery, inclusief instructies voor het downloaden, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. nQuery geeft ook de mogelijkheid om eenvoudige [[randomiseren | randomizatielijsten]] te genereren.<br />
<br />
==CIA==<br />
Het programma Confidence Interval Analysis (CIA), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen. Er is een simpele versie van CIA te downloaden vanaf de CRU website onder [http://www.amc-cru.nl/tools.aspx Tools].</div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Statistische_software&diff=883Statistische software2009-05-15T13:31:32Z<p>Noor van den Bosch: /* nQuery Advisor */</p>
<hr />
<div>==R==<br />
R is een vrij verkrijgbaar statistisch pakket te downloaden op [http://www.r-project.org/ http://www.r-project.org]. Ga naar Download -> CRAN, selecteer een 'mirror' en installeer het pakket. Omdat R een zogeheten open source structuur kent, zijn nieuwe statistische ontwikkeling direct beschikbaar via nieuwe downloadbare packages. Het is een zeer krachtig en flexibel pakket.<br />
<br />
*Introductiemanual: [http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf Simple statistical analyses in R.pdf]. Als je de eerste paar pagina's van deze manual doorloopt, weet je de basics van het pakket.<br />
<br />
==SPSS==<br />
==Stata==<br />
==SAS==<br />
==nQuery Advisor==<br />
Voor het berekenen van sample sizes is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma dat de mogelijkheid biedt om voor diverse onderzoeksdesigns en type data de gewenste groepsgrootte en statistische power te berekenen. nQuery, inclusief instructies voor het downloaden, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. nQuery geeft ook de mogelijkheid om eenvoudige [[randomiseren | randomizatielijsten]] te genereren.<br />
<br />
==CIA==<br />
Het programma Confidence Interval Analysis (CIA), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen. Er is een versie van CIA te downloaden vanaf de CRU website onder [http://www.amc-cru.nl/tools.aspx Tools].</div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=882Poweranalyse2009-05-15T12:59:05Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="120" align="center"|werkelijk effect<br />
H1 waar<br />
|width="120" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=881Poweranalyse2009-05-15T12:58:47Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|width="100" align="center"|werkelijk effect<br />
H1 waar<br />
|width="100" align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=880Poweranalyse2009-05-15T12:58:01Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="center"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=879Poweranalyse2009-05-15T12:57:44Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
resultaat<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=878Poweranalyse2009-05-15T12:57:13Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=877Poweranalyse2009-05-15T12:56:48Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=876Poweranalyse2009-05-15T12:56:27Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
80%<br />
|align="center" |fout positief<br />
type I fout (α)<br />
5%<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
20%<br />
|align="center" |terecht negatief<br />
(1-α)<br />
95%<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=875Poweranalyse2009-05-15T12:55:22Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=874Poweranalyse2009-05-15T12:53:36Z<p>Noor van den Bosch: /* Welke informatie heb ik nodig voor een power analyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=873Poweranalyse2009-05-15T12:52:59Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
<br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="center"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 waar<br />
|align="center"|werkelijk geen effect<br />
H0 waar<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 waar<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 waar<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=872Poweranalyse2009-05-15T12:50:22Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="centre"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 true<br />
|align="center"|werkelijk geen effect<br />
H0 true<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 true<br />
|align="center" style="background:#faecc8" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 true<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=871Poweranalyse2009-05-15T12:48:13Z<p>Noor van den Bosch: /* Wat is de power van een studie? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans op het missen van een werkelijk effect in de populatie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|colspan="2" align="centre"|Totale populatie<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|werkelijk effect<br />
H1 true<br />
|align="center"|werkelijk geen effect<br />
H0 true<br />
|-<br />
|rowspan="2" align="left"|Studie<br />
|align="center" | effect gemeten<br />
H1 true<br />
|align="center" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|align="center" | geen effect gemeten<br />
H0 true<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=870Poweranalyse2009-05-15T12:44:24Z<p>Noor van den Bosch: </p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Wat is de power van een studie?==<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans op het missen van een werkelijk effect in de populatie.<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
|<br />
|<br />
|werkelijk effect<br />
|werkelijk geen effect<br />
|-<br />
|align="left" |<br />
|align="center"|<br />
|align="center"|H1 true<br />
|align="center"|H0 true<br />
|-<br />
|<br />
|align="center" | H1 true<br />
|align="center" | terecht positief<br />
power (1-β)<br />
|align="center" |fout positief<br />
type I fout (α)<br />
|-<br />
|<br />
|align="center" | H0 true<br />
|align="center" | fout negatief<br />
type II fout (β)<br />
|align="center" |terecht negatief<br />
(1-α)<br />
|-<br />
|}<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=867Poweranalyse2009-05-15T11:49:28Z<p>Noor van den Bosch: /* Welke informatie heb ik nodig voor een power analyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). <br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=KEUZE_TOETS&diff=864KEUZE TOETS2009-05-15T11:38:40Z<p>Noor van den Bosch: /* Hoe beoordeel ik de normaliteit van mijn data? */</p>
<hr />
<div>= Schema welke toets bij welke vergelijking =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan="3"|<br />
! style="background:#d0e5f5;" colspan="5" |type vergelijking<br />
|-<br />
! style="background:#efefef;"| 1 groep<br />
! style="background:#efefef;" colspan="2"|2 groepen <br />
! style="background:#efefef;" colspan="2"|>2 groepen<br />
|-<br />
! vs. referentie<br />
! gepaard<br />
! ongepaard<br />
! gepaard<br />
! ongepaard<br />
|-<br />
!style="background:#d0e5f5;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50"|continu<br />
!style= width="50" height="100" |normaal<br />
verdeeld<br />
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]<br />
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]<br />
|style="" width="100" |<br />
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]<br />
<br />
|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
|style="" width="100" |[[One-way ANOVA]]<br />
|-<br />
!style= height="100" |niet normaal<br />
verdeeld<br />
|style="" |sign toets<br />
|style="" |[[Wilcoxon signed rank toets]]<br />
|style="" |[[Mann-Whitney U toets]]<br />
|style="" |[[Friedman toets]]<br />
|style="" |[[Kruskal Wallis]]<br />
|-<br />
! style="background:#efefef;" rowspan="2"| discreet<br />
! style= height="100" | binair (proportie)<br />
| style="" |z-test voor proporties<br />
| style="" |McNemars test<br />
| style="" |[[Chi-kwadraat toets]] / <br />
[[Fisher's exact toets]]<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style=""| [[Chi-kwadraat toets]] / <br />
[[Fisher's exact toets]]<br />
|-<br />
! style= height="100" |nominaal / <br />
ordinaal<br />
| style="" |x<br />
| style="" |McNemars toets /<br />
[[Wilcoxon signed rank toets]]<br />
| style="" |[[Chi-kwadraat toets]] (trend)/<br />
[[Fisher's exact toets]]<br />
| style="" |[[Herhaalde metingen|GLMM / GEE]]<br />
| style="" |[[Chi-kwadraat toets]] /<br />
[[Fisher's exact toets]]<br />
|}<br />
<br />
= Schema welke analyse bij welke associatie =<br />
{| border ="2" cellpadding="8" align="center" <br />
! colspan="3" rowspan ="3"|<br />
! style="background:#faecc8;" colspan="4" |type associatie<br />
|-<br />
! style="background:#efefef;" colspan="2" | crosssectioneel<br />
! style="background:#efefef;" colspan="2" |longitudinaal <br />
|-<br />
!width="100" |2 variabelen<br />
!width="100" |meer onafhankelijke variabelen<br />
!width="100" |2 variabelen<br />
!width="100" |meer onafhankelijke variabelen<br />
|-<br />
!style="background:#faecc8;" rowspan="4" width="60" | type data<br />
!style="background:#efefef;" rowspan="2" width="50" |continu<br />
!height="100" width="50"| normaal<br />
verdeeld<br />
|[[Correlatie#Pearson's rho|Pearson's rho]]<br />
<br />
|[[Lineaire regressie]]<br />
|colspan="2" rowspan="2"| [[Herhaalde metingen]]<br />
|-<br />
!height="100" |niet normaal<br />
verdeeld<br />
|[[Correlatie#Spearman's rho|Spearman's rho]] /<br />
[[Correlatie#Spearman's rho|Kendall's tau]]<br />
|Niet lineaire regressie<br />
|-<br />
!style="background:#efefef;" rowspan="2" | discreet<br />
!height="100" |binair <br />
(proporties)<br />
|[[odds ratio]]/ risk ratio/<br />
risk difference<br />
|[[Logistische regressie]]<br />
|[[Survival analyse]]<br />
|[[Survival analyse#Cox regressie|Cox regressie]]<br />
|-<br />
!height="100"| nominaal<br />
/ordinaal<br />
|x<br />
|[[multinomiale logistische regressie]]<br />
/[[ordinale logistische regressie]]<br />
|x<br />
|x<br />
|}<br />
<br />
= Van welk type is mijn data?=<br />
<br />
==Continue variabelen==<br />
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).<br />
<br />
==Discrete variabelen==<br />
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.<br />
<br />
Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen. Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist. <br />
<br />
Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.<br />
<br />
===Binaire variabelen===<br />
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).<br />
<br />
===Nominale variabelen===<br />
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.<br />
<br />
===Ordinale variabelen===<br />
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'.<br />
<br />
= Heb ik gepaarde of ongepaarde data?=<br />
<br />
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld: <br />
<br />
''Wij hebben bij een groep varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?<br />
<br />
In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.<br />
<br />
= Hoe beoordeel ik de normaliteit van mijn data? =<br />
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door het histogram te bekijken of een formele toets te doen. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). <br />
<br />
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===<br />
<br />
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?<br />
<br />
Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. <br />
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.)<br />
<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=862Poweranalyse2009-05-15T11:30:35Z<p>Noor van den Bosch: /* Hoe doe ik een post hoc poweranalyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdig of tweezijdige toets.<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). <br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=861Poweranalyse2009-05-15T11:29:56Z<p>Noor van den Bosch: /* Hoe doe ik een post hoc poweranalyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdig of tweezijdige toets.<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). <br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met de het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=860Poweranalyse2009-05-15T11:26:38Z<p>Noor van den Bosch: /* Hoe doe ik een post hoc poweranalyse? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdig of tweezijdige toets.<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). <br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf van de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met de het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Poweranalyse&diff=859Poweranalyse2009-05-15T11:26:12Z<p>Noor van den Bosch: /* Wanneer is een post hoc poweranalyse zinvol? */</p>
<hr />
<div>Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.<br />
<br />
<br />
==Waarom doe ik een power analyse / sample size berekening?==<br />
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel proefpersonen heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde sample size kan ethische bezwaren opleveren. Een onderschatting van de sample size kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en proefpersonen dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote sample size kan ook tot bewaren leiden. Als de interventie effectief blijkt, worden er onnodig veel mensen in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel proefpersonen blootgesteld aan een ineffectieve interventie.<br />
<br />
==Wanneer heb ik een power analyse nodig?==<br />
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br /><br />
<br />
==Welke software is beschikbaar voor een power analyse?==<br />
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery, inclusief download instructies, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools]. Voor meer geavanceerde onderzoeksdesigns is er binnen het AMC ook een beperkte licentie voor het programma NCSS PASS. Neem hiervoor contact op met de afdeling KEBB of CRU. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.<br />
<br />
==Welke informatie heb ik nodig voor een power analyse?==<br />
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg]]):<br />
<br />
*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II error vermeden wordt.<br /><br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I error te maken. <br /><br />
*Eenzijdig of tweezijdige toets.<br />
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?<br />
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br /><br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br /><br />
*Equivalentie limit. Als de studie probeert aan te tonen dat groepen gelijk zijn ([[Poweranalyse#Hoe doe ik een poweranalyse bij een equivalentiestudie?|equivalentie studie]]), moet je opgeven welk (klein) verschil je nog ziet als onbelangrijk (waarbij de groepen nog als equivalent worden gezien).<br /><br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.<br />
<br />
==Waar vind ik de benodigde informatie voor een power analyse?==<br />
<br />
''Wat is een type I en type II fout?''<br /><br />
In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese). We kunnen hierbij twee type fouten maken: een type I error (α) en een type II error (β). We maken een type I error als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II error als we ten onrechte de nul hypothese accepteren (fout negatief). <br />
<br />
''De gewenste power van de studie (1-β)''<br /><br />
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.<br />
<br />
''Het gewenste significantie niveau (α)''<br / ><br />
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al. <br />
<br />
''Eenzijdig of tweezijdige toets'' <br /><br />
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Zie bijvoorbeeld [[Poweranalyse#Referenties| Knottnerus (2001)]] of [[Poweranalyse#Referenties |Peace (1989)]] voor overwegingen om eenzijdig te toetsen. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen. <br />
<br />
''Verwacht of klinisch relevant verschil''<br /><br />
Meestal is dit het verschil tussen de controle en experimentele groep in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Een inschatting kun je maken op basis van eerdere bevindingen (literatuur of het resultaat van een pilot studie). Als er geen gegevens bekend zijn, kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het behandel effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. <br />
<br />
''Verwachte spreiding / standaard deviatie''<br /><br />
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens. <br />
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen. <br />
<br />
''Welke statistische toets''<br / ><br />
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.<br />
<br />
''Wat te doen als ik onvoldoende informatie heb?''<br /><br />
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.<br />
<br />
==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==<br />
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie. <br />
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen.<br />
<br />
==Corrigeert een correcte sample size berekening voor meetfouten?==<br />
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.<br />
<br />
== Wanneer is een post hoc poweranalyse zinvol? ==<br />
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.<br />
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde.<br />
== Hoe doe ik een post hoc poweranalyse? ==<br />
<br />
Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf van de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met de het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien:<br />
<br />
"Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."<br />
<br />
Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.<br />
<br />
==Poweranalyse in specifieke onderzoeksdesigns==<br />
<br />
===Hoe doe ik een poweranalyse bij een equivalentiestudie?===<br />
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.<br />
<br />
===Hoe bereken ik een sample size voor een kappa coëfficiënt?===<br />
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome). <br />
<br />
Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:<br />
*Test significance level, α (bijvoorbeeld 0,05) <br />
*1 or 2 sided test (meestal 2 sided)<br />
*Proportion successes (verwacht percentage positieve testen)<br />
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval<br />
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)<br />
*Power (meestal 80% of 90%)<br />
<br />
nQuery berekent op basis van deze gegevens de sample size.<br />
<br />
===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===<br />
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial. <br />
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld uit BMJ ([[Poweranalyse#Referenties|Kerry, 1998]]) betreft huisartspraktijken:<br />
<br />
:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.<br />
<br />
Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster rho (gebruikelijk is rho > 0,05).<br />
<br />
===Kan ik bij een diagnostische studie een poweranalyse doen?===<br />
<br />
Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart. <br />
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal true positives (TP) dat je verwacht. Stel je verwacht in je studiepopulatie een proportie TP van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===<br />
Voor een sample size berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] wordt via een omweg toch gebruik gemaakt van de mean +/- SD van beide groepen om de power of sample size te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je zelf uitrekenen met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.<br />
<br />
===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele regressie ga doen?===<br />
Een vuistregel voor sample size van een [[multivariabele regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.<br />
<br />
===Kan ik een poweranalyse doen bij een statusonderzoek?===<br />
In een beschrijvend onderzoek probeer je geen verschil aan te tonen tussen groepen. Een sample size berekening heeft dus geen zin. Niet te verwarren met de sample size berekening voor een “single group t-test” waarbij je bepaalt of de sample (1 groep) verschilt van een hypothetisch gemiddelde zoals dat in de populatie wordt verwacht. Daarbij test je het verschil tussen het gemeten gemiddelde en het hypothetische gemiddelde.<br />
<br />
==Referenties ==<br />
<br />
*J. Andre Knottnerus, Lex M. Bouter, The ethics of sample size: Two-sided testing and one-sided thinking, Journal of Clinical Epidemiology, Volume 54, Issue 2, February 2001, Pages 109-110 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-428FM6R-1-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=02%2F28%2F2001&_sk=999459997&view=c&wchp=dGLbVlb-zSkWz&md5=9e0d647537502e383bfdbe0d96463e7c&ie=/sdarticle.pdf]<br />
<br />
*Karl E. Peace, The alternative hypothesis: One-sided or two-sided?, Journal of Clinical Epidemiology, Volume 42, Issue 5, 1989, Pages 473-476 [http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6T84-4BRKKY7-46-1&_cdi=5076&_user=1299343&_orig=search&_coverDate=12%2F31%2F1989&_sk=999579994&view=c&wchp=dGLbVzz-zSkWb&md5=5fbf774256b01e7614d160767495d87e&ie=/sdarticle.pdf]<br />
<br />
*Florey CD. Sample size for beginners, BMJ, Volume 306, 1993, Pages 1181-4 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1677669&blobtype=pdf]<br />
<br />
* Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization, BMJ, volume 316, Issue 5, 1998, Page 549 [http://www.bmj.com/cgi/content/full/316/7130/549?view=long&pmid=9501723]<br />
<br />
*S.R. Jones, s. Carley, An introduction to power and sample size estimation, Emergency Medicine Journal, volume 20, Issue 5, Pages 453-458 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726174&blobtype=pdf]<br />
<br />
*S. Carley, S. Dosman, S.R. Jones, M. Harrison, Simple nomograms to calculate sample size in diagnostic studies, Emergency Medicine Journal, Volume 22, Issue 5, 2005, Pages 180-181 [http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1726700&blobtype=pdf]<br />
<br />
*Sample size in Wikipedia [http://en.wikipedia.org/wiki/Sample_size]<br />
<br />
*Sample size meer uitgebreide tekst(pdf) [http://www.indiana.edu/~statmath/stat/all/power/power.pdf]<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Fisher%27s_exact_toets&diff=858Fisher's exact toets2009-05-15T11:11:18Z<p>Noor van den Bosch: /* Wanneer gebruik ik Fisher's exact test? */</p>
<hr />
<div>Fisher's exact toets beoordeelt of het verschil tussen twee proporties werkelijk bestaat of slechts "toevallig" is.<br />
<br />
== Wanneer gebruik ik Fisher's exact test? ==<br />
<br />
Fisher's exact test kan gebruikt worden om te toetsen of het verschil tussen twee proporties in een klassieke 2x2 tabel significant is. Dergelijke tabellen worden meestal geanalyseerd met een [[Chi-kwadraat toets]]. Traditioneel wordt er voor de Fisher's exact test gekozen ipv een Chi-kwadraat wanneer er lage aantallen (geobserveerde count ~<10 of expected count <5) in de 2x2 tabel voorkomen. De Chi-kwadraat test is dan niet meer nauwkeurig. Omdat Fisher's Exact test in de huidige statistische pakketten even snel uitgerekend kan worden als een chi-kwadraat test is er geen bezwaar meer om deze exacte test (chi-kwadraat gebruikt een benadering) altijd te gebruiken bij het analyseren van een 2x2 (of een mxn) tabel. In het algemeen zal de Chi-kwadraat toets minder conservatief (sneller significant) toetsen dan de Fisher's exact toets. <br />
<br />
Voorbeeld van een klassieke 2x2 tabel:<br />
<br />
<center><br />
<table><br />
<tr><td></td><td>cases</td><td>controls</td><td>totals</td></tr><br />
<tr><td>men</td><td>0</td><td>10</td><td>10</td></tr><br />
<tr><td>woman</td><td>12</td><td>2</td><td>14</td></tr><br />
<tr><td>totals</td><td>12</td><td>12</td><td>24</td></tr><br />
</table><br />
</center><br />
<br />
== Moet ik Chi-kwadraat of Fisher's exact toetsen gebruiken? ==<br />
<br />
''Voor mijn onderzoek heb ik een aantal uitkomsten geanalyseerd met X2-testen. Het is niet een heel grote studie (75 patienten), dus de aantallen patienten met de symptomen waar het om gaat zijn soms klein. In principe heb ik X2-testen gebruikt, alleen in het geval van een "expected count" van minder dan 5 in 20% of meer van de cellen in de tabel heb ik een Fisher's exact test gedaan. Nu doen we deze studie samen met een sponsor en zij hebben ook statistische analyses gedaan. Ik kreeg net de resultaten en zij blijken voor alle uitkomsten Fisher's exact testen gedaan te hebben (ipv X2). Dit is nogal jammer want een aantal statistisch significante uitkomsten die ik vond met de X2-testen (en die allemaal in dezelfde richting wezen dus leken te kloppen) zijn nu net niet significant meer (tenminste niet als je de uitkomsten van de two-tailed Fisher neemt, zoals de sponsor heeft gedaan). Wat is jullie mening hierover?<br />
<br />
De sponsor heeft een punt: Fisher's exact toets is nauwkeuriger dan de X2 toets en kan tegenwoordig even gemakkelijk uitgerekend worden. In het algemeen: de uitkomst/interpretatie van je studie zou niet moeten hangen om een p-waarde van 0.04 of 0.06, er zijn veel belangrijkere punten te maken dan het wel of niet onder de 0.05 uitkomen van een p-waarde.<br />
<br />
== Ik heb in mijn controlearm 0 events, kan ik het verschil tussen beide armen nog wel toetsen? ==<br />
''Ik heb het voorkomen van hyperthyreoidie bij patienten met veneuze trombose vs controles bekeken. Van de 173 cases hadden 3 patienten een hyperthyreoidie vs 0 van de 344 controles. Statische analyse met behulp van de Fisher's exact test toont dat hyperthyreoidie en veneuze trombose vaker samen voorkomen dan op basis van toeval verwacht kan worden (p=0.037). Volgens een van mijn professoren kunnen bovenstaande getallen echter geen significant verschil opleveren. Kan ik Fisher's exact test wel gebruiken in dit geval?<br />
<br />
Jouw berekeningen kloppen: 3 uit 173 (1.7%) is significant verschillend van 0 uit 344 (0%) en de p-waarde is inderdaad 0.037. Ik kan me de scepsis van de prof wel voorstellen want 3 events is natuurlijk niet heel veel, maar misschien helpt het als je benadrukt dat 0 events uit 344 observaties al behoorlijk veel evidence geeft dat de event-rate in de controls heel erg laag is; feitelijk loopt het 95% [[betrouwbaarheidsinterval]] nul tot 1.07%, dus de kans dat het in de buurt van de 1.7% ligt is heel erg gering. Je zult wellicht dezelfde scepsis ontmoeten als je dit resultaat wilt publiceren, dus misschien moet je nog wat meer evidence verzamelen.<br />
<br />
== Ik heb in mijn controlearm 0 events, hoe reken ik nu de odds ratio uit? ==<br />
''Ik heb een 0 in een aantal 2x2 tabellen waardoor ik geen OR kan berekenen. Wat is de gebruikelijke oplossing hiervoor?<br />
<br />
De meest gebruikte methode om toch een OR te kunnen uitrekenen, waneer een van de cellen in de tabel nul is, is bij ALLE cellen 0.5 op te tellen. Dit resulteert waarschijnlijk wel in een groter betrouwbaarheidsinterval. Een referentie voor deze correctie en de SE is: Agresti A (1990) Categorical Data Analysis. John Wiley & sons, New York.<br />
p. 54.<br />
<br />
== Waar vind ik Fisher's exact test in SPSS?==<br />
<br />
Je vindt de test in SPSS 16 onder Analyse->Descriptive Statistics->Crosstabs. Vink onder de knop "Statistics..." Chi-square aan. Je krijgt dan naast de Chi-kwadraat toets ook Fisher's exact test in de output.<br />
<br />
== Referenties ==<br />
* Agresti A (1990) Categorical Data Analysis. John Wiley & sons, New York.<br />
* Mehta, C. R.& Patel, N. R. 1997. Exact inference in categorical data. Biometrics, 53(1), 112-117.<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Chi-kwadraat_toets&diff=857Chi-kwadraat toets2009-05-15T11:10:29Z<p>Noor van den Bosch: /* Wanneer gebruik ik de Chi-kwadraat toets? */</p>
<hr />
<div>De Chi-kwadraat toets beoordeelt of het verschil tussen twee proporties werkelijk bestaat of slechts "toevallig" is.<br />
<br />
== Wanneer gebruik ik de Chi-kwadraat toets? ==<br />
<br />
De Chi-kwadraat toets kan gebruikt worden om te toetsen of het verschil tussen twee proporties in een klassieke 2x2 tabel significant is. Traditioneel wordt er voor de [[Fisher's exact toets]] gekozen ipv een Chi-kwadraat wanneer er lage aantallen (geobserveerde count ~<10 of expected count <5) in de 2x2 tabel voorkomen. De Chi-kwadraat test is dan niet meer nauwkeurig. Omdat [[Fisher's exact toets]] in de huidige statistische pakketten even snel uitgerekend kan worden als een chi-kwadraat test is er geen bezwaar meer om deze exacte test (chi-kwadraat gebruikt een benadering) altijd te gebruiken bij het analyseren van een 2x2 (of een mxn) tabel. In het algemeen zal de Chi-kwadraat toets minder conservatief (sneller significant) toetsen dan de Fisher's exact toets.<br />
<br />
Voorbeeld van het gebuik van de Chi-kwadraat toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="4" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Gender - Male<br />
|align="center" |61% (146/240)<br />
|align="center" |69% (161/234)<br />
|align="center" |0.07<br />
|-<br />
|Family history disease<br />
|align="center" | 21% (50/240)<br />
|align="center" | 15% (36/234)<br />
|align="center" |0.12<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as percentage (cases/n). **Group differences were tested with the chi-square test.<br />
|}<br />
<br />
== Waar vind ik de Chi-kwadraat toets in SPSS?==<br />
<br />
Je vindt de test in SPSS 16 onder Analyse->Descriptive Statistics->Crosstabs. Vink onder de knop "Statistics..." Chi-square aan. Je krijgt dan naast de Chi-kwadraat toets ook [[Fisher's exact toets]] in de output.<br />
<br />
== Referenties ==<br />
* Agresti A (1990) Categorical Data Analysis. John Wiley & sons, New York.<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Wilcoxon_signed_rank_toets&diff=856Wilcoxon signed rank toets2009-05-15T11:09:10Z<p>Noor van den Bosch: /* Wanneer gebruik ik de Wilcoxon signed rank toets? */</p>
<hr />
<div>De Wilcoxon signed rank toets is een niet-parametrische toets voor het vergelijken van een (semi-)continue variabele tussen twee [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen. <br />
<br />
== Wanneer gebruik ik de Wilcoxon signed rank toets? ==<br />
<br />
Als je wilt toetsen of de waardes een van twee maal gemeten, gepaarde, (semi-)continue variabele verschillen, kun je de Wilcoxon signed rank toets gebruiken. Bijvoorbeeld als je wilt testen of de resultaten twee CT scans van een patient van elkaar verschillen.<br />
<br />
De Wilcoxon signed rank toets wordt vaak gebruikt als alternatief voor de [[T-toets|gepaarde t-toets]], omdat de Wilcoxon signed rank toets geen normaal verdeelde data veronderstelt. De toets mag altijd gebruikt worden, voor alle [[KEUZE TOETS#Van welk type is mijn uitkomstmaat?|ordinale]] data. <br />
<br />
Voorbeeld van het gebruik van de Wilcoxon signed rank toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Results of repeated CT scans.<br />
|-<br />
|align="left" |Variable*<br />
|align="center"|scan 1<br />
|align="center"|scan 2<br />
|align="center"|p-value**<br />
|-<br />
|CT measurement<br />
|align="center" | 1004 [565;1222]<br />
|align="center" | 1114 [668;1485]<br />
|align="center" |0.03<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as median [inter quartile range]. **Differences between the two scans were tested with the Wilcoxon signed rank test.<br />
|}<br />
<br />
== Waar vind ik de Wilcoxon signed rank toets in SPSS?==<br />
<br />
Je vindt de test in SPSS 16 onder Analyze->Non-parametric Tests->2 Related Samples.<br />
<br />
== Referenties ==<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=Mann-Whitney_U_toets&diff=855Mann-Whitney U toets2009-05-15T11:08:33Z<p>Noor van den Bosch: </p>
<hr />
<div>De Mann-Whitney U toets (ook wel Mann–Whitney–Wilcoxon, Wilcoxon rank-sum toets, of Wilcoxon–Mann–Whitney toets genoemd) is een niet-parametrische toets voor het vergelijken van een (semi-)continue variabele tussen twee onafhankelijke ([[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|ongepaarde]]) groepen. <br />
<br />
== Wanneer gebruik ik de Mann-Whitney U toets? ==<br />
<br />
Als je wilt toetsen of de waardes van een (semi-)continue variable verschillen tussen twee aparte groepen kun je de Mann-Whitney U toets gebruiken. Bijvoorbeeld als je wilt testen of het aantal behandelde lesies verschilt tussen twee armen van een studie.<br />
<br />
De Mann-Whitney U toets wordt vaak gebruikt als alternatief voor de [[T-toets|ongepaarde t-toets]], omdat de Mann-Whitney geen normaal verdeelde data veronderstelt. De Mann-Whitney U toets mag altijd gebruikt worden, voor alle [[KEUZE TOETS#Van welk type is mijn uitkomstmaat?|ordinale]] data. Als de data toch normaal verdeeld zijn, zal de Mann-Whitney iets minder [[Poweranalyse|power]] hebben dan de [[T-toets|ongepaarde t-toets]] om een verschil tussen de twee groepen te bemerken.<br />
<br />
Voorbeeld van het gebruik van de Mann-Whitney U toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 2. Procedural characteristics<br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Group A<br />
|align="center"|Group B<br />
|align="center"|p-value**<br />
|-<br />
|Number of lesions treated<br />
|align="center" | 4 [2;5]<br />
|align="center" | 3 [1;4]<br />
|align="center" |0.45<br />
|-<br />
|Stent length (cm)<br />
|align="center" | 2.2 [1.8;4.0] <br />
|align="center" | 2.5 [1.7;3.8]<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as median [inter quartile range]. **Group differences were tested with the Mann-Whitney U test.<br />
|}<br />
<br />
==Heb ik de juiste test gebruikt?==<br />
''Wij voeren een onderzoek met als uitkomstmaat het percentages regressie (voor de behandeling is 100% en we kijken hoeveel er weg is na behandeling). Wij hebben twee groepen behandeld het hetzelfde apparaat maar met een andere methode. Ik wil graag weten of er een significant verschil zit tussen de twee groepen in de regressie-maat. Zodoende heb ik een paired-T-test gebruikt om te vergelijken.<br />
''Mijn vragen zijn: 1. Moet de n van beide groepen gelijk zijn voor de test? SPSS maakt er 10 vs 10 van, terwijl het 13 vs 10 is. 2. Mag ik de groepen wel zo vergelijken? Ik heb aangenomen dat het standaard continue variabelen zijn. <br />
<br />
1. De n hoeft zeker niet gelijk te zijn. Bij jou komt de 10 vs 10 omdat je, onterecht, een gepaarde t-test hebt gedaan: je vergelijkt immers 2 onafhankelijke patientengroepen.<br />
2. Een vergelijking tussen de continue variabele bij 2 verschillende patientengroepen kan m.b.v. een independent t-test, mits de verdeling (ongeveer) normaal is en je niet te kleine aantallen hebt. Dan geef je je resultaten weer in gemiddelden en SD. Ik zie echter in je Excel-bestand 13 vs. 11 patienten, dus relatief weinig, en is de verdeling niet normaal: de mean en median waardes liggen uit elkaar. Dus kun je je resultaten het best weergeven als medianen en interkwartielbereiken (=interquartile ranges; 25-75ste percentiel) en non-parametrische statistiek gebruiken (Mann-Whitney test). <br />
<br />
== Waar vind ik de Mann-Whitney U toets in SPSS?==<br />
<br />
Je vindt de test in SPSS 16 onder Analyze->Non-parametric Tests->2 Independent Samples.<br />
<br />
== Referenties ==<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=OVERZICHT&diff=811OVERZICHT2009-05-14T15:28:44Z<p>Noor van den Bosch: Undo revision 810 by Noor van den Bosch (Talk)</p>
<hr />
<div>{| border ="2" style="width:850px" align="center" cellpadding="8"<br />
! [[Poweranalyse]]!! Toetsen !! Statistische maten<br />
|-<br />
|<br />
*[[Poweranalyse#Wat is een poweranalyse|Wat is een poweranalyse]]<br />
*[[Poweranalyse#Wanneer heb ik een power analyse nodig?|Wanneer heb ik een poweranalyse nodig]]<br />
*[[Poweranalyse#Welke software is beschikbaar voor power analyse?|Welke software is er voor poweranalyse]]<br />
*[[Poweranalyse#Welke informatie heb ik nodig voor een power analyse?|Welke informatie heb ik nodig]]<br />
*[[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse?|Waar vind ik de informatie]]<br />
*[[Poweranalyse#Kan ik meerdere uitkomstmaten combineren in een poweranalyse?|Meerdere uitkomstmaten]]<br />
*[[Poweranalyse#Wanneer is een post hoc poweranalyse zinvol?| Post hoc poweranalyses]]<br />
*[[Poweranalyse#Poweranalyse in specifieke onderzoeksdesigns|Specifieke onderzoeksdesigns]]<br />
| <br />
*[[Fisher's exact toets]] <br />
*[[Chi-kwadraat toets]]<br />
*[[T-toets]]<br />
*[[Mann-Whitney U toets]]<br />
*[[Wilcoxon signed rank toets]]<br />
*[[One-way ANOVA]]<br />
*[[Kruskal Wallis]]<br />
*[[Friedman toets]]<br />
| <br />
*[[gemiddelde en mediaan]]<br />
*[[betrouwbaarheidsinterval]]<br />
*[[odds ratio]]<br />
|-<br />
! Regressieanalyse!! [[Herhaalde metingen]]!! [[Survival analyse]]<br />
|-<br />
|<br />
*[[Lineaire regressie]]<br />
*[[Logistische regressie]]<br />
*[[Multivariabele regressie]]<br />
| <br />
*[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
*[[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]]<br />
*[[Herhaalde metingen#area under the curve|area under the curve]]<br />
| <br />
*[[Survival analyse#kaplan meier analyse|Kaplan Meier]]<br />
*[[Survival analyse#cox regressie|Cox regressie]]<br />
|-<br />
! [[Correlatie]]!! Studieontwerp!! Overig<br />
|-<br />
|<br />
*[[Correlatie#Pearson's r|Pearson's r]]<br />
*[[Correlatie#Spearman’s rho|Spearman's rho]]<br />
*[[Correlatie#intra class correlatie (icc)|intra class correlatie (icc)]]<br />
*[[Correlatie#biseriele correlatie|biseriele correlatie]]<br />
*[[Cohen's kappa]]<br />
| <br />
*[[observationeel onderzoek]]<br />
*[[experimenteel onderzoek]]<br />
*[[diagnostisch onderzoek]]<br />
*[[meta-analyse]]<br />
| <br />
*[[interimanalyse]]<br />
*[[matchen]]<br />
*[[multiple testing]]<br />
*[[missing values]]<br />
*[[randomiseren]]<br />
*[[statistische software]]<br />
*[[grafieken]]<br />
|-<br />
|}<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=OVERZICHT&diff=810OVERZICHT2009-05-14T15:28:24Z<p>Noor van den Bosch: </p>
<hr />
<div>{| border ="2" style="width:850px" align="center" cellpadding="8"<br />
! [[Poweranalyse]]!! Toetsen !! Statistische maten<br />
|-<br />
|<br />
*[[Poweranalyse#Wat is een poweranalyse|Wat is een poweranalyse]]<br />
*[[Poweranalyse#Wanneer heb ik een power analyse nodig?|Wanneer heb ik een poweranalyse nodig]]<br />
*[[Poweranalyse#Welke software is beschikbaar voor power analyse?|Welke software is er voor poweranalyse]]<br />
*[[Poweranalyse#Welke informatie heb ik nodig voor een power analyse?|Welke informatie heb ik nodig]]<br />
*[[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse?|Waar vind ik de informatie]]<br />
*[[Poweranalyse#Kan ik meerdere uitkomstmaten combineren in een poweranalyse?|Meerdere uitkomstmaten]]<br />
*[[Poweranalyse#Wanneer is een post hoc poweranalyse zinvol?| Post hoc poweranalyses]]<br />
*[[Poweranalyse#Poweranalyse in specifieke onderzoeksdesigns|Specifieke onderzoeksdesigns]]<br />
| <br />
*[[Fisher's exact toets]] <br />
*[[Chi-kwadraat toets]]<br />
*[[T-toets]]<br />
*[[Mann-Whitney U toets]]<br />
*[[Wilcoxon signed rank toets]]<br />
*[[One-way ANOVA]]<br />
*[[Kruskal Wallis]]<br />
*[[Friedman toets]]<br />
| <br />
*[[gemiddelde en mediaan]]<br />
*[[betrouwbaarheidsinterval]]<br />
*[[odds ratio]]<br />
|-<br />
! Regressieanalyse!! [[Herhaalde metingen]]!! [[Survival analyse]]<br />
|-<br />
|<br />
*[[Lineaire regressie]]<br />
*[[Logistische regressie]]<br />
*[[Multivariabele regressie]]<br />
| <br />
*[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
*[[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]]<br />
*[[Herhaalde metingen#area under the curve|area under the curve]]<br />
| <br />
*[[Survival analyse#kaplan meier analyse|Kaplan Meier]]<br />
*[[Survival analyse#cox regressie|Cox regressie]]<br />
|-<br />
! [[Correlatie]]!! Studieontwerp!! Overig<br />
|-<br />
|<br />
*[[Correlatie#Pearson's r|Pearson's r]]<br />
*[[Correlatie#Spearman’s rho|Spearman's rho]]<br />
*[[Correlatie#intra class correlatie (icc)|intra class correlatie (icc)]]<br />
*[[Correlatie#biseriele correlatie|biseriele correlatie]]<br />
*[[Cohen's kappa]]<br />
| <br />
*[[observationeel onderzoek]]<br />
*[[experimenteel onderzoek]]<br />
*[[diagnostisch onderzoek]]<br />
*[[meta-analyse]]<br />
| <br />
*[[interimanalyse]]<br />
*[[matchen]]<br />
*[[multiple testing]]<br />
*[[missing values]]<br />
*[[randomiseren]]<br />
*[[statistische software]]<br />
*[[grafieken]]<br />
*[[hallo]]<br />
|-<br />
|}<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=OVERZICHT&diff=808OVERZICHT2009-05-14T08:44:49Z<p>Noor van den Bosch: </p>
<hr />
<div>{| border ="2" style="width:850px" align="center" cellpadding="8"<br />
! [[Poweranalyse]]!! Toetsen !! Statistische maten<br />
|-<br />
|<br />
*[[Poweranalyse#Wat is een poweranalyse|Wat is een poweranalyse]]<br />
*[[Poweranalyse#Wanneer heb ik een power analyse nodig?|Wanneer heb ik een poweranalyse nodig]]<br />
*[[Poweranalyse#Welke software is beschikbaar voor power analyse?|Welke software is er voor poweranalyse]]<br />
*[[Poweranalyse#Welke informatie heb ik nodig voor een power analyse?|Welke informatie heb ik nodig]]<br />
*[[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse?|Waar vind ik de informatie]]<br />
*[[Poweranalyse#Kan ik meerdere uitkomstmaten combineren in een poweranalyse?|Meerdere uitkomstmaten]]<br />
*[[Poweranalyse#Wanneer is een post hoc poweranalyse zinvol?| Post hoc poweranalyses]]<br />
*[[Poweranalyse#Poweranalyse in specifieke onderzoeksdesigns|Specifieke onderzoeksdesigns]]<br />
| <br />
*[[Fisher's exact toets]] <br />
*[[Chi-kwadraat toets]]<br />
*[[T-toets]]<br />
*[[Mann-Whitney U toets]]<br />
*[[Wilcoxon signed rank toets]]<br />
*[[One-way ANOVA]]<br />
*[[Kruskal Wallis]]<br />
*[[Friedman toets]]<br />
| <br />
*[[gemiddelde en mediaan]]<br />
*[[betrouwbaarheidsinterval]]<br />
*[[odds ratio]]<br />
|-<br />
! Regressieanalyse!! [[Herhaalde metingen]]!! [[Survival analyse]]<br />
|-<br />
|<br />
*[[Lineaire regressie]]<br />
*[[Logistische regressie]]<br />
*[[Multivariabele regressie]]<br />
| <br />
*[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
*[[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]]<br />
*[[Herhaalde metingen#area under the curve|area under the curve]]<br />
| <br />
*[[Survival analyse#kaplan meier analyse|Kaplan Meier]]<br />
*[[Survival analyse#cox regressie|Cox regressie]]<br />
|-<br />
! [[Correlatie]]!! Studieontwerp!! Overig<br />
|-<br />
|<br />
*[[Correlatie#Pearson's r|Pearson's r]]<br />
*[[Correlatie#Spearman’s rho|Spearman's rho]]<br />
*[[Correlatie#intra class correlatie (icc)|intra class correlatie (icc)]]<br />
*[[Correlatie#biseriele correlatie|biseriele correlatie]]<br />
*[[Cohen's kappa]]<br />
| <br />
*[[observationeel onderzoek]]<br />
*[[experimenteel onderzoek]]<br />
*[[diagnostisch onderzoek]]<br />
*[[meta-analyse]]<br />
| <br />
*[[interimanalyse]]<br />
*[[matchen]]<br />
*[[multiple testing]]<br />
*[[missing values]]<br />
*[[randomiseren]]<br />
*[[statistische software]]<br />
*[[grafieken]]<br />
*[[tabellen3]]<br />
|-<br />
|}<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=OVERZICHT&diff=807OVERZICHT2009-05-14T08:15:03Z<p>Noor van den Bosch: </p>
<hr />
<div>{| border ="2" style="width:850px" align="center" cellpadding="8"<br />
! [[Poweranalyse]]!! Toetsen !! Statistische maten<br />
|-<br />
|<br />
*[[Poweranalyse#Wat is een poweranalyse|Wat is een poweranalyse]]<br />
*[[Poweranalyse#Wanneer heb ik een power analyse nodig?|Wanneer heb ik een poweranalyse nodig]]<br />
*[[Poweranalyse#Welke software is beschikbaar voor power analyse?|Welke software is er voor poweranalyse]]<br />
*[[Poweranalyse#Welke informatie heb ik nodig voor een power analyse?|Welke informatie heb ik nodig]]<br />
*[[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse?|Waar vind ik de informatie]]<br />
*[[Poweranalyse#Kan ik meerdere uitkomstmaten combineren in een poweranalyse?|Meerdere uitkomstmaten]]<br />
*[[Poweranalyse#Wanneer is een post hoc poweranalyse zinvol?| Post hoc poweranalyses]]<br />
*[[Poweranalyse#Poweranalyse in specifieke onderzoeksdesigns|Specifieke onderzoeksdesigns]]<br />
| <br />
*[[Fisher's exact toets]] <br />
*[[Chi-kwadraat toets]]<br />
*[[T-toets]]<br />
*[[Mann-Whitney U toets]]<br />
*[[Wilcoxon signed rank toets]]<br />
*[[One-way ANOVA]]<br />
*[[Kruskal Wallis]]<br />
*[[Friedman toets]]<br />
| <br />
*[[gemiddelde en mediaan]]<br />
*[[betrouwbaarheidsinterval]]<br />
*[[odds ratio]]<br />
|-<br />
! Regressieanalyse!! [[Herhaalde metingen]]!! [[Survival analyse]]<br />
|-<br />
|<br />
*[[Lineaire regressie]]<br />
*[[Logistische regressie]]<br />
*[[Multivariabele regressie]]<br />
| <br />
*[[Herhaalde metingen#linear mixed models|linear mixed models]]<br />
*[[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]]<br />
*[[Herhaalde metingen#area under the curve|area under the curve]]<br />
| <br />
*[[Survival analyse#kaplan meier analyse|Kaplan Meier]]<br />
*[[Survival analyse#cox regressie|Cox regressie]]<br />
|-<br />
! [[Correlatie]]!! Studieontwerp!! Overig<br />
|-<br />
|<br />
*[[Correlatie#Pearson's r|Pearson's r]]<br />
*[[Correlatie#Spearman’s rho|Spearman's rho]]<br />
*[[Correlatie#intra class correlatie (icc)|intra class correlatie (icc)]]<br />
*[[Correlatie#biseriele correlatie|biseriele correlatie]]<br />
*[[Cohen's kappa]]<br />
| <br />
*[[observationeel onderzoek]]<br />
*[[experimenteel onderzoek]]<br />
*[[diagnostisch onderzoek]]<br />
*[[meta-analyse]]<br />
| <br />
*[[interimanalyse]]<br />
*[[matchen]]<br />
*[[multiple testing]]<br />
*[[missing values]]<br />
*[[randomiseren]]<br />
*[[statistische software]]<br />
*[[grafieken]]<br />
*[[tabellen2]]<br />
|-<br />
|}<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=427T-toets2009-03-26T15:21:22Z<p>Noor van den Bosch: </p>
<hr />
<div>De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. <br />
<br />
<br />
=ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteit assumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder "Factor List").<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in zijn output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb 2 metingen gedaan (betrefende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij en patienten populatie. Deze populatie heb ik opgesplist in 2 groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patienten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp wat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patient heeft dan 1 uitkomst, namelijk zijn verschil in virus. <br />
De patienten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log reductie factor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
=gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=one sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan.<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Boschhttps://wikistatistiek.amc.nl/index.php?title=T-toets&diff=426T-toets2009-03-26T15:10:55Z<p>Noor van den Bosch: </p>
<hr />
<div>De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]]. [[nieuw]]<br />
<br />
<br />
=ongepaarde t-toets=<br />
== Wanneer gebruik ik de ongepaarde t-toets? ==<br />
<br />
Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.<br />
<br />
De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteit assumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder "Factor List").<br />
<br />
De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in zijn output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.<br />
<br />
Voorbeeld van het gebruik van een ongepaarde t-toets:<br />
<br />
{| border ="1" style=align="center" cellpadding="3" cellspacing="0"<br />
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients <br />
|-<br />
|align="left" |Variable*<br />
|align="center"|Treated Group<br />
|align="center"|Placebo Group<br />
|align="center"|p-value**<br />
|-<br />
|Age - yr<br />
|align="center" | 67 (5.0)<br />
|align="center" | 64 (4.2)<br />
|align="center" |0.12<br />
|-<br />
|Weight - kg<br />
|align="center" | 79 (10.2)<br />
|align="center" | 85 (15.4)<br />
|align="center" |0.33<br />
|-<br />
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.<br />
|}<br />
<br />
== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==<br />
''Ik heb 2 metingen gedaan (betrefende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij en patienten populatie. Deze populatie heb ik opgesplist in 2 groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patienten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.<br />
<br />
Voor het ontwerp wat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patient heeft dan 1 uitkomst, namelijk zijn verschil in virus. <br />
De patienten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.<br />
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log reductie factor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.<br />
<br />
=gepaarde t-toets=<br />
== Wanneer gebruik ik de gepaarde t-toets? ==<br />
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.<br />
<br />
De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).<br />
<br />
=one sample t-toets=<br />
== Wanneer gebruik ik de one sample t-toets? ==<br />
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).<br />
<br />
De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan.<br />
<br />
= Waar vind ik de t-toets in SPSS?=<br />
<br />
Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.<br />
<br />
= Referenties =<br />
<br />
<br />
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;"><br />
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.<br />
<br />
Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse. <br />
<div></div>Noor van den Bosch