Wikistatistiek - User contributions [en]

Gemiddelde en mediaan

2020-04-01T14:52:24Z

Nan van Geloven: /* Gemiddede of mediaan als ene groep wel normaal verdeeld is en andere niet? */

== Moet ik de gemiddelden of de medianen van mijn data weergeven? ==

''We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?

Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te
interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.

== Gemiddelde of mediaan als ene groep wel normaal verdeeld is en andere niet? ==

''In mijn studie vergelijk ik een patiëntengroep met een controlegroep. In m’n tabel 1 vergelijk ik de klinische eigenschappen van de groepen. Daarbij heb ik de normaal verdeelde parameters in mean + SD gegeven, en de niet normaal verdeelde parameters in median + IQR. O.a. de leeftijd van de patiëntengroep is echter niet normaal verdeeld, terwijl de leeftijd van de controlegroep wel normaal verdeeld is; ik zou dus de een in mean moeten geven, en de ander in median. Lezers kunnen daardoor de waarden niet in één oogopslag met elkaar vergelijken. Zou ik in dit geval beter allebei in median moeten uitdrukken, of toch één mean en één median?

Ik raad je aan beide groepen met dezelfde descriptieve maten te beschrijven. Zoals je zelf al schrijft kun je anders niet goed vergelijken. Als voor een van de groepen geldt dat het weergeven van mean en sd geen goede weergave is van waar de meeste waardes zich bevinden, dan zou ik beide groepen met median en IQR beschrijven.

==Hoe bereken ik de standard error van de mediaan?==

''Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?

Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:

mean +/- SD

median [rangelower,rangeupper]

median [Q1,Q3]

Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.

Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:

<math>
r=\frac{n}{2} - 1.96 * \frac{\sqrt{n}}{2}
</math>

<math>
s=1+\frac{n}{2} + 1.96 * \frac{\sqrt{n}}{2}
</math>

Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.

Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.

==Hoe bereken ik een 95% betrouwbaarheidsinterval rondom een geometrisch gemiddelde?==

''Ik moet het geometrisch gemiddelde met 95% [[betrouwbaarheidsinterval]] (confidence interval - CI) berekenen van een heleboel waarden van CRP. Nu heb ik de variabele ln(CRP) aangemaakt en daar het gemiddelde van berekend. Nu begrepen dat ik e^(dat getal) moet doen om het geometrisch gemiddelde te krijgen. Alleen nu weet ik niet hoe ik daar een 95% CI bij krijg.

De makkelijkste manier is om eerst een 95% CI te maken van de ln(CRP) variabele en die grenzen weer terug te transformeren met de e^(die grens) regel.

==Hoe beschrijf ik het beste een kleine dataset?==

''Ik heb 5 metingen van spina bifida patienten, vier van dwarslaesiepatienten en 5 van controlebiopten. Hoe kan ik de data het beste beschrijven? Ik speel met ideeën, om bijvoorbeeld de mediaan en range per groep te gebruiken maar weet niet of dit zinvol is.

Als je de data apart per groep wilt beschrijven, dan heb je te maken met kleine groepen (5-4-5). Bij dergelijke kleine aantallen is een standaard deviatie doorgaans niet zo betrouwbaar. Het lijkt dus inderdaad gepast om op andere maat de spreiding in de data te beschrijven, bijv met een range. Het centrum van de data kun je indien de data redelijk symmetrisch is met een gemiddelde beschrijven, of zoals je voorstelt met mediaan. De mediaan van 4 getallen is wel iets lastiger te kiezen (vaak wordt gekozen voor het gemiddelde van de middelste twee getallen).

Met deze aanpak gebruik je 3 maten (laagste waarde, mean of median, hoogste waarde) om 4 of 5 datapunten te beschrijven. Je kunt ook overwegen de datapunten zelf te beschrijven, dit zijn maar 1 of 2 getallen extra en daarmee heeft een lezer alle informatie. Doorgaans gaat dit het overzichtelijke in een (jitter) plot, dus een plot waarin de individuele punten zichtbaar blijven door ze iets versprongen naast elkaar te plotten.

==Hoe beschrijf ik het beste mijn observaties op een 5-punts likertschaal?==

''Ik heb 5-punts likertvragen in een vragenlijst gebruikt en de beste manier om die te verwerken is mediaan + IQR (iig geen gemiddelde). Als ik dit nu echter opschrijf ziet dit er niet uit (Bv, mediaan is 3, IQR 1, het blijft erg abstract), en overweeg ik om simpelweg de percentages uit te schrijven en er een tabel bij te voegen. Kunt u mij nog adviezen hierover geven?

Als je er ruimte voor hebt, is het uitschrijven van de percentages per categorie zeker een goede manier om de data volledig te beschrijven. Als je voor median + IQR gaat, kun je ook ipv alleen de breedte van de IQR, de twee grenzen van de IQR aangeven, bijv mediaan 3, IQR (2-4). Soms wordt met de range alleen de afstand tussen Q3 en Q1 bedoeld, soms de beschrijving van Q1 en Q3 zelf, die tweede versie zie ik wat vaker gebruikt worden.

== Wat doe ik als de gemiddelde minus de standaard deviatie ver buiten de range van mogelijke waarden ligt? ==

''Ik heb een meetinstrument waarbij uitkomsten tussen de 0 en 100 mogelijk zijn. 0 is zeer slecht en 100 is perfect. Ik heb metingen van 58 patiënten, waarbij de gemiddelde 13 en de standaard deviatie 28 is. De p-waarde van de Kolmogorov-Smirnov toets is groter dan 0,05. Maar eigenlijk kan dat niet, omdat het instrument niet negatief meet. Kan ik dan de gemiddelde en standaard deviatie in een artikel weergeven?''

Als ik het goed begrijp heb je de Kolmogorov-Smirnov toets gebruikt om te toetsen of het aannemelijk is dat je data een normale verdeling volgen. Je gaat ervan uit dat je data wel een normale verdeling volgen omdat de p-waarde van de toets groter is dan 0,05. Gegeven dat de metingen alleen tussen 0 en 100 kunnen vallen en de waardes van de gemiddelde en standaard deviatie dat je geeft, denk ik dat je verdeling erg scheef is. Dit kan je bekijken door een histogram te maken. De Kolmogorov-Smirnov toets heeft weinig [[Poweranalyse | power]] om met dit aantal observaties (patiënten) afwijkingen van een normale verdeling te detecteren. Dit betekent dat de verdeling heel anders kan zijn dan een normale verdeling, zonder dat de p-waarde kleiner dan 0,05 is. In deze situatie heeft de Anderson-Darling toets meer power om afwijkingen van de normale verdeling te detecteren (Table 2)<cite>[razali2011]</cite>. De Anderson-Darling toets is echter niet in SPSS geïmplementeerd.

Praktisch gezien kan je het beste in je artikel de mediaan en range of interquartile range weergeven. Deze zijn ook geschikt als je observaties geen normale verdeling volgen.

== Referenties ==
<biblio>
#razali2011 Razali NM, Yap BW. Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics Vol 2.1 (2011): 21-33. [http://www.instatmy.org.my/downloads/e-jurnal%202/3.pdf link]
</biblio>

*[http://thestatsgeek.com/2013/07/16/the-difference-between-the-sample-mean-and-the-population-mean/ The difference between the sample mean and the population mean on TheStatsGeek.com] Een zeer heldere Engelstalige uitlag over het verschil tussen een steekproefgemiddelde en een populatiegemiddelde.

{{onderschrift}}

Poweranalyse

2020-02-07T14:40:19Z

Nan van Geloven: /* Hoe doe ik een post hoc poweranalyse? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H0 verworpen
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 niet verworpen
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij het geobserveerde verschil, maar je wilt weten hoeveel power je had om een relevent verschil aan te kunnen tonen in jouw studiepopulatie.

Je berekent bijvoorbeeld welk effect je met 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken. Als je alleen maar ontzettend grote verschillen had kunnen opmerken, was er te weinig power.

Een meer directe manier is kijken naar hoeveel power je had om een (minimaal) relevant gevonden verschil op te pikken. Als dit veel lager is dan 80%, dan was er te weinig power.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]

#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2020-02-07T14:35:19Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H0 verworpen
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 niet verworpen
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [https://doi.org/10.1097/SLA.0000000000002908 DOI]

#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [https://doi.org.10.1097/SLA.0000000000003089 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2020-02-07T14:34:12Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H0 verworpen
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 niet verworpen
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#Gelman2019a Gelman A. Don’t Calculate Post-hoc Power Using Observed Estimate of Effect Size. Annals of Surgery. 2019 269(1):e9–e10. [DOI: 10.1097/SLA.0000000000002908]

#Gelman2019b Gelman A. Post-hoc Power Using Observed Estimate of Effect Size is too Noisy to be Useful. 2019 270(2):e64. [DOI: 10.1097/SLA.0000000000003089]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2020-02-07T14:29:02Z

Nan van Geloven: /* Wanneer is een post hoc poweranalyse zinvol? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H0 verworpen
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 niet verworpen
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Op dat moment heeft deze nut voor het plannen van een studie. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse soms helpen om de studieuitkomst te interpreteren. Het idee is dat een powerberekening wat inzicht geeft in de vraag of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een relevant effect te vinden, maar het effect niet gevonden is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.
Let op: maak bij het achteraf beoordelen van de power van een studie geen gebruik van het in de studie observeerde effect. Het gevonden effect is (zeker in kleine studies) een veel te onbetrouwbare maat. Het is beter om te kijken welke power er was om een relevant geacht effect (op basis van literatuur of uit ervaring) te vinden <cite>[Gelman2019a, Gelman2019b]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2020-02-07T13:58:54Z

Nan van Geloven: /* Wat is de power van een studie? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H0 verworpen
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 niet verworpen
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2020-02-07T13:57:15Z

Nan van Geloven: /* Welke software is beschikbaar voor een power analyse? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#R|R]], [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

KEUZE TOETS

2020-01-28T14:45:02Z

Nan van Geloven: /* Hoe beoordeel ik normaliteit bij een klein aantal observaties? */

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen. Met echt klein kun je denken aan <25, zie ook dit artikel <cite>[cessie2020]</cite>.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

==Referenties==
<biblio>
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml]
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]
</biblio>

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van het Amsterdam UMC, locatie AMC. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het Amsterdam UMC, locatie AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm intranet] statistische ondersteuning aanvragen.

</div>

KEUZE TOETS

2020-01-28T14:32:41Z

Nan van Geloven: /* Referenties */

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

==Referenties==
<biblio>
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml]
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]
</biblio>

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van het Amsterdam UMC, locatie AMC. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het Amsterdam UMC, locatie AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm intranet] statistische ondersteuning aanvragen.

</div>

KEUZE TOETS

2020-01-28T14:31:11Z

Nan van Geloven: /* Hoe beoordeel ik de normaliteit van mijn data? */

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-toets]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

==Referenties==
<biblio>
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml]
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van het Amsterdam UMC, locatie AMC. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het Amsterdam UMC, locatie AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm intranet] statistische ondersteuning aanvragen.

</div>

KEUZE TOETS

2020-01-28T14:29:53Z

Nan van Geloven: /* Referenties */

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-test]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

==Referenties==
<biblio>
#cessie2020 le Cessie S, Goeman JJ, Dekkers OM. Who is afraid of non-normal data? Choosing between parametric and non-parametric tests. European Journal of
Endocrinology (2020) 182, E1–E3. [https://eje.bioscientifica.com/view/journals/eje/182/2/EJE-19-0922.xml]
#statnotes Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153. [http://www.bmj.com/content/312/7039/1153]

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van het Amsterdam UMC, locatie AMC. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het Amsterdam UMC, locatie AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm intranet] statistische ondersteuning aanvragen.

</div>

KEUZE TOETS

2020-01-28T14:23:59Z

Nan van Geloven: /* Hoe beoordeel ik de normaliteit van mijn data? */

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

Bij datasets>25 kan er met een beperkte scheve verdeling alsnog gebruikt gemaakt worden van parametrische tests zoals de [[t-test]], zie een heldere uitleg in dit artikel <cite>[cessie2020]</cite>.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

=Referenties=

*[http://www.bmj.com/content/312/7039/1153 Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153]

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van het Amsterdam UMC, locatie AMC. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het Amsterdam UMC, locatie AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm intranet] statistische ondersteuning aanvragen.

</div>

Multiple testing

2019-10-04T19:28:22Z

Nan van Geloven: /* Hoe kan ik corrigeren met minder strenge methoden dan de Bonferroni aanpassing? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr.ir. N van Geloven]]
|coauthor=
}}
De term multiple testing wordt gebruikt voor het uitvoeren van meerdere statistische toetsen op dezelfde dataset. Gevaar van multiple testing is dat je bij het doen van veel toetsen vaker op basis van toeval een verschil zult vinden. Je kunt corrigeren voor multiple testing door een strenger significantieniveau aan te houden (<0.05).

== Wanneer moet ik corrigeren voor multiple testing? ==

Er zijn geen vaste regels voor wanneer je wel of niet moet corrigeren. Corrigeren is verstandig, omdat je daarmee te kans kleiner maakt dat je ten onrechte de nulhypothese verwerpt en daarmee ten onrechte een effect aanwijst (type I fout). Bij 20 vergelijkingen tussen groepen verwacht je bij een significatieniveau van 0.05 op basis van puur toeval 1 significant verschil te vinden.

Criteria om wel of niet te corrigeren kunnen zijn:

*De fase van het onderzoek. Er wordt wel eens geargumenteerd dat meer hypothetiserend onderzoek niet hoeft te corrigeren, terwijl bijvoorbeeld fase 3 onderzoek dat zeker moet doen. Wanneer het onderzoek nog explorerend is zal het onterecht aanwijzen van een effect leiden tot het uitvoeren van meer onderzoek hiernaar. Dit is een minder ernstig gevolg dan het op de markt brengen van een ten onrechte als effectief bestempeld middel.
*Het aantal testen dat je uitvoert. Bij het vergelijken van bijvoorbeeld 3 groepen zal er niet gecorrigeerd hoeven worden. In de genetica waar duizenden mogelijke mutaties getest worden wel.
*In hoeverre was het geobserveerde effect van te voren verwacht? Indien een duidelijk gehypothetiseerde vraagstelling getest wordt, zal er minder snel gewezen worden op de fout positieve kans dan wanneer er lukraak alles wat voorhanden is getest wordt.

== Hoe kan ik corrigeren met de Bonferroni methode? ==

''Voor een onderzoek naar de betrouwbaarheid van het endoscopisch meten van een Barrett slokdarm heb ik multiple testen gedaan waarbij ik bijv de absolute overeenstemming tussen 2 endoscopisten van korte Barrett slokdarmen met lange Barrett slokdarmen vergelijk, expert endoscopisten met non-expert endoscopisten, enz. Allemaal verschillende vergelijkingen als secundaire eindpunten. In totaal gaat het om 24 vergelijkingen. Ik zou graag willen corrigeren voor het feit dat ik multiple testen doe met de Bonferroni methode. Klopt het (voor dit geval dan) dat ik na de Bonferroni correctie een alfa van 0.05/24=0.002 moet aanhouden? En dat ik dus alle p waarden boven de 0.002 als niet significant moet beschouwen?

Dit klopt.

== Mag ik een Bonferroni correctie toepassen als ik een non-parametrische test hebt gedaan? ==

''Mijn analyse heeft betrekking op de vergelijking van plasmawaarden van gezonde vrijwilligers en patienten. In mijn congres-abstract heb ik het nu als volgt verwoord: "Plasma concentrations are provided as median (95% CI). Statistical analysis was done by Mann-Whitney U. p < 0.05 was considered significant (p < 0.0029 after Bonferroni correction)."

De bonferroni correctie is niet specifiek voor een parametrische test. Je kunt deze dus gebruiken.

== Hoe kan ik corrigeren met minder strenge methoden dan de Bonferroni aanpassing? ==

''Ik heb een vraag over corrigeren voor multiple testing. Ik heb hiervoor in een artikel de Bonferronimethode gebruikt, significantie level gedeeld door aantal testen. De reviewer van dit artikel vindt dat iets te drastisch en stelt de Holm's or Hochberg's methode voor (mij onbekend). Hoe kan ik deze correctiemethodes uitvoeren?

De Holm's methode is simpel met de hand (of in excel oid) te doen. Het komt erop neer dat je de laagste p-waarde vermenigvuldigt met het aantal testen, de een na laagste met het aantal testen min een, twee na laagste p-waarde met aantal testen min twee etc. Equivalent kun je ook zeggen dat je het gehanteerde significantieniveau alpha voor de laagste p-waarde deelt door het aantal testen, voor de een na laagste p-waarde deelt door het aantal testen min een etc. Je ziet het ook [http://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method hier] uitgelegd.

Een voorbeeld van een meer geavanceerde methode is de methode van Benjamini en Hochberg. Deze methode probeert het aandeel van vals positieven onder controle te houden. Deze (en een boel andere) aangepaste p-waardes zijn redelijk makkelijk te verkrijgen via de mt.rawp2adjp functie in de [[statistische software#R|R]] package multtest. Aan deze functie geef je de ruwe p-waardes en krijg je de gecorrigeerde terug. Zie ook de [http://www.bioconductor.org/packages/release/bioc/manuals/multtest/man/multtest.pdf multtest manual].

== Referenties ==
* [http://www.jstor.org/stable/20065622 No adjustments are needed for multiple comparisons. Epidemiology, Rothman, K., Vol. 1, No. 1 (1990), pp. 43-46]
* [http://www.biomedcentral.com/content/pdf/1471-2288-2-8.pdf Do multiple outcome measures require p-value adjustment? Feise, R.J., BMC Medical Research Methodology 2002, 2:8]
* [http://www.unc.edu/courses/2007spring/enst/562/001/docs/lectures/lecture32.htm Lecture notes multiple testing] Jack Weiss, University of North Carolina. Lectures 32, 33 en 34 geven moderne inzichten over en oplossingen voor multiple testing
* [http://www.stat.purdue.edu/~doerge/BIOINFORM.D/FALL06/Benjamini%20and%20Y%20FDR.pdf Controlling the false discovery rate: a practical and powerful approach to multiple testing, Benjamini Y, Hochberg Y, Journal of the Royal Statistical Society, Series B (Methodological), Vol.57, No 1.(1995), 289-300.]

{{onderschrift}}

Friedman toets

2019-10-04T19:10:31Z

Nan van Geloven: /* Waar vind ik de Friedman toets in SPSS? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|ir. N. van Geloven]]
|coauthor=
}}
De Friedman toets is een niet-parametrische toets voor het vergelijken van een (semi-)continue variabele tussen meer dan twee [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen.

== Wanneer gebruik ik de Friedman toets? ==

Als je wilt toetsen of de waardes van een meer dan twee maal gemeten, gepaarde, (semi-)continue variabele verschillen, kun je de Friedman toets gebruiken. Bijvoorbeeld als je wilt testen of de resultaten van 4 herhaalde metingen van een patient van elkaar verschillen.

Het is een eenvoudige toets voor het analyseren van [[herhaalde metingen]], en vormt daarmee een goed alternatief voor bijvoorbeeld een [[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] of [[Herhaalde metingen#linear mixed model|linear mixed model]] analyse.

Voorbeeld van het gebruik van de Friedman toets:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="6" align="left"|Table 2. Procedural characteristics
|-
|align="left" |Variable*
|align="center"|measurement 1
|align="center"|measurement 2
|align="center"|measurement 3
|align="center"|measurement 4
|align="center"|p-value**
|-
|glucose
|align="center" | 5.0 [4.7;5.7]
|align="center" | 5.2 [4.4;5.8]
|align="center" | 4.9 [4.5;5.4]
|align="center" | 5.4 [4.9;5.8]
|align="center" | 0.56

|-
|colspan="6" rowspan="2"| *Variables are denoted as median [min;max]. **Group differences were tested with the Friedman test.
|}

== Hoe analyseer ik mijn patienten waarbij ik op 12 tijdspunten glucosewaarden heb gemeten? ==

''Voor een kleine studie hebben we op 12 tijdspunten glucosewaarden afgenomen bij 9 patiënten die we nu willen analyseren. Ik probeer dit te doen met de GLM - repeated measurements procedure in SPSS (repeated measurements ANOVA). Is dit juist en zo niet: welke test is de meeste geschikte?

Als je alleen geïnteresseerd bent in of de glucosewaarden verschillen over de tijdstippen, is de GLM-aanpak niet noodzakelijk. Mede gezien het kleine aantal patienten zou je bijvoorbeeld ook een Friedman toets kunnen doen. Dit is een niet-parametrische test die (net als bijv de Mann-Whitney U test) gebaseerd is op de ranks van de data. Ik citeer uit de help functie van SPSS:

"The nonparametric tests for multiple related samples are useful alternatives to a repeated measures analysis of variance. They are especially appropriate for small samples and can be used with nominal or ordinal test variables."

De test kijkt of de glucose waarden op de verschillende tijdstippen significant van elkaar verschillen (dus niet uit dezelfde verdeling komen). De test zegt niets over waar de verschillen zitten en ook niet over of de waardes stijgen of dalen in de tijd.

== Waar vind ik de Friedman toets in SPSS?==

Je vindt deze test onder Analyze->Nonparametric Tests-> Legacy Dialogs -> K Related Samples. De data in de SPSS datafile moet per patient gegroepeerd staan, als volgt:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|patient
|gluc1
|gluc2
|gluc3
|....
|gluc12
|-
|1
| 4.5
| 4.7
| 4.6
| ...
| 4.4
|-
|2
| 4.9
| 4.6
| 5.2
| ...
| 4.6
|-
|}

Je kunt de test ook vinden via Analyze -> Nonparametric Tests -> Related Samples. Het voordeel van deze aanvliegroute, is dat SPSS hier ook een posthoc analyse aanbiedt waarbij je bij een bemerkt verschil in de overall Friedman test kunt inzoomen naar tussen welke metingen (groepen) de verschillen optreden. Daarbij hanteert SPSS de Dunn-Bonferroni aanpassing voor [[multiple testing]]. Meer uitleg vind je [https://www.sheffield.ac.uk/polopoly_fs/1.714575!/file/stcp-marshall-FriedmanS.pdf hier].

== De Friedman toets werkt niet bij ontbrekende data. Wat nu? ==
Het is meestal niet aan te raden om de Friedman toets te gebruiken als een deel van de data ontbreken. Als je wilt toetsen of de waardes van een meer dan twee maal gemeten, gepaarde, (semi-) continue variabele verschillen en er sprake is van ontbrekende waarden, kun je de Skillings–Mack toets gebruiken <ref name=Chatfield2009 />. Voorwaarde is wel dat de data met behulp van een incomplete block design zijn verzameld of [[Missing_values | missing completely at random]] zijn. Je kunt de waarde van de Skillings–Mack toets berekenen met de ''skilmack'' command in Stata en de ''Skillings.Mack'' package in R. Op dit moment (april 2013) wordt deze toets niet in SPSS geïmplementeerd.

== Referenties ==
<references>
<ref name=Chatfield2009> Chatfield M, Mander A. [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2761045/ The Skillings–Mack test (Friedman test when there are missing data) ]. ''Stata J''. 2009 April 1; 9(2): 299–305.</ref>
</references>

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
<div>

Friedman toets

2019-10-04T19:03:38Z

Nan van Geloven: /* Wanneer gebruik ik de Friedman toets? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|ir. N. van Geloven]]
|coauthor=
}}
De Friedman toets is een niet-parametrische toets voor het vergelijken van een (semi-)continue variabele tussen meer dan twee [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen.

== Wanneer gebruik ik de Friedman toets? ==

Als je wilt toetsen of de waardes van een meer dan twee maal gemeten, gepaarde, (semi-)continue variabele verschillen, kun je de Friedman toets gebruiken. Bijvoorbeeld als je wilt testen of de resultaten van 4 herhaalde metingen van een patient van elkaar verschillen.

Het is een eenvoudige toets voor het analyseren van [[herhaalde metingen]], en vormt daarmee een goed alternatief voor bijvoorbeeld een [[Herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] of [[Herhaalde metingen#linear mixed model|linear mixed model]] analyse.

Voorbeeld van het gebruik van de Friedman toets:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="6" align="left"|Table 2. Procedural characteristics
|-
|align="left" |Variable*
|align="center"|measurement 1
|align="center"|measurement 2
|align="center"|measurement 3
|align="center"|measurement 4
|align="center"|p-value**
|-
|glucose
|align="center" | 5.0 [4.7;5.7]
|align="center" | 5.2 [4.4;5.8]
|align="center" | 4.9 [4.5;5.4]
|align="center" | 5.4 [4.9;5.8]
|align="center" | 0.56

|-
|colspan="6" rowspan="2"| *Variables are denoted as median [min;max]. **Group differences were tested with the Friedman test.
|}

== Hoe analyseer ik mijn patienten waarbij ik op 12 tijdspunten glucosewaarden heb gemeten? ==

''Voor een kleine studie hebben we op 12 tijdspunten glucosewaarden afgenomen bij 9 patiënten die we nu willen analyseren. Ik probeer dit te doen met de GLM - repeated measurements procedure in SPSS (repeated measurements ANOVA). Is dit juist en zo niet: welke test is de meeste geschikte?

Als je alleen geïnteresseerd bent in of de glucosewaarden verschillen over de tijdstippen, is de GLM-aanpak niet noodzakelijk. Mede gezien het kleine aantal patienten zou je bijvoorbeeld ook een Friedman toets kunnen doen. Dit is een niet-parametrische test die (net als bijv de Mann-Whitney U test) gebaseerd is op de ranks van de data. Ik citeer uit de help functie van SPSS:

"The nonparametric tests for multiple related samples are useful alternatives to a repeated measures analysis of variance. They are especially appropriate for small samples and can be used with nominal or ordinal test variables."

De test kijkt of de glucose waarden op de verschillende tijdstippen significant van elkaar verschillen (dus niet uit dezelfde verdeling komen). De test zegt niets over waar de verschillen zitten en ook niet over of de waardes stijgen of dalen in de tijd.

== Waar vind ik de Friedman toets in SPSS?==

Je vindt deze test onder Analyze->Nonparametric Tests->K Related Samples. De data in de SPSS datafile moet per patient gegroepeerd staan, als volgt:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|patient
|gluc1
|gluc2
|gluc3
|....
|gluc12
|-
|1
| 4.5
| 4.7
| 4.6
| ...
| 4.4
|-
|2
| 4.9
| 4.6
| 5.2
| ...
| 4.6
|-
|}

== De Friedman toets werkt niet bij ontbrekende data. Wat nu? ==
Het is meestal niet aan te raden om de Friedman toets te gebruiken als een deel van de data ontbreken. Als je wilt toetsen of de waardes van een meer dan twee maal gemeten, gepaarde, (semi-) continue variabele verschillen en er sprake is van ontbrekende waarden, kun je de Skillings–Mack toets gebruiken <ref name=Chatfield2009 />. Voorwaarde is wel dat de data met behulp van een incomplete block design zijn verzameld of [[Missing_values | missing completely at random]] zijn. Je kunt de waarde van de Skillings–Mack toets berekenen met de ''skilmack'' command in Stata en de ''Skillings.Mack'' package in R. Op dit moment (april 2013) wordt deze toets niet in SPSS geïmplementeerd.

== Referenties ==
<references>
<ref name=Chatfield2009> Chatfield M, Mander A. [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2761045/ The Skillings–Mack test (Friedman test when there are missing data) ]. ''Stata J''. 2009 April 1; 9(2): 299–305.</ref>
</references>

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
<div>

T-toets

2019-09-20T13:52:37Z

Nan van Geloven: /* Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor=
}}
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]].

=ongepaarde t-toets=
== Wanneer gebruik ik de ongepaarde t-toets? ==

Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.

De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteit assumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder "Factor List").

De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in zijn output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.

Voorbeeld van het gebruik van een ongepaarde t-toets:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients
|-
|align="left" |Variable*
|align="center"|Treated Group
|align="center"|Placebo Group
|align="center"|p-value**
|-
|Age - yr
|align="center" | 67 (5.0)
|align="center" | 64 (4.2)
|align="center" |0.12
|-
|Weight - kg
|align="center" | 79 (10.2)
|align="center" | 85 (15.4)
|align="center" |0.33
|-
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.
|}

== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==
''Ik heb 2 metingen gedaan (betrefende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patienten populatie. Deze populatie heb ik opgesplist in 2 groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patienten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.

Voor het ontwerp wat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patient heeft dan 1 uitkomst, namelijk zijn verschil in virus.
De patienten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log reductie factor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.

== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene group en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.

De t-toets houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gerbruiken, zoals de [[Mann-Whitney U toets]].

== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==

''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groenen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch test doen voor vergelijkingen met de groep die andere variantie vertoont en een student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.

Hier zijn de richtlijnen niet zwart wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het zowiezo van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).

=gepaarde t-toets=
== Wanneer gebruik ik de gepaarde t-toets? ==
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.

De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).

=one sample t-toets=
== Wanneer gebruik ik de one sample t-toets? ==
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).

De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan).

= Waar vind ik de t-toets in SPSS?=

Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.

= Referenties =

{{onderschrift}}

KEUZE TOETS

2019-09-20T13:51:27Z

Nan van Geloven:

= Schema welke toets bij welke vergelijking =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan="3"|
! style="background:#d0e5f5;" colspan="5" |type vergelijking
|-
! style="background:#efefef;"| 1 groep
! style="background:#efefef;" colspan="2"|2 groepen
! style="background:#efefef;" colspan="2"|>2 groepen
|-
! vs. referentie
! gepaard
! ongepaard
! gepaard
! ongepaard
|-
!style="background:#d0e5f5;" rowspan="4" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50"|numeriek (continu)
!style= width="50" height="100" |normaal
verdeeld
|style="" width="100" | [[T-toets#one sample t-toets|1 sample t-toets]]
|style="" width="100" | [[T-toets#gepaarde t-toets|gepaarde t-toets]]
|style="" width="100" |
[[T-toets#ongepaarde t-toets|ongepaarde t-toets]]

|style="" width="100" |[[Herhaalde metingen#linear mixed models|linear mixed models]]
|style="" width="100" |[[One-way ANOVA]]
|-
!style= height="100" |niet normaal
verdeeld
|style="" |[[tekentoets]]
|style="" |[[Wilcoxon signed rank toets]]
|style="" |[[Mann-Whitney U toets]]
|style="" |[[Friedman toets]]
|style="" |[[Kruskal Wallis]]
|-
! style="background:#efefef;" rowspan="2"| categorisch (discreet)
! style= height="100" | binair
| style="" |[[z-test voor proporties]]
| style="" |[[McNemar toets]]
| style="" |[[Chi-kwadraat toets]]/
[[Fisher's exact toets]]
| style="" |[[Cochran's Q toets]]
| style=""| [[Chi-kwadraat toets]]/[[Fisher%27s_exact_toets#Ik_heb_meer_dan_twee_categorie.C3.ABn._Kan_ik_dan_ook_Fisher.27s_exact_toets_gebruiken.3F | Fisher-Freeman-Halton exact toets]]
|-
! style= height="100" |nominaal /
ordinaal
| style="" |x
| style="" |[[McNemar toets]] /
[[Wilcoxon signed rank toets]]
| style="" |[[Chi-kwadraat toets]] (trend)
| style="" |[[Herhaalde metingen|GLMM / GEE]]
| style="" |[[Chi-kwadraat toets]] (trend)
|}

= Schema welke analyse bij welke associatie =
{| border ="2" cellpadding="8" align="center"
! colspan="3" rowspan ="3"|
! style="background:#faecc8;" colspan="4" |type associatie
|-
! style="background:#efefef;" colspan="2" | crosssectioneel
! style="background:#efefef;" colspan="2" |longitudinaal
|-
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
!width="100" |een onafhankelijke variabele
!width="100" |meer onafhankelijke variabelen
|-
!style="background:#faecc8;" rowspan="5" width="60" | type data
!style="background:#efefef;" rowspan="2" width="50" |numeriek (continu)
!height="100" width="50"| normaal
verdeeld
|[[Correlatie#Pearson's rho|Pearson's rho]]/[[lineaire regressie|enkelvoudige lineaire regressie]]

|[[lineaire regressie|meervoudige lineaire regressie]]
|colspan="2" rowspan="2"| [[herhaalde metingen]]
|-
!height="100" |niet normaal
verdeeld
|[[Correlatie#Spearman's rho|Spearman's rho]]
|x
|-
!style="background:#efefef;" rowspan="1" | gecensureerd numeriek
!|
|
|
|[[survival analyse|Kaplan Meier analyse]]
|[[survival analyse#Cox regressie|Cox regressie]]
|-
!style="background:#efefef;" rowspan="2" | categorisch (discreet)
!height="100" |binair
|[[Associatiematen_2x2_tabel#Odds ratio|OR]]/ [[Associatiematen_2x2_tabel#Relatief_risico|RR]]/ [[Associatiematen_2x2_tabel#Relatieve risicoreductie|RRR]] / [[Associatiematen_2x2_tabel#Absolute_risicoreductie|ARR]] / [[Associatiematen_2x2_tabel#Number Needed to Treat|NNT]]
|[[logistische regressie]]
|colspan="2" rowspan="2" |[[herhaalde metingen|GLMM / GEE]]
|-
!height="100"| nominaal
/ordinaal
|x
|[[multinomiale logistische regressie|multinomiale]]
/ [[ordinale logistische regressie]]
|}

= Van welk type is mijn data?=

==Continue variabelen==
Het belangrijkste onderscheid naar type data is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Lengte, gewicht en temperatuur zijn continue variabelen (bijvoorbeeld 37.3 graden Celsius).

==Discrete variabelen==
Voor discrete variabelen wordt onderscheid gemaakt tussen kwalitatieve en kwantitatieve variabelen. De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen. Een voorbeeld van een kwalitatieve variabele is de bepaling van de bloedgroepen A, B, AB en 0.

Kwantitatieve discrete variabelen zijn gehele getallen. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een kwantitatieve discrete variabele. Als kwantitatieve discrete variabelen veel verschillende mogelijke waardes hebben (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen (er wordt dan wel eens gesproken over semi-continue data). Zijn er daarentegen maar een beperkt aantal uitkomstwaarden, dan zijn andere analysetechnieken vereist.

Voor de statistische analyse van kwalitatieve data en van kwantitatieve discrete variabelen met een beperkt aantal uitkomstmaten, wordt onderscheid gemaakt tussen binaire, nominale en ordinale discrete variabelen.

===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden LAD, LM, RCA en RCx.

===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. (Discrete) numerieke variabelen zijn per definitie ordinaal (door het numerieke karakter is er een ordening in de getallen).

= Heb ik gepaarde of ongepaarde data?=

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard.

*Voorbeeld 1 ''Wij hebben bij varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?'' -> In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

*Voorbeeld 2 ''Er is een nieuw apparaat op de markt dat bloeddruk kan meten. Wij willen dit apparaat vergelijken met de huidige gouden standaard van bloeddrukbepalingen mbv een bloeddrukband. We hebben bij 30 patienten de bloeddruk bepaald, gelijkertijd met het nieuwe apparaat als met de gangbare bloeddrukband. Ik wil de gemiddelden van deze twee metingen, van dezelfde 30 patienten met elkaar vergelijken. Kan dit met een ongepaarde toets? Zijn dit wel onafhankelijke metingen?'' -> Indien de metingen van het apparaat en de gouden standaard band betrekking hebben op dezelfde patienten (en op hetzelfde moment), dan zijn het geen onafhankelijke metingen. Je hebt dan gepaarde metingen en als je het verschil in gemiddelde waarden wilt vergelijken zul je een gepaarde toets moeten doen.

== Ik heb deels gepaarde en deels ongepaarde proporties, hoe kan ik deze vergelijken? ==
''Ik vergelijk de uitkomsten van kwaliteitsindicatoren in twee verschillende databronnen. Mijn patiënten hebben een "partial overlap": sommige kon ik matchen in beide databronnen, en sommige staan slechts in een van de twee bronnen. Dus zijn zij niet "paired" en ook niet "unpaired". Hoe kan ik de kwaliteitsindicatoren (binaire variabelen) met elkaar vergelijken?

De patienten die in beide bronnen voorkomen kun je vergelijken mbv een gepaarde [[McNemar toets]]. De patienten die slechts in een van de twee bronnen voorkomen kun je vergelijken met een ongepaarde [[Chi-kwadraat toets]]. Er zijn ook methoden om beide patientgroepen tegelijk te vergelijken. Zie daarvoor de volgende referenties:

*[http://www.ncbi.nlm.nih.gov/pubmed/7481184 Thomson PC. A hybrid paired and unpaired analysis for the comparison of proportions. Stat Med. 1995 Jul 15;14(13):1463-70]
*[http://www-users.york.ac.uk/~mb55/overlap.pdf Comparing proportions in overlapping samples. An unpublished paper by J Martin Bland and Barbara K Butland]

= Hoe beoordeel ik de normaliteit van mijn data? =
Je kunt beoordelen of de studie sample afkomstig kan zijn uit een [http://nl.wikipedia.org/wiki/Normale_verdeling normaal verdeelde populatie] door naar het histogram en naar de normaliteitsplot kijken. Ook kan er een formele toets gedaan worden. Bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef eventueel de groepsvariabele op onder "Factor List"). Let er echter op dat bij grote aantallen deze tests reeds een kleine (voor de beoogde analyse mogelijk irrelevante) afwijking van normaliteit significant kan worden terwijl er bij kleine aantallen grove afwijkingen van normaliteit niet statistisch significant uit de bus komen. Baseer je beoordeling dus nooit op enkel deze testen, maak ook een grafische inschatting en weeg de aantallen mee.

===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===

''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien.
Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.) Soms wordt daarom aangeraden grote samples niet de Shaprio-Wilk maar de Kolmogorov-Smirnoff toets te gebruiken.

===De Kolmogorov-Smirnoff toets uit de Explore functie geeft niet hetzelfde antwoord als die uit de 'Nonparametric Tests' menu.===

''De Kolmogorov-Smirnoff lijkt op twee manieren te kunnen via SPSS, namelijk via Explore -> Normality plots with tests of via Nonparametric tests ->1 sample K-S. Bij deze twee methoden komen er ‘omgekeerde’ resultaten uit, zo lijkt het bij mijn data.''

Scherpe observatie dat de twee K-S testen niet tot dezelfde conclusie komen. Ik citeer uit de help van SPSS behorend bij de non-parametric command:

"The power of the test to detect departures from the hypothesized distribution may be seriously diminished. For testing against a normal distribution with estimated parameters, consider the adjusted K-S Lilliefors test (available in the Explore procedure)."

Blijkbaar is de 'gewone' K-S test (onder de non-parametric opties) niet goed in staat om bij kleine samples een afwijking van normaliteit te vinden. Er is een correctie op de test die geimplementeerd is onder de Explore functie. (zie bijv http://en.wikipedia.org/wiki/Lilliefors_test voor details).

Gebruik dus niet de K-S test uit de nonparametric tests opties. Beter nog: gebruik bij relatief kleine samples de Shapiro-Wilk test, deze zal als eerste een afwijking van normaliteit bemerken.

===Hoe beoordeel ik normaliteit bij een klein aantal observaties?===

''Voor een artikel wat ik aan het schrijven ben moet ik enkele statistische analyses doen waarbij het voor mij onduidelijk is hoe ik moet beoordelen of de te gebruiken data wel of niet normaal verdeeld zijn. Het betreft kleine aantallen proefpersonen (<10 patienten met voor en nameting gezien zeldzame ziektebeeld). Hierbij gaat het om algemene zaken als lichaamsgewicht en cholesterolinname en om specifiekere zaken als uitslagen van PET/CT- en MRI-scans. Een plot of histogram zegt hierbij denk ik niet zo veel (lijkt niet normaal, maar gewicht in de populatie is dat bijvoorbeeld wel). Kunt u mij vertellen hoe ik bij dit soort getallen kan beoordelen of iets wel of niet normaal verdeeld is? Is hier een stelregel voor bij kleine getallen?

Bij twijfel over het mogen aannemen van een normale verdeling in het algemeen kan inderdaad kennis over de verdeling in de totale populatie doorslag geven. In geval van kleine aantallen echter speelt er een ander probleem. Er zal bij kleine aantallen geen betrouwbare schatting gemaakt kunnen worden van het gemiddelde en de standaard deviatie. Dus ook al is er een onderliggende normale verdeling, zal met de beschikbare data niet goed de parameters van die verdeling geschat kunnen worden. Om die reden is het bij twijfel over normaliteit en (echt) kleine aantallen aan te raden om geen normaliteit aan te nemen uit te wijken naar non-parametrische toetsen.

=Hoe kan ik in SPSS mijn data transformeren?=

''Ik wil mijn uitkomstmaat graag transformeren om te zien of hij dan wel normaal verdeeld is. Hoe doe ik dat in SPSS?

Dat kan onder Transform -> Compute Variable. Hier kun je een nieuwe variabele aanmaken die een tranformatie is van een oude variabele. Onder 'Target Variable' type je de naam van de nieuw te maken variabele in en onder 'Numeric Expression' type je hoe de variabele gemaakt kan worden. Bijvoorbeeld Lg10(VAROUD), om de 10 log van de variable VAROUD te nemen.

==Ik heb een probleem met log transformatie vanwege nullen in de data==
''Er is nog iets waar ik over struikel in de log transformaties van mijn niet-normaal verdeelde continue uitkomstmaten (een aantal schalen voor psychische klachten). Bij het 'computen' van de log variabelen zegt SPSS iets van: "The argument for the Logbase 10 function is less or equal to 10 on the indicate command. The result has been set to the system missing value." Ik begrijp dus dat alle 0 waarden uit de oorspronkelijk variabele niet getransformeerd kunnen worden en daarom geen waarde krijgen in de getransformeerde variabele. Is hier iets aan te doen?

De log van 0 is inderdaad niet uit te rekenen (minus oneindig). Wat meestal gehanteerd wordt is dat er voor de transformatie bij (alle, dus ook degene die niet nul zijn) waarden een vast getal wordt opgeteld (bijv 1). Op die manier ontwijk je de rekenproblemen met log 0 en hou je de afstand tussen de waardes in ere. De transformatie die je dan gebruikt is eigenlijk log(x+1).

==Wat is beter: een Mann Whitney U op niet normaal verdeelde data of een ongepaarde t-test op de log schaal van deze data welke wel normaal verdeeld zijn?==

''Of maakt het niet uit welke je kiest? Het verschil is klein (4 cijfers achter de komma), maar de T test komt iets significanter uit.

Het is altijd fijn als de analysemethode het resultaat niet beinvloedt en dat er dus hetzelfde uitkomt. Een verschil in p-waarde 4 cijfers achter de komma is totaal irrevant (daarop letten veinst een nauwkeurigheid die je in het algemeen niet hebt).De voor/na delen in het algemeen zijn:

-[[Mann-Whitney U toets]]: resultaat niet afhankelijk van aannames, non-parametrisch wordt in het algemeen als zeer objectief/betrouwbaar gezien

-[[t-toets]]: bij normaal verdeelde data (of na transformatie normaal verdeelde data) is er in theorie meer power om iets als significant aan te kunnen duiden

Verder zou ik letten op consistentie in het manuscript. Als je bij andere analyses wel normaliteit van de log getransformeerde data gebruikt (bijv omdat je ook [[multivariabele regressie|multivariabele analyses]] doet), is het raadzaam die lijn aan te houden.

==Geen normaliteit na log-transformatie, wat nu?==

''Mijn data zijn niet niet-normaal verdeeld. Na een logaritmische transformatie blijkt nu dat de data nog steeds niet normaal verdeeld zijn. Is het zo dat men een logaritmische transformatie uitvoert om testen te kunnen uitvoeren voor normaal verdeelde data? Zo ja, heeft het dan wel zin om in mijn geval een logaritmische transformatie uit te voeren en met die getallen te werken, terwijl ik nog steeds testen met moet gebruiken voor niet-normaal verdeelde data?

Inderdaad, de transformatie wordt iha toegepast om testen/analyses te kunnen gebruiken die normaal verdeelde data vereisen. Indien de logaritmische transformatie geen verbetering van de verdeling oplevert, dan heeft het geen zin deze te gebruiken. Indien je uitkomt qua geplande testen met non-parametrische varianten (die geen normale verdeling vereisen), dan zou ik gewoon de niet getransformeerde data gebruiken. Als normaliteit vereist is voor je doelen (bijvoorbeeld multivariabele analyse) dan zou je een andere transformatie dan de logtransformatie kunnen gebruiken.

==Hoe maak ik in SPSS een rangvolgorde van mijn scheef verdeelde data?==

Om een nieuwe variabele te maken die de rangnummers van de waarden van een scheef verdeelde variabele bevat, kun je gebruik maken van de 'Rank Cases' procedure in het 'Transform' menu.

=Hoe ga ik om met waarden onder of boven een detectielimiet?=

''Ik heb een aantal keer de D-dimeer waarde van personen gemeten en de ondergrens van wat meetbaar is is 0.17. Daarom heb ik een aantal keer <0.17 in mijn database staan. Moet ik nu 0, 0.17, of een waarde ertussen neerzetten voor de analyse? Daarnaast doen we een andere test: de clot-lysis test. Bij 3 deelnemers is het zo dat ze niet lyseren en de waarde dus eigenlijk op oneindig staat (het is een waarde die in tijd tot lyseren wordt uitgedrukt). Er staat nu: 'no lysis'. Kan ik deze deelnemers excluderen van de analyse of moet ik bijv. de bovengrens van wat nog meetbaar is neerzetten?

Dat hangt er erg vanaf welke analyses je met de data wilt gaan doen. Waarschijnlijk zal SPSS een waarde <0.17 niet herkennen als een getal en mogelijk dat hij deze waardes zelfs zou verwijderen in een analyse. Indien je een niet-parametrische analyse (bijv [[Kruskal Wallis]] of [[Mann-Whitney U toets]]) gaat doen, dan kun je voor deze ‘undetectable’ waardes iedere willekeurige waarde lager dan het eerste wel gemeten getal invullen. Het maakt voor een niet-parametrische toets namelijk niet uit wat de waarde zelf is, alleen de onderlinge volgordes (ranks) van de waardes tellen. Het is dus wel van belang dat iedereen die <0.17 scoort dezelfde waarde krijgt.

Voor de tweede test hangt het ook weer van de analyse af. Als je de tijd tot lyseren zou analyseren als een ‘tijd tot event’ uitkomst (bijv met [[Survival analyse|Kaplan Meier analyse of Cox regressie]]), dan zou je hen de laatste tijd moeten geven wanneer je nog zeker was dat ze niet gelyseerd waren (de laatste keer dat je dat hebt gecontroleerd). In een tweede statusvariabele zet je dan een 1 voor degenen die wel en een 0 voor degenen die niet gelyseerd waren. Als je met een non-parametrische toets aan de slag gaat, kun je weer paralel aan eerste casus een willekeurig groot (maar gelijk) getal invullen.

Als je deze deelnemers excludeert van analyse, dan gelden je conclusies alleen voor deelnemers waarbij er lysis optreedt/bij wie D-dimeer detecteerbaar is. Dat is mogelijk zonde, want niet generaliseerbaar naar alle personen bij wie de test wordt gedaan.

=Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?=
''Wij hebben een bepaalde eiwit in 20 gezonde proefpersonen, 60 patiënten met ziekte A en 60 patiënten met ziekte B gemeten. De waarde van de eiwit was in 9 (45%) van de gezonde proefpersonen, 22 (37%) van de patiënten met ziekte A en 33 (55%) van de patiënten met ziekte B onder de detectielimiet. Ik heb één waarde (assigned value) onder de detectielimiet toegewezen aan alle deelnemers die onder de detectielimiet zaten. Vervolgens heb ik een Wilcoxon-signed-rank toets uitgevoerd. Is dit een valide methode?

Als een kleine aantal waardes (dus zeg tot 5%) onder de detectie limiet vallen, kan je een assigned value gebruiken. Echter als de percentage waardes onder de detectie limiet stijgt, is het de vraag of je waardes bij elkaar nog echt continu zijn. Dit is omdat een groot aantal waardes dezelfde waarde hebben (de een 'assigned value'). De data zijn dan niet meer echt continu, maar een mix van continu en categorisch. Dan voldoen je data niet meer aan de aannames van de Wilcoxon-signed-rank toets. Dit is zeker het geval is als 46% (64/140) van je data onder de detectie limiet vallen.

Een optie om eenvoudig een toets hierop uit te voeren is om de uitkomst van de Granzyme B per patient als onder (0) of boven (1) de detectielimiet te classificeren. Dan kan je een [[Chi-kwadraat_toets | chi-kwadraat toets]] uitvoeren. Ik vraag me echter af of dit een goede marker is als bijna de helft van de metingen onder de detectielimiet vallen. Verder is er een uitgebreide literatuur op dit vlak, waaronder [https://dx.doi.org/10.4103%2F1477-3163.79681 deze review].

=Referenties=

*[http://www.bmj.com/content/312/7039/1153 Statistics Notes: The use of transformation when comparing two means. MJ Bland, DG Altman. BMJ 1996;312:1153]

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Klaar met lezen? Je kunt naar het [[OVERZICHT]] van alle statistische onderwerpen op deze wiki gaan. Of ga terug naar de [[Main_Page|startpagina]]. Wil je meer leren over biostatistiek? Volg dan de [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics]. Vind je op deze pagina's iets dat niet klopt, werkt een link niet of wil je bijdragen aan de wiki? Neem dan [[meeschrijven | contact]] met ons op.

De wiki biostatistiek is een initiatief van de [https://www.amc.nl/web/leren/research-62/research/research-support-1.htm AMC Clinical Research Unit]. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm AMC intranet site van de CRU] statistische ondersteuning aanvragen.

</div>

Poweranalyse

2018-12-06T12:11:17Z

Nan van Geloven: /* Waar vind ik de benodigde informatie voor een power analyse? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==AMC biostatistics manual - Sample size calculation==

Zie hier de [[Media:Biostatistics manual sample size.pdf |AMC biostatistics manual - Sample size calculation]]: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers van de CRU een licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) effect hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het kleinste verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om de studie uit te voeren, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

Het is verstandig beide aspecten in het oog te houden: het gekozen effect moet zowel relevant zijn (dus niet te klein, het moet wel uitmaken) alsook realistisch (dus niet te optimistisch groot ingeschat).

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2018-12-06T12:05:40Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==AMC biostatistics manual - Sample size calculation==

Zie hier de [[Media:Biostatistics manual sample size.pdf |AMC biostatistics manual - Sample size calculation]]: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers van de CRU een licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om te vinden, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#EMAE9 European Medicines Agency. Note for guidance on statistical principles for clinical trials (CPMP/ICH/363/96). [https://www.ema.europa.eu/documents/scientific-guideline/ich-e-9-statistical-principles-clinical-trials-step-5_en.pdf download from ema website]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2018-12-06T12:03:03Z

Nan van Geloven: /* Waar vind ik de benodigde informatie voor een power analyse? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==AMC biostatistics manual - Sample size calculation==

Zie hier de [[Media:Biostatistics manual sample size.pdf |AMC biostatistics manual - Sample size calculation]]: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers van de CRU een licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[westlund2016]</cite>.

Ten tweede kun je kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om te vinden, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2018-12-06T12:01:25Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==AMC biostatistics manual - Sample size calculation==

Zie hier de [[Media:Biostatistics manual sample size.pdf |AMC biostatistics manual - Sample size calculation]]: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers van de CRU een licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[Westlund]</cite>.

Ten tweede kun je kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om te vinden, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#westlund2016 Westlund E, Stuart EA. The Nonuse, Misuse, and Proper Use of Pilot Studies in Experimental Evaluation Research. American Journal of Evaluation. 2017 38(2), 246–261. [https://doi.org/10.1177/1098214016651489 DOI]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Poweranalyse

2018-12-06T11:58:45Z

Nan van Geloven: /* Waar vind ik de benodigde informatie voor een power analyse? */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}

Een power analyse berekent het benodigd aantal proefpersonen (sample size) van een studie om een vooraf gedefinieerd minimaal klinisch relevant verschil met een bepaalde kans (power) waar te nemen.

==AMC biostatistics manual - Sample size calculation==

Zie hier de [[Media:Biostatistics manual sample size.pdf |AMC biostatistics manual - Sample size calculation]]: een praktische handleiding met uitgewerkte voorbeelden voor het uitvoeren van een sample size berekening (Engelstalig).

==Waarom doe ik een power analyse of steekproefgrootte berekening?==
Een van de meest gestelde vragen vooraf aan een studie is: hoeveel patiënten, proefpersonen of proefdieren heb ik in deze studie nodig? Een belangrijke vraag; een verkeerde steekproefgrootte kan ethische bezwaren opleveren. Een onderschatting van de steekproefgrootte kan er toe leiden dat een werkelijk effect niet door de studie gedetecteerd wordt en deelnemers dus voor niets zijn getest. De studie zal dan tot een fout negatieve conclusie leiden. Een te grote steekproefgrootte kan ook tot bezwaren leiden. Als de interventie effectief blijkt, worden er onnodig veel deelnemers in de controlegroep behandeld. Als de interventie niet werkzaam blijkt, worden te veel deelnemers blootgesteld aan een ineffectieve interventie <cite>[jones2003 , florey1993]</cite>.

==Wanneer heb ik een power analyse nodig?==
Voor de uitvoering en rapportage van (vergelijkend) onderzoek gelden regels. In het [http://www.consort-statement.org/ CONSORT statement], waarin je deze regels terug vindt, staat dat een onderzoeker voordat een studie wordt uitgevoerd een sample size moet berekenen en deze in de methode sectie van het artikel moet rapporteren. Een Randomized Controlled Trial (RCT) moet inclusief sample size berekening vooraf aan de uitvoering geregistreerd worden. Bovendien krijg je zonder een goede sample size berekening geen positieve beoordeling van de Medisch Ethische Commissie. Verder is het bij de economische onderbouwing van een subsidie aanvraag en voor de logistieke planning van een studie van belang.<br />

==Welke software is beschikbaar voor een power analyse?==
Voor het berekenen van de sample size is binnen het AMC het programma [[statistische software#nQuery Advisor|nQuery Advisor]] beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma waarmee je voor diverse onderzoeksdesigns en data typen de groepsgrootte en statistische power kunt berekenen. nQuery is in het AMC via de ''softwarewinkel'' in de CDW voor alle medewerkers beschikbaar. Voor meer geavanceerde onderzoeksdesigns hebben een beperkte aantal medewerkers van de CRU een licentie voor het programma PASS 15.

Andere programma's die powerberekeningen aanbieden zijn bijvoorbeeld [[statistische software#SAS|SAS]] of [[statistische software#Stata|Stata]]. Op het internet zijn bovendien meerdere gratis power programma's beschikbaar, deze zijn echter niet altijd betrouwbaar.

==Wat is de power van een studie?==

In de studie proberen we te bepalen of de groepen hetzelfde zijn (nul hypothese) of verschillend zijn (alternatieve hypothese) <cite>[#park2010]</cite>. We kunnen hierbij twee typen fouten maken: een type I fout (α) en een type II fout (β). We maken een type I fout als we ten onrechte de nul hypothese verwerpen (fout positief). We maken een type II fout als we ten onrechte de nul hypothese accepteren (fout negatief). De power van een studie is 1 - β. Het is dus 1 minus de kans op het ten onrechte accepteren van de nulhypothese. Grof gezegd is het de kans om een werkelijk effect in de populatie op te pikken in de studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
|
|
|colspan="2" align="center"|Totale populatie
|-
|align="left" |
|align="center"|
|width="120" align="center"|werkelijk effect
H1 waar
|width="120" align="center"|werkelijk geen effect
H0 waar
|-
|rowspan="2" align="center"|Studie
resultaat
|align="center" | effect gemeten
H1 waar
|align="center" style="background:#faecc8" | terecht positief
power (1-β)

80%
|align="center" |fout positief
type I fout (α)

5%
|-
|align="center" | geen effect gemeten
H0 waar
|align="center" | fout negatief
type II fout (β)

20%
|align="center" |terecht negatief
(1-α)

95%
|-
|}

==Welke informatie heb ik nodig voor een power analyse?==
Een sample size berekening is gebaseerd op (beredeneerde) aannames. Je hebt informatie nodig over de volgende onderwerpen ([[Poweranalyse#Waar vind ik de benodigde informatie voor een power analyse? |meer uitleg per onderwerp]]):

*De gewenste power van de studie (1-β). De keuze voor het power niveau bepaalt hoe zeker je kan zijn dat een type II fout vermeden wordt.<br />
*Het gewenste significantie niveau (α). Dit α niveau laat zien welke kans je accepteert om een type I fout te maken. <br />
*Eenzijdige of tweezijdige toets. Toets je het verschil slechts een kant op, of hou je er rekening mee dat een studiearm zowel slechter als beter kan presteren dan de andere?
*Verwacht of klinisch relevant verschil. Naar welk verschil of welk effect wordt er gezocht?
*Verwachte spreiding / standaard deviatie. Hoeveel variatie verwacht je in de proefpersonen van dezelfde studiegroep?<br />
*Welke statistische toets. Welke toets wordt gebruikt tijdens de analyse van de studie?<br />
*Lost to follow up. Maak een inschatting hoeveel proefpersonen verloren zullen gaan voor de analyse zodat je hiervoor kunt corrigeren in de sample size berekening.

==Waar vind ik de benodigde informatie voor een power analyse?==

*De gewenste power van de studie (1-β)
De power geeft de kans op het vinden van een verschil dat werkelijk bestaat (in de populatie). Ofwel: de kans dat nul hypothese terecht wordt verworpen. Een gebruikelijke keuze voor de power is 1-β = 0,80. Dit betekent dat je een kans van 0.20 accepteert om een werkelijk aanwezig effect te missen in de studie. Wil je zekerder zijn om een verschil op te kunnen merken in de studie, dan zou je een hogere power (bijvoorbeeld 0,90 of 0,95) moeten gebruiken. Het verhogen van de power zal leiden tot een grotere sample size. Bijvoorbeeld: het verhogen van de power naar 0,90 bij een α van 0,05 zal je sample size ongeveer 30% doen toenemen.

*Het gewenste significantie niveau (α)
De gebruikelijke keuze voor α is 0,05, je accepteert dan een kans van 5% dat je conclusie over een verschil tussen beide groepen fout positief is. In tabel 1 zie je de samenhang tussen de hypothesen en conclusies uit de studie uitgedrukt in een 2 x 2 tabel. Een reden om de α te verlagen zou kunnen zijn dat er gecorrigeerd wordt voor [[multiple testing]]. Een lager significantieniveau zal leiden tot een grotere sample size. Bijvoorbeeld: je verlaagt α naar 0,01 bij een power van 0,80 dan zal je benodigde sample size met ± 50% toenemen. De kans op een fout positieve conclusie is dan nog maar 1 procent. Als een effectief middel wordt vergeleken met een goedkoper alternatief kun je er ook voor kiezen om minder kans te lopen op een fout positieve conclusie, dus een lager α level te nemen. Je wilt geen effectief middel ten onrechte inruilen voor een niet effectief middel. In dit zelfde voorbeeld zou je wellicht ook de power te verlagen, je maakt je minder zorgen om een effectieve behandeling te missen, die heb je al.

*Eenzijdig of tweezijdige toets
Je moet beslissen of er één dan wel tweezijdig getoetst gaat worden in de analyse. Gangbaar is tweezijdig. Eenzijdig toetsen is alleen verdedigbaar als het effect van een interventie onmogelijk anders kan zijn dan verwacht. Hierover is dan een uitgebreide verklaring nodig in een MEC-aanvraag of een publicatie. Bij sommige studies zijn er toch geldige overwegingen om éénzijdig te toetsen <cite>[knottnerus2001 , peace1989]</cite>. Tweezijdig toetsen geeft een hogere sample size dan eenzijdig toetsen.

*Verwacht of klinisch relevant effect dat je wilt kunnen aantonen
Bij een studie die twee groepen vergelijkt, bijvoorbeeld een controle en experimentele groep, is dit bijvoorbeeld het verschil tussen de groepen in fractie successen (dichotome uitkomst maat: succes/falen) of het verschil tussen twee gemiddelden bij een continue uitkomstmaat (verschil in gemiddelde bloeddruk). Maar het kan ieder type effect zijn, afhankelijk van wat je studie primair beoogt te schatten. De grootte van het effect dat je gebruikt in je sample size berekening is leidend voor welk effect je straks met voldoende statistische zekerheid kunt schatten/aantonen. Er zijn twee manieren om tot je keuze te komen.

Ten eerste kun je nadenken over wat je verwacht dat het effect zal zijn. Een inschatting kun je mede maken op basis van eerdere bevindingen (literatuur of het resultaat van pilot studies). Let wel: het hoeft niet zo te zijn dat als 1 of 2 kleine studies een (positief) hebben beschreven, dat deze studies ook direct de meest realistische inschatting van de grootte van het werkelijke effect geven. Meestal is er sprake van enige vorm van publicatiebias (positieve resultaten vallen het meest op, worden het snelst gepubliceerd). Het kan dus verstandig om voor een reele inschatting van het effect iets lager in te zetten. Zie ook dit artikel dat uitleg geeft over hoe puntschattingen uit eerdere kleine pilotstudies niet altijd de beste raadgever zijn voor het plannen van een grote nieuwe studie <cite>[Westlund]</cite>.

Ten tweede kun je kun je de power baseren op het (kleinste) verschil dat je nog relevant zou vinden. Het (behandel)effect dat je gebruikt in de sample size berekening geeft dan het kleinste klinisch relevante verschil weer. Idee hierbij is dat als het werkelijke effect kleiner zou zijn, het niet de moeite is om te vinden, omdat het dan niet tot verandering van praktijk zou leiden. Als je sterke aanwijzingen hebt dat het werkelijke effect groter te verwachten is dan het minimaal relevante effect, dan kun je ook voor dat grotere verwachte effect kiezen <cite>[EMAE9]</cite>.

*Verwachte spreiding / standaard deviatie
De inschatting van de spreiding wordt gebaseerd op eerdere bevindingen (literatuur of pilot study). Wanneer er geen directe schatting van de standaard deviatie aanwezig is, kan er met [[statistische software#nQuery Advisor|nQuery]] een schatting gemaakt worden op basis van wel bekende gegevens.
Als een waarneming gepaard gaat met veel variatie wordt het moeilijker om een verschil tussen groepen aan te tonen. Je hebt dan dus meer proefpersonen nodig om een verschil te vinden. Dit wordt wel vergeleken met de ruis die je op de radio hoort, hoe meer ruis (variatie) hoe moeilijker het wordt om het echte signaal (effect) te horen.

*Welke statistische toets
Een sample size berekening is altijd gebaseerd op een type statistische analyse. Je moet dus al een idee hebben hoe jou data uiteindelijk geanalyseerd gaan worden. Hulp bij het maken van een keuze voor een geschikte toets staat op de pagina [[KEUZE TOETS]] van deze wiki.

*Wat te doen als ik onvoldoende informatie heb?
Als er helemaal geen informatie in de literatuur te vinden is over de benodigde inschatingen, kan een pilot studie overwogen worden. Hierbij wordt een klein aantal proefpersonen getest. Met de informatie uit de pilot studie kan vervolgens een betere inschatting gemaakt worden van het totaal aantal personen nodig om de onderzoeksvraag te beantwoorden. Voor de grootte van de pilot studie spelen vaak punten als invasiviteit, maar ook kosten een rol.

==Er is nog nooit eerder naar onze uitkomst gekeken, hoe kom ik aan een inschatting van de effectmaat?==

''Van een aantal uitkomsten in ons onderzoek is nog niets bekend over hoeveelheden (gemiddelden, standaarddeviaties) in onze setting (wij gaan dit voor het eerst testen en er is hier dus geen literatuur over bekend) en zodoende denk ik dat ik de effectgrootte niet kan berekenen. Hoe kan ik hier mee om gaan?

Het is bij sample size berekening lang niet altijd nodig om een reeds in de literatuur beschreven effect te hebben. Je kunt plannen op effecten die je relevant vindt. Je wilt voldoende patiënten hebben om een relevant verschil te kunnen vinden. Je kunt op basis van externe kennis redeneren wat een relevant verschil is.

==Kan ik meerdere uitkomstmaten combineren in een poweranalyse?==
Een poweranalyse kan maar op een uitkomstmaat van de studie gebaseerd worden. Meestal is dit het primaire eindpunt van de studie.
Echter, voor de secundaire eindpunten kan de berekende sample size onvoldoende zijn. Je kunt voor de secundaire eindpunten apart een power analyse doen en de sample size baseren op het hoogste aantal personen. Let wel op dat het uiteindelijke criterium waar de sample size op gebaseerd is nog voldoende relevant is om de (extra) personen op te testen. Ruw gezegd zijn er dus twee aanpakken mogelijk:

- je kiest 1 van de uitkomsten (en een van de vergelijkingen) uit als de belangrijkste, de primaire uitkomstparameter. De sample size wordt dan zo gekozen dat er voldoende aantallen zijn voor deze primaire uitkomst. De andere vergelijkingen die gedaan worden in het onderzoek zijn ‘secundair’. Dat betekent dat je er niet per se voor gepowered was. Als je geen significantie vindt, kan dat liggen aan te kleine groepsgroottes. Ook als je wel significantie vindt, kun je niet al te harde conclusies verbinden, omdat je onderzoek niet gepland was op deze vergelijking, het is een soort ‘bijproduct’.

- je berekent de benodigde groepsgrootte voor alle gewenste vergelijkingen en kiest de grootst benodigde groepsgrootte uit. Hiermee ben je op alles gepowered en zou je dus ook alles als ‘primaire uitkomstmaat’ bestempelen. Indien er meerdere vergelijkingen zijn, is het waarschijnlijk nodig om te corrigeren voor [[multiple testing]] om de fout positieve kans over je hele onderzoek/experiment onder controle te houden.

==Corrigeert een correcte sample size berekening voor meetfouten?==
Een sample size berekening houdt rekening met de invloed van niet systematische fouten ofwel random variatie in de steekproef. Voor andere fouten geeft een sample size berekening geen oplossing. Dan moet je denken aan systematische fouten (bijvoorbeeld slechte ijking van meetapparatuur). Dit geldt ook voor de (ongewenste) invloed van andere variabelen op de studie uitkomsten (bijvoorbeeld confounders). Voor systematische bias moet in de studie opzet en/of in de analysefase gecorrigeerd worden.

== Wanneer is een post hoc poweranalyse zinvol? ==
Een poweranalyse wordt vooraf aan een onderzoek gedaan. Echter, wanneer er bij de analyse van een studie geen significant verschil wordt gevonden en er vooraf geen poweranalyse is gedaan, kan een post hoc poweranalyse helpen de studieuitkomst te interpreteren. De powerberekening geeft dan aan of het niet significante resultaat (p waarde groter dan 0.05) te maken heeft met te weinig power, of dat je wel voldoende power had om een effect te vinden, maar het effect er gewoon niet is. In dat laatste geval is er sprake van een "true negative" resultaat, terwijl bij een te lage power je niet kan uitsluiten dat je met een "false negative" resultaat te maken hebt.
Bij een significant studieresultaat is het niet meer relevant om naar de power van een studie te kijken. Er is een effect opgemerkt in de studie, de kans op het missen van een aanwezig effect is niet meer aan de orde <cite>[levine2001 , goodman1994 , lenth2001]</cite>.

== Hoe doe ik een post hoc poweranalyse? ==

Bij een post-hoc powerberekening probeer je achteraf (na statistische analyse) nog iets te zeggen over de power die je vooraf aan de studie had. Hierbij wil je niet weten wat de power van je studie is bij gevonden verschil, maar je wilt weten hoeveel power je had om een wellicht aanwezig verschil aan te kunnen tonen in jouw studiepopulatie. Je berekent welk effect je met bijvoorbeeld 80% power had kunnen testen met het huidige aantal proefpersonen. Een opmerking zou er als volgt uit kunnen zien: "Considering the number of included patients, this study would have 80% power to pick up a mean difference of >= ... between pre and post medication."

Vervolgens is het interessant om het verschil waarvoor je 80% power had te vergelijken met wat je een (klinisch) relevant verschil vindt. Dit zegt iets over of je voldoende power had relevante verschillen op te pikken.

==Poweranalyse in specifieke onderzoeksdesigns==

===Hoe doe ik een poweranalyse bij een equivalentiestudie?===
In een equivalentiestudie probeer je aan te tonen dat groepen hetzelfde zijn. Ook in deze groepen zal variatie in de waarnemingen aanwezig zijn. Daarom moet worden aangegeven welk (klein) verschil tussen de groepen verwaarloosbaar is, ofwel bij welk verschil zie je de groepen nog als gelijk (equivalence limit difference). Verder moet worden aangegeven welk verschil wordt verwacht (expected difference). De expected difference zal in de regel kleiner zijn dan de gehanteerde equivalence limit difference. Voor de power wordt vaak 90% gekozen, je loopt dan minder kans dat je ten onrechte de nul hypothese verwerpt, wat bij een equivalentie studie betekent dat je ten onrechte het bestaan van een verschil tussen de groepen verwerpt.

===Hoe bereken ik een sample size voor een kappa coëfficiënt?===
Hoe vaak moeten twee beoordelaars een object beoordelen om een valide uitspraak over de [[Cohen's kappa|kappa]] te kunnen doen? In het geval van een dichotome beoordeling (bijv. ziekte is aanwezig of afwezig), kun je met [[statistische software#nQuery Advisor|nQuery]] op de volgende manier een sample size berekenen: Selecteer in het scherm Study Goal and Design (File -> New) onder Goal: Make Conclusion Using “Agreement”, onder Number of Groups “one” en onder Analysis Method “test”. Selecteer vervolgens Kappa (binary outcome).

Nadat een nieuwe tabel is aangemaakt moeten de volgende gegevens worden ingevuld:
*Test significance level, α (bijvoorbeeld 0,05)
*1 or 2 sided test (meestal 2 sided)
*Proportion successes (verwacht percentage positieve testen)
*Null hypothesis agreement, geef hier een waarde op hoger dan 0 (bijv. 0,40) want je verwacht meer overeenkomst dan op basis van toeval
*Alternative agreement, geef de Kappa die je wilt detecteren (bijv. 0,70)
*Power (meestal 80% of 90%)

nQuery berekent op basis van deze gegevens de sample size.

===Hoe bereken ik een steekproefgrootte voor een Fleiss kappa coëfficiënt voor meerdere categorieën en raters? ===
''Ik wil een onderzoek uitvoeren waarbij een nog onbekende aantal raters patiënten op basis van filmbeelden beoordelen. De raters zullen de patiënten in drie of vier categorieën indelen. Hoe bereken ik hoeveel patiënten ik nodig heb?''

Je kunt deze berekening met de R package [http://cran.r-project.org/web/packages/kappaSize/kappaSize.pdf kappaSize] uitvoeren.

===Hoe bereken ik een steekproefgrootte voor intraclass correlatie coefficient? ===
De methoden hiervoor worden in dit artikel beschreven <cite>[zou2012]</cite>.

===Hoe wordt een groepsgrootte berekening aangepast bij een ‘clustered’ trial?===
In een 'clustered' trial randomiseer je groepen (clusters) in plaats van individuen. Groepen zijn bijvoorbeeld afdelingen in een ziekenhuis. De patiënten in de studie worden per afdeling gerandomiseerd dus krijgen per afdeling dezelfde interventie. Het voordeel van dit studie design is dat patiënten die verschillende interventies loten elkaar niet kunnen beinvloeden (contamineren). Het nadeel is dat je in een clustered trial meer patiënten nodig hebt dan in een 'gewone' trial.
Er is een relatie tussen het aantal proefpersonen in een cluster en het aantal clusters dat je nodig hebt. Hoe meer proefpersonen zich in een cluster bevinden, hoe minder clusters je nodig hebt. Een voorbeeld betreft huisartspraktijken <cite>[kerry1998]</cite>:

:Na interventie (placebo/experiment) wil men bij patienten een gemiddelde afname van 0,1 mmol/L cholesterol met een power van 90% en een significantie van 5% aantonen. De interventie wordt gerandomiseerd over huisartspraktijken. Bij 10 patienten per praktijk zijn 558 praktijken nodig (4% meer patienten dan in een trial waarbij per patient gerandomiseerd wordt). Bij 50 patienten per praktijk heb ik 126 praktijken nodig (17% meer patienten dan een gewone trial). Bij 500 patienten per praktijk ben ik met 32 clusters klaar, maar ik heb bijna 3 keer zoveel patienten nodig als in een gewone gerandomiseerde trial. De extra patienten t.g.v. het cluster effect noemt men het design effect of de inflatiefactor.

Je hebt de voor de berekening van de sample size bij een cluster gerandomiseerde trial de volgende gegevens nodig: significantie niveau; power; standaard deviatie; klinisch relevant verschil; het aantal patienten per cluster (k); correlatie tussen patienten in hetzelfde cluster <math>\rho</math> (gebruikelijk is <math>\rho > 0,05</math>). Bij de berekening van steekproefgrootte bij cluster randomized trials wordt vaak aangeraden een zogenaamde inflatiefactor van <math>1+(n-1)\rho</math> te gebruiken met n = de gemiddelde clustergrootte en <math>\rho</math> de [[intraclass correlatie coefficient]]. Er is een stap voor stap uitleg hierover verschenen <cite> [mccarthy2007]</cite>.

===Hoe kan ik een sample size berekening doen in een hiërarchisch design?===

Voor de sample size berekening in een hiërarchisch design kunnen vaak de [[Poweranalyse#Hoe_wordt_een_groepsgrootte_berekening_aangepast_bij_een_.E2.80.98clustered.E2.80.99_trial.3F | simpele aanpassingsmethoden zoals bij een clustered design]] worden gebruikt. Er zijn ook geavanceerdere aanpakken waarbij je meer verwachte relaties kunt meenemen in de berekening. Neem hiervoor contact met een statisticus op.

===Kan ik bij een diagnostische studie een poweranalyse doen?===

Bij een diagnostische studie wordt vaak de [[diagnostisch onderzoek#Wat wordt bedoeld met sensitiviteit en specificiteit?|sensitiviteit en specificiteit]] van een diagnostisch instrument geanalyseerd. Uit een powerberekening vind je hoeveel positieve en negatieve mensen je nodig hebt om sensitiviteit en specificiteit met een bepaalde power te kunnen toetsen. Afhankelijk van hoe vaak beide typen voorkomen in de populatie heb je dan een bepaalde steekproefgrootte nodig. Je kunt je voorstellen dat het aantal van de meest zeldzame soort bepalend is voor de steekproefgrootte. Sample size voor sensitiviteit en specificiteit bereken je apart.
In [[statistische software#nQuery Advisor |nQuery]] kun voor een poweranalyse op de sensitiviteit bijvoorbeeld het volgende doen. Bereken de sample size voor 1 proportie (kies: Proportions – one Group – Confidence Interval). De 'expected proportion' kun je opvatten als de beoogde sensitiviteit terwijl je met de 'distance from proportion to limit' de gewenste breedte (1 kant op) van het betrouwbaarheidsinterval rond de sensitiviteit aangeeft. De zo berekende sample size heeft betrekking op het aantal patienten dat positief scoort op de gouden standaard. Stel je verwacht in je studiepopulatie een 'prevalentie' van 0,33 dan moet je berekende sample size met (1/0,33=3) vermenigvuldigen voor het totaal benodigd aantal personen. Er zijn voorbeelden van dit soort berekeningen gepubliceerd <cite>[lameris2007]</cite>, ook zijn hiervoor nomograms gepubliceerd <cite>[carley2005]</cite>.

===Welke informatie heb ik nodig voor een poweranalyse als ik een niet-parametrische test gebruik?===
Voor een steekproefgrootte berekening gebaseerd op een non-parametrische toets, bijvoorbeeld de [[Mann-Whitney U toets]] kan via een omweg toch gebruik gemaakt worden van de gemiddelde en standaard deviatie van beide groepen om de power of steekproefgrootte te bepalen. Tijdens een berekening in [[statistische software#nQuery Advisor|nQuery]] wordt de kans gevraagd dat een observatie in groep 1 kleiner is dan in groep 2 (P1 = P(X<Y)) als de alternatieve hypothese waar is. Dit kun je inschatten met behulp van het tabblad 'assistants' en vervolgens te kiezen voor de optie 'calculate effect size'. Hierin wordt gevraagd naar de gemiddelde en standaard deviatie van beide groepen. De door de assistant berekende effect size voer je vervolgens in het vorige scherm in. De rest van de berekening wijst zichzelf.

Indien er pilot data aanwezig is, dan kan er nog preciezer een schatting gemaakt worden van de gevraagde kans (P1 = P(X<Y)), er kan dan namelijk gewoon geteld worden bij hoeveel van de observatieparen (meting 1 groep 1 vs meting 1 groep 2, meting 1 groep 1 vs meting 2 groep 2 etc) de meting in groep 1 kleiner was dan die in groep 2. Dit aantal gedeeld door het totaal aantal paren geeft dan de gevraagde kans.

===Welke informatie heb ik nodig voor een poweranalyse als ik een multivariabele lineaire regressie ga doen?===
Een vuistregel voor sample size van een [[multivariabele regressie|multivariabele lineaire regressie]] analyse is dat per predictor (onafhankelijke variabele in het model) je minstens 10-20 patienten in je studie moet hebben. [[statistische software#nQuery Advisor|nQuery]] kan de sample size berekenen voor een multivariabel regressie model met meerdere continue predictoren. nQuery test R2=0 (geen verklaarde variantie in het model) voor normaal verdeelde covariaten. Kies in nQuery onder 'study goal and design' voor 'regression', 'one group' en voor 'test' en bij type test voor 'linear regression, multiple covariates'. Vervolgens geef je de volgende waarden op: test significance level (0,05); number of variables k = aantal predictors in je model; squared multiple correlation R2, wat is de verwachte verklaarde variantie ; en de power (meestal 80%). Met deze waarden kan een sample size worden berekend.

===Is een poweranalyse zinvol bij een tevredenheidsenquete?===
''Ik ben bezig met het plannen van een onderzoek met vragenlijsten over het gebruik en de tevredenheid van fysiotherapie bij patienten met rugklachten. Omdat het hier niet per definitie om een vergelijkend onderzoek gaat vroeg ik mij af of het nodig is om een powerberekening uit te voeren. Mocht een powerberekening niet nodig zijn, is er dan nog een andere manier om het benodigde aantal deelnemers te bepalen? Of is het in dit geval zo dat er gewoon zoveel mogelijk patiënten moeten deelnemen om een goed beeld van de huidige situatie te krijgen?

Ook bij niet vergelijkend onderzoek is het raadzaam om een sample size berekening te doen. Want ook dan wil je verzekeren dat je de resultaten uit de studie met voldoende zekerheid kunt omkleden. Bijv zul je bij 5 van de 10 tevreden patienten een heel andere mate van bewijs hebben dan als je 50 van de 100 tevreden patienten hebt verzameld. Ook vanuit andere kant bekeken geldt dat het goed is om te kijken naar een maximum benodigd aantal, omdat je daarmee patienten (en jezelf) onnodige moeite kan besparen. Ook hier geldt dus dat er bepaald moet worden wat de belangrijkste uitkomstparameters van het onderzoek zijn, wat de verwachting hiervan is en met welke mate van precisie (bijv breedte betrouwbaarheidsinterval) de wens is hierover te rapporteren.

===Ik bereken de sample size voor het vergelijken van twee proporties, moet ik de continuity corrected chi-square versie gebruiken?===
''Wij willen de sample size berekening doen voor een vergelijking van 2 proporties. We verwachten 2% events in de ene groep en 30% event in de andere groep. In nQuery vind ik een optie voor chi-square test en een optie voor "continuity corrected" chi-square test. Wanneer moet ik die correctie gebruiken?

De berekening van nQuery gebruikt (op de achtergrond, te zien in de help file) een z test voor het berekenen vna de aantallen voor het vergelijken van 2 proporties. Je kunt je voorstellen dat het er bij de omzetting van een proportie naar zo'n (continue) z-verdeling een approximatie wordt gedaan. Bij relatief grote aantallen gaat dat wel goed. Bij wat kleinere aantallen is de benadering minder precies. Hiervoor is er de 'continuity corrected' versie. Deze maakt een aanpassing om er rekening mee te houden dat de proporties bij kleine aantallen niet 'glad' overgezet kunnen worden in een z-verdeling en zorgt voor een wat conservatievere (grotere) sample size. Er zijn helaas geen absolute grenzen vanaf waar je de continuity correctie 'moet' gebruiken. Een grens van (totale) sample size tot 100 wordt wel eens aangehouden.

In jullie geval waarbij er naast relatief kleine aantallen (totale n blijft ruim onder de 100) ook in 1 groep een heel kleine event rate verwacht wordt, zou ik altijd proberen te zorgen voor een veilige sample size door wel met de continuity corrected versie te werken.

===Ik bereken de sample size voor het schatten van een enkele proportie en merk dat ik meer personen nodig heb als het % dichter bij 50% ligt, klopt dat wel?===

''Ik doe een sample size berekening voor het schatten van een enkele proportie waarbij ik een vaste wens voor de breedte van het betrouwbaarheidsinterval rondom die proportie wens. Wat mij verbaast is dat de aantallen patienten groter worden richting een verwacht percentage van 50% en hierna weer afneemt. Dit snap ik niet helemaal. Is hier een logische verklaring voor??

Dat klopt. De verklaring daarvoor is dat het makkelijker is om een laag percentage te schatten dan een percentage dat richting de 50% gaat. Intuitief kun je hier als volgt over denken:

Stel je hebt een (gewonen 1-6) dobbelsteen en weet niet wat er voor een punten op deze dobbelsteen staan.
- Je gaat eerst kijken hoe vaak de 1 voorkomt. Je gooit heel vaak met de dobbelsteen en telt hoe vaak er een 1 boven komt. Je zult hierbij al vrij snel doorhebben dat de 1 niet vaak voorkomt. Het valt snel op dat dit een laag percentage moet zijn. Een schatting van tussne 0 en 25% is snel te maken.
- Stel je wilt kijken hoe vaak er een even getal (2 4 of 6) boven komt. Weer ga je vaak gooien. Maar nu is het lastiger om te bepalen wat het percentage even getallen is. De ene keer komt het vaak (achter elkaar) voor, dan weer niet. Je schommelt met je schatting, bijvoorbeeld tussen de 25% en 75%.

Je ziet dat in het tweede geval, bij een werkelijk percentage van 50% het moeilijker is om dit percentage met smalle betrouwbaarheidsband te melden dan bij het eerste geval.

===Hoeveel patiënten heb ik bij een pilot studie nodig? ===
Er zijn geen duidelijke regels over hoeveel patiënten je meeneemt als je een pilot studie uitvoert. Als de doel van de pilot studie is om een schatting van de gemiddelde en standaard deviatie te krijgen, raden sommige statistici 12 patiënten per groep aan <cite>[julios2005]</cite>. Als je een schatting van een proportie, Pearson's correlatie coëfficiënt, Cronbach's alpha coëfficiënt of de effect size wilt maken zijn andere aantallen nodig <cite>[hertzog2008]</cite>.

===Hoeveel patienten heb ik minder nodig als ik een cross-over studie doe ipv een studie met paralelle groepen?===

''Ik doe onderzoek bij gezonde proefpersonen; omdat ik ze blootstel aan straling, willen we het aantal proefpersonen beperken. Daarom overwegen we een cross-over design. In hoeverre kunnen we met dit ontwerp de groepsgrootte beperken?

Je kunt de volgende rekenregel toepassen om het contrast in steekproefomvang tussen het parallelle en cross-over design te bepalen <cite>[bonten2012]</cite>

<math>
n_{cross-over} = \frac{((1-r) * n_{parallel})}{2}
</math>.

Hierbij is r de [[Correlatie|correlatie]] tussen metingen binnen dezelfde personen. Bezwaar van een cross-over studie kan wel zijn dat de totale stralingsbelasting per patiënt hoger zal zijn. Je moet goed kunnen motiveren waarom minder patiënten meer straling geven beter is dan iedereen dezelfde straling geven. En verder moet er geen sprake zijn van carry-over of cumulerende effecten.

===nQuery en PASS berekenen ieder een andere groepsgrootte voor mijn geplande logistische regressie, welke kan ik gebruiken?===

''In mijn studie wil ik het kijken naar het verband tussen een continue uitslag van een diagnostische test en een dichotome uitkomst (gouden standaard). Ik wil daarvoor een [[logistische regressie]] te gebruiken en denk nu na over benodigde sample size. Ik heb verschillende aannames ingevoerd in zowel [[statistische software|nQuery]] als [[statistische software|PASS]], maar beide programma's geven verschillende benodigde groepsgroottes terug. Welke moet ik van uit gaan?

Ik heb de door nQuery <cite>[hsieh1989]</cite> en PASS <cite>[hsieh1998]</cite> genoemde referenties erbij genomen. Hieruit blijkt dat de berekening van nQuery een ‘upper bound’ benadering gebruikt waardoor die doorgaans hogere groepsgroottes zal berekenen dan benodigd. Ik raad je dus aan om voor jouw berekening niet nQuery te gebruiken, maar PASS of om de juiste formules <cite>[hsieh1998]</cite>zelf toe te passen.

===Hoeveel patienten heb ik nodig voor een genome wide associatie studie?===

''Ik wil in een groot cohort whole genome SNP array doen. Ik ben vooral geïnteresseerd in de meest relevante nonsynSNP met MAF >5%. Dit betekent dat ik in DNA van patiënten 100.000-en SNPs ga meten mbv genome wide association zoals 'genome wide human SNP array'. Ik neem een van-te-voren geselecteerde groep patienten, bijvoorbeeld 300 waarvan 50% goede nierfunctie heeft en 50% slechte nierfunctie. Ik vroeg me af of het mogelijk is om van te voren een idee te hebben hoeveel patiënten je moet gebruiken voor voldoende power?

De standaard poweranalyse voor GWAS is vergelijkbaar met die van een studie waar u naar 1 SNP kijkt, behalve dan dat het significantie-niveau wordt verlaagd. Meestal gebruiken we een [[Multiple_testing|Bonferroni correctie]], dus het significantie niveau wordt dan 0.05 gedeeld door het aantal SNPs. Dus als u een 250K chip gebruikt en 200K SNPs voldoen aan alle kwaliteitscriteria dan wordt het significantie niveau 0.05/200,000 = 0.00000025. Als u een groter platform gaat gebruiken met, zeg, 1,000,000 SNPs of als u SNPs gaat imputeren naar GONL of 1000genomes, dan gebruiken we de zogenaamde "genomewide significance" van 8.5x10^9. Als u de analyse beperkt tot nonsynonymous SNPs met MAF>5%, dan beperkt u het aantal enorm. Ik denk dat de meeste algemene platforms heel weinig van dergelijke SNPs bevatten en zelfs dedicated platforms (zoals de cardiochip, metabochip of kankerchips) hebben heel weinig van dergelijke SNPs met mAF>5%. Ook dan is het significantie-niveau gelijk aan 0.05/aantal resterende SNPs.

De vergelijking die u gaat maken betreft de genotyperingen van een SNP in de groepen patienten met goede of minder goede nierfunctie. Stel dat u gaat kijken naar het percentage patienten met genotypes AA of Aa versus het genotype aa, dan kunt u die percentages <math>p_1</math> en <math>p_2</math> noemen. Over die <math>p_1</math> en <math>p_2</math> moet u uitspraken doen en daarna kunt u de standaard steekproefgrootte formule gebruiken:

<math>
N_{\rm{per\,
groep}} = \frac{(z_{\alpha} + z_{\beta})^2 * (p_1*(1-p_1)+p_2*(1-p_2))}{(p_1-p_2)^2}
</math>.

<math>\beta</math> = 1-power en als power 80% is, dan is <math>z_{\beta}</math>=0.84 (als power 90% is, dan is <math>z_{\beta}</math>=1.28).
<math>\alpha</math> = significantie niveau en als <math>\alpha</math>=0.05, dan is <math>z_{\alpha}</math>=1.96. Als <math>\alpha=\frac{0.05}{200000}</math>, dan is <math>z_{\alpha}</math>=5.16 en als <math>\alpha=</math>0.000000085 dan is <math>z_{\alpha}</math>=5.36.

Stel je neemt aan dat in de "gezonde" populatie het AA+Aa genotype in 10% van de personen voorkomt, dan geldt dat <math>p_1</math>=0.10. Stel verder dat de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio]] van deze SNP voor het hebben van minder goede nierfunctie gelijk is aan 2.5. Dan verwacht je dat <math>p_2</math> ongeveer gelijk is aan 0.10*2.5 = 0.25 (je kunt het iets preciezer uitrekenen). Om 80% power te hebben om zo'n SNP significante te vinden als je 200,000 SNPs toets, dan heb je

<math>
N_{\rm{per\, groep}} = \frac{(5.16+0.84)^2 * (0.10*(1-0.10)+0.25*(1-0.25))} {(0.10-0.25)^2} = 444
</math>

patienten met slechte en 444 patienten met goede nier functie nodig.

Overigens zien we zelden zulke sterke associaties bij SNPs, meestal zijn de [[Associatiematen_2x2_tabel#Odds_ratio|odds ratio's]] 1.1 of 1.2 of zoiets en dan toets je <math>p_1</math>=0.10 versus <math>p_2</math>=0.11 of 0.12 en zul je zien dat je heel erg veel patienten nodig hebt.

===Hoeveel patiënten heb ik nodig om een predictie model te bouwen?===
''Ik wil een predictie model voor een binaire (0/1) uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
In deze situatie gaat het niet om het aantal patienten, maar om het aantal events ("1") en non-events ("0"). Per parameter dat je in je predictiemodel schat, heb je minimaal 20 events en minimaal 20 non-events nodig <cite>[ogundimu2016]</cite>. Je hebt dus zoveel patiënten nodig dat het aannemelijk is dat je minimaal 20 events (bijvoorbeeld ziekenhuissterfte) en 20 non-events (bijvoorbeeld levend uit het ziekenhuis ontslagen) per parameter die je wil schatten. Maar om een goede schatting van de benodigde aantal kan het nodig zijn om ook andere factoren mee te nemen <cite>[smeden2018]</cite>.

''Ik wil een predictie model voor een continue uitkomst bouwen. Van hoeveel patiënten heb ik data nodig?''
Het antwoord hierop is vrij complex, er zijn wel een aantal artikelen die handvatten rondom het aantal benodigde patiënten kunnen geven <cite>[knofczynski2007 , brooks2012]</cite>.

Denk bij het plannen van een studie om een predictie model te bouwen ook aan de eventueel benodigde data voor het (intern)valideren van het model!

===Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?===
''Ik wil de steekproef voor een studie met één groep patiënten berekenen. De patiënten worden op een nieuwe manier geopereerd. Ik wil de proportie patiënten met een bepaalde complicatie bij de nieuwe operatie vergelijken met de proportie patiënten met deze complicatie bij de huidige standaard operatie. De proportie complicaties bij de huidige standaard operatie is uit de literatuur bekend en bedraagt 0,52. Ik verwacht dat de proportie complicaties bij de nieuwe manier van opereren 0,42 zal zijn. Hoe kan ik voor deze studie een steekproefgrootte berekenen?''

In deze type studie schat je op basis van de data van patiënten uit één groep een proportie. Vervolgens vergelijk je deze proportie met een vooraf gestelde waarde van de proportie. Deze vergelijking kan je met een chi-kwadrat toets voor één proportie uitvoeren.
In nQuery kan je in het menu File de optie New kiezen. Vervolgens klik je bij “Goals: make conclusions using” de optie “proportions”, bij “Number of Groups” de optie “One” en bij “Analysis Method” de optie “test” aan. Vervolgens klik je in de scherm daaronder op het “+”teken naast de tekst “Single proportion”. Kies “One sample Chi-squared” en het rekenscherm verschijnt. Vul de gewenste waardes voor alpha (meestal 0,05), één of tweezijdige toets (meestal tweezijdig), de “null hypothesis proportion” (hier 0,52) , de “Alternative proportion” (hier 0,42) en de gewenste power (meestal 80%) in. Klik dan op “Enter” op je toetsenbord en de benodigde aantal patiënten in de onderzoeksgroep zal in de rij “n” verschijnen. In deze voorbeeld is dat 195.

Als je met andere properties werkt, kan het nodig zijn om de optie "Exact test for single proportion" te gebruiken.

== Referenties ==
<biblio>
#park2010 Park HM. Hypothesis Testing and Statistical Power of a Test. 2010. [http://hdl.handle.net/2022/19738 Link]

#knottnerus2001 Knottnerus JA, Bouter LM. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiology. 2001 Feb; 54(2): 109-110. [https://doi.org/10.1016/S0895-4356(00)00276-6 DOI]

#peace1989 Peace KE. The alternative hypothesis: One-sided or two-sided? Journal of Clinical Epidemiology. 1989 42(5): 473-476. [https://doi.org/10.1016/0895-4356(89)90137-6 DOI]

#levine2001 Levine M, Ensom MHH. Post Hoc Power Analysis: An Idea Whose Time Has Passed? Pharmacotherapy. 2001 21(4):405-409. [https://doi.org/10.1592/phco.21.5.405.34503 DOI]

#goodman1994 Goodman SN, Berlin JA. The Use of Predicted Confidence Intervals When Planning Experiments and the Misuse of Power When Interpreting the Results. Annals Internal Medicine. 1994 121(3): 200-206. [https://doi.org/10.7326/0003-4819-121-3-199408010-00008 DOI]

#lenth2001 Lenth RV. Some Practical Guidelines for Effective Sample Size Determination. The American Statistician. 2001 55(3): 187-193. [https://www.jstor.org/stable/2685797 DOI]

#mccarthy2007 McCarthy WF. Assessment of Sample Size and Power for the Analysis of Clustered Matched-Pair Data. COBRA Preprint Series. Working Paper 28. July 2007. [http://biostats.bepress.com/cobra/art28 DOI].

#lameris2007 Lameris W, van Randen A, Dijkgraaf MGW, Bossuyt PMM, Stoker J, Boermeester MA. Optimization of diagnostic imaging use in patients with acute abdominal pain (OPTIMA): Design and rationale. BMC Emerg Med. 2007 7: 9. [https://dx.doi.org/10.1186%2F1471-227X-7-9 DOI].

#carley2005 Carley S, Dosman S, Jones SR, Harrison M. Simple nomograms to calculate sample size in diagnostic studies. Emergency Medicine Journal 2005 22(5) 180-181. [http://dx.doi.org/10.1136/emj.2003.011148 DOI]

#julios2005 Julious SA. Sample size of 12 per group rule of thumb for a pilot study. Pharmaceutical Statistics. 2005 4(4) 287-291. [https://doi.org/10.1002/pst.185 DOI].

#hertzog2008 Hertzog MA. Considerations in determining sample size for pilot studies. Research in Nursing and Health. 2008 31(2) 180-191. [https://doi.org/10.1002/nur.20247 DOI].

#bonten2012 Bonten TN, Siegerink B, van der Bom JG. Cross-overstudies. Ned Tijdschr Geneeskd. 2012 156:A5542. [https://www.ntvg.nl/artikelen/cross-overstudies Link]

#hsieh1989 Hsieh FY. Sample size tables for logistic regression. Statistics in Medicine. 1989 8(7) 795-802. [https://doi.org/10.1002/sim.4780080704 DOI]

#hsieh1998 Hsieh FY, Bloch DA, Larsen MD. A simple method of sample size calculation for linear and logistic regression. Statistics in Medicine. 1998 17(14) 1623-1634. [https://doi.org/10.1002/(SICI)1097-0258(19980730)17:14<1623::AID-SIM871>3.0.CO;2-S DOI]

#ogundimu2016 Ogundimu EO, Altman DG, Collins GS. Adequate sample size for developing prediction models is not simply related to events per variable. Journal of Clinical Epidemiology. 2016 76 175-182. [https://doi.org/10.1016/j.jclinepi.2016.02.031 DOI]

# smeden2018 van Smeden M, Moons KGM, de Groot JAH, Collins GS, Altman DG, Eijkemans MJC, Reitsma JB. Sample size for binary logistic prediction models: Beyond events per variable criteria. Statistical Methods in Medical Research 2018. [https://doi.org/10.1177/0962280218784726 DOI]

#knofczynski2007 Knofczynski GT, Mundfrom D. Sample Sizes When Using Multiple Linear Regression for Prediction. Educational and Psychological Measurement. 2007 68(3). [https://doi.org/10.1177/0013164407310131 DOI]

#brooks2012 Brooks GP, Barcikowski RS. The PEAR Method for Sample Sizes in Multiple Linear Regression. Multiple Linear Regression Viewpoints. 2012 38(2) 1-16. [http://www.glmj.org/archives/articles/Brooks_v38n2.pdf Link]

#florey1993 Florey CD. Sample size for beginners. BMJ 1993 306 1181-4 [https://doi.org/10.1136/bmj.306.6886.1181 DOI]

#kerry1998 Kerry SM, Bland JM, Statistics notes: sample size in cluster randomization. BMJ 1998 volume 316(5):549. [https://doi.org/10.1136/bmj.316.7130.549 DOI]

#jones2003 Jones SR, Carley S, Harrison M. An introduction to power and sample size estimation, Emergency Medicine Journal, 2003 20(5):453-458 [http://dx.doi.org/10.1136/emj.20.5.453 DOI]

#zou2012 Zou GY. Sample size formulas for estimating intraclass correlation coefficients with precision and assurance. Stat Med. 2012 31(29):3972-81. [http://dx.doi.org/10.1002/sim.5466 DOI]

</biblio>

{{onderschrift}}

Lineaire regressie

2018-08-01T07:01:26Z

Nan van Geloven: /* Hoe interpreteer ik de resultaten van mijn lineaire model bij een log transformatie van de uitkomstmaat? */

{{auteurs|
|mainauthor= prof dr R.J. de Haan
|coauthor=
}}
== Wanneer gebruik ik een lineair regressie model? ==
Als je een [[correlatie|correlatietechniek]] toepast, ben je geïnteresseerd in de mate van samenhang tussen twee variabelen <math>X</math> en <math>Y</math>, bijvoorbeeld een onderzoek naar de samenhang tussen leeftijd en scores op een cognitieve test. Met lineaire regressie ga je een stap verder. Met deze techniek probeer je de waarden van de uitkomst <math>Y</math> via een lineair verband te voorspellen uit die van <math>X</math>. De uitkomstvariabele <math>Y</math> wordt de afhankelijke variabele genoemd, en de voorspeller <math>X</math> de onafhankelijke variabele.
We spreken van enkelvoudige (ook wel ''simple'' of ''univariable'') regressie als we de uitkomst willen voorspellen met één predictor. In de praktijk zal dat in vele gevallen niet voldoende zijn en is het wenselijk om de effecten van twee of meer voorspellers te analyseren. We spreken dan van [[multivariabele regressie|meervoudige (ook wel ''multiple'' of ''multivariable'')]] lineaire regressie.

Om een lineaire regressie te kunnen gebruiken, moeten de onderzoeksgegevens aan een aantal statistische voorwaarden voldoen:
#Over de gehele range van geobserveerde waarden moet sprake zijn van een lineaire samenhang tussen de onafhankelijke variabele <math>X</math> en de afhankelijke variabele <math>Y</math> (tip: maak eerst een scatterplot om de aard van de samenhang tussen <math>X</math> en <math>Y</math> te exploreren);
#Wat betreft het type data mogen de <math>X</math> variabelen zowel [[KEUZE TOETS#Van welk type is mijn data?|discreet als continu]] zijn. De afhankelijke variabele <math>Y</math> mag alleen continu zijn;
#Voor elke waarde van <math>X</math> moeten de observaties van <math>Y</math> onafhankelijk van elkaar zijn; dat wil zeggen dat de <math>Y</math> variabelen slechts 1 keer bij een persoon zijn gemeten. Lineaire regressie is dus niet geschikt om voor onderzoeksgegevens te analyseren waarbij de patiënten herhaaldelijk in de tijd zijn gemeten (voor [[herhaalde metingen]] bestaan andere technieken).
#De variabele <math>Y</math> heeft een normaal verdeling voor elke waarde van <math>X</math>.
#De verdelingen van de <math>Y</math> variabele hebben een gelijke variantie (of standaard deviatie) voor elke waarde van <math>X</math>.

De assumpties 1, 4 en 5 kunnen met behulp van de residuen van het lineaire model worden gecontroleerd.

==Hoe werkt (enkelvoudige) lineaire regressie?==

In lineaire regressie bepalen we de regressielijn, die het beste de lineaire relatie tussen de <math>X</math> en <math>Y</math> variabelen beschrijft. De lineaire regressielijn wordt geschat met behulp van de vergelijking:

<math>Y = a+b \times X + \epsilon</math>

<math>Y</math> is de afhankelijke, uitkomstvariabele; <math>X</math> de onafhankelijke voorspeller; en 'a' en 'b' zijn de regressiecoëfficiënten; <math>\epsilon</math> representeert de afstand tussen de regressielijn en de datapunten (de residuen). Regressiecoëfficiënt ‘a’ wordt ook wel de intercept genoemd, en geeft de waarde van <math>Y</math> aan als <math>X=0</math> (de intercept bepaalt dus de hoogte van de regressielijn). De regressiecoëfficiënt ‘b’ weerspiegelt de helling (''slope'') van de regressielijn, en geeft de gemiddelde toename van <math>Y</math> aan als de <math>X</math> variabele met 1 eenheid toeneemt.

[[Image:LineaireRegressie.png]]

==Hoe interpreteer ik mijn SPSS output bij gebruik van een enkelvoudig lineair model?==

Stel dat we in een steekproef van n=25 de [[correlatie|Pearson’s correlatie]] tussen de leeftijd van proefpersonen en hun lichaamsvetpercentage 0.81 is. We willen deze samenhang echter niet alleen beschrijven, maar op basis van de leeftijd van de persoon nu ook een voorspelling doen over zijn of haar lichaamsvetpercentage. Als we in [[statistische software#SPSS|SPSS]] in de schermen van de module Linear Regression de variabelen ‘vetpercentage’ als afhankelijke (''dependent'') variabele opgeven, en de variabele leeftijd als onafhankelijke (''independent''), dan zullen de volgende tabellen worden gegenereerd: Model Summary, ANOVA en Coeficients. NB: in de hierna volgende voorbeelden worden sommige SPSS tabellen in verkorte vorm weergegeven.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="5" align="center"|Model Summary
|-
|width="100"| Model
|width="100" style="background:#faecc8" | R
|width="100" style="background:#faecc8" | R square
|width="100" | Adjusted R square
|width="100" | SE of the estimate
|-
|align="left"|1
|align="right" style="background:#faecc8"| .821
|align="right" style="background:#faecc8"| .659
|align="right"|.645
|align="right"|6.3898
|-
|}

De tabel Model Summary geeft de [[correlatie|Pearson’s correlatie]] weer tussen de betreffende <math>X</math> en <math>Y</math> variabelen. De kolom 'R square' is een zogenaamde ''goodness-of-fit'' maat. Deze maat geeft uitdrukking aan hoe goed de geobserveerde data clusteren rond de geschatte regressielijn. In een enkelvoudige lineaire regressie is dat het kwadraat van de correlatie. De proportie wordt meestal in een percentage ‘verklaarde variantie’ uitgedrukt. In dit voorbeeld betekent R square dus dat de totale variatie in vetpercentages voor 66% verklaard kan worden door de lineaire regressie c.q. de verschillen in leeftijd.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="6" align="center"|ANOVA
|-
|width="100"| Model
|width="100" | Sum of squares
|width="100" | df
|width="100" | Mean Square
|style="background:#faecc8" width="100" | F
|style="background:#faecc8" width="100" | Sig.
|-
|align="left" width="100" | 1
|width="100" | 
|width="100" | 
|width="100" | 
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" | 
|-
|align="left" width="100" |Regression
|align="right" width="100" |1818,362
|align="right" width="100" |1
|align="right" width="100" |1818,362
|align="right" style="background:#faecc8" width="100" |44,535
|align="right" style="background:#faecc8" width="100" |,000
|-
|align="left" width="100" |Residuals
|align="right" width="100" |939,078
|align="right" width="100" |23
|align="right" width="100" |40,829
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" | 
|-
|align="left" width="100" |Total
|align="right" width="100" |2757,440
|align="right" width="100" |24
|width="100" | 
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" | 
|-
|}

De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënt b = 0 (‘er is geen samenhang tussen <math>X</math> en <math>Y</math>, dus de regressielijn loopt horizontaal - zonder helling - door de puntenwolk’). Uit de tabel kunnen we opmaken dat leeftijd een significante voorspeller is van het gemeten vetpercentage (regressiecoëfficiënt b ≠ 0). Of, anders geformuleerd, we kunnen concluderen dat het vetpercentages van de proefpersonen significant verklaard kunnen worden door hun verschillen in leeftijd.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="6" align="center"|Coefficients
|-
|colspan="2" width="100"| 
|colspan="2" style="background:#faecc8" align="center" width="100" | Unstandardized
coefficients
|width="100" | t
|width="100" | Sig.
|-
|model
|style="background:#faecc8" | 
|style="background:#faecc8" |B
|SE
| 
| 
|-
|rowspan="2" | 1
|align="left" style="background:#faecc8" |(Constant)
|align="right" style="background:#faecc8" |2,507
|align="right"|3,932
|align="right"|,638
|align="right"|,530
|-
|align="left" style="background:#faecc8" | Leeftijd
|align="right" style="background:#faecc8" | ,549
|align="right"| ,082
|align="right"|6,673
|align="right"|,000
|}
a. dependent variable: vetpercentage

De t-test in de derde tabel – Coefficients- geeft niet meer informatie dan hetgeen we al wisten uit de F-test in de ANOVA tabel, namelijk dat leeftijd een significante voorspeller is van het gemeten vetpercentage. In deze tabel wordt de lineaire vergelijking <math>Y = a + b\times X</math> weergegeven. De regressiecoëfficiënt a zien we (enigszins verwarrend in SPSS) staan onder de kolom B, rechts van de cel ‘Constant’, en heeft de waarde 2,51. Regressiecoëfficiënt b wordt ook onder de kolom B vermeld, rechts van de variabele ‘leeftijd’, en heeft de waarde 0,55. We kunnen nu de lineaire vergelijking als volgt invullen: vetpercentage = 2,51 + (0,55 <math>\times</math> leeftijd). Het verwachte vetpercentage van een proefpersoon van 60 jaar oud is dus: 2,507+ (0,549 <math>\times</math> 60) = 35,45%.

==Hoe werkt meervoudige lineaire regressie?==

Bij [[multivariabele regressie|meervoudige ('multiple' of 'multivariable')]] lineaire regressie zijn we geïnteresseerd in het gelijkertijd modelleren van twee of meer onafhankelijke variabelen. Je kunt je voorstellen dat niet alleen de leeftijd, maar ook het geslacht van de proefpersoon een bijdrage levert aan de voorspelling van zijn of haar vetpercentage. Ander voorbeeld: omdat er een associatie is tussen de lengte en het gewicht van een kind, willen we in een onderzoek naar de relatie tussen gewicht en systolische bloeddruk ook de lengte van het kind in de statische analyse betrekken. Kortom, we passen meervoudige lineaire regressie toe om:
#de waarde van een afhankelijke variabele te voorpellen met (te verklaren uit) een set van onafhankelijke variabelen, en/of
#na te gaan in welke mate een onafhankelijke <math>X</math> variabele lineair gerelateerd is aan de afhankelijke <math>Y</math> variabele, rekening houdend met (geadjusteerd voor) de invloed van andere <math>X</math> variabelen.

In de meervoudige lineaire regressievergelijking

<math>Y = a + b_1\times X_1+b_2\times X_2+\ldots+b_k\times X_k + \epsilon </math>

zijn <math>X_i, (i = 1,2,\ldots,k),</math> de verklarende variabelen of covariaten, is <math>Y</math> de afhankelijk variabele, en vormen <math>b_1, b_2, \ldots, b_k</math> de (partiële) regressiecoëfficiënten; <math>\epsilon</math> is representeerd weer de residuele fout (de afstand van de datapunten tot de regressielijn). De coëfficiënt <math>b_1</math> geeft aan hoeveel <math>Y</math> toeneemt als <math>X_1</math> met één eenheid toeneemt, rekening houdend met (geadjusteerd voor) de invloed van de andere <math>X</math> variabelen door die constant te houden. Op deze wijze kunnen we dus de impact van <math>X_1</math> op <math>Y</math> analyseren onafhankelijk van de invloed van de andere <math>X</math> variabelen.

==Hoe interpreteer ik mijn SPSS output bij gebruik van een meervoudig lineair model?==
Laten we ervan uitgaan dat we bij 100 kinderen een onderzoek doen naar de relatie tussen gewicht en systolische bloeddruk. We weten dat er een relatie is tussen het gewicht en de lengte van een kind, en mogelijk speelt het geslacht ook een rol. In een meervoudig lineaire regressie analyseren we nu het effect van gewicht (kg), lengte (cm) en geslacht (0 = jongen; 1 = meisje).

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="4" align="center"| Model Summary
|-
|width="100"| Model
|width="100" | R
|width="100" | R square
|width="130" style="background:#faecc8" | Adjusted R square
|-
|align="left"|1
|align="right"|.564
|align="right"|.318
|align="right" style="background:#faecc8"| .297
|-
|}
a. Adjusted R square betekent dat bij berekening van de verklaarde variantie rekening is gehouden met het aantal verklarende variabelen in het model.

Uit de Model Summary komt naar voren dat de adjusted R square = 0,297. Met andere woorden; ongeveer 30% van de variatie in systolische bloeddruk kan verklaard worden door verschillen in gewicht, lengte en geslacht van de kinderen.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="6" align="center"|ANOVA
|-
|width="100"| Model
|width="100" | Sum of squares
|width="100" | df
|width="100" | Mean Square
|style="background:#faecc8" width="100" | F
|style="background:#faecc8" width="100" | Sig.
|-
|align="left" width="100" | 1
|width="100" |  
|width="100" |  
|width="100" |  
|style="background:#faecc8" width="100" |  
|style="background:#faecc8" width="100" |  
|-
|width="100" align="left" |Regression
|align="right" width="100" |2804,045
|align="right" width="100" |3
|align="right" width="100" |934,682
|align="right" style="background:#faecc8" width="100" |14,952
|align="right" style="background:#faecc8" width="100" |,0001
|-
|width="100" align="left"|Residuals
|align="right" width="100" |6001,261
|align="right" width="100" |96
|align="right" width="100" |62,513
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" | 
|-
|width="100" align="left"|Total
|align="right" width="100" |8805,306
|align="right" width="100" |99
|width="100" | 
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" | 
|-
|}

De F-test in de ANOVA tabel toets de nulhypothese: regressiecoëfficiënten <math>b_i</math> zijn 0. Uit de analyse komt naar voren dat er een significante lineaire relatie is tussen de systolische bloeddruk en minstens één van de onafhankelijke <math>X</math> variabelen.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
!colspan="6" align="center"|Coefficients
|-
|colspan="2" width="100"|  
|colspan="2" style="background:#faecc8" | Unstandardized
coefficients
|width="100" | t
|width="100" | Sig.
|-
|width="100"|model
|style="background:#faecc8" width="100" | 
|style="background:#faecc8" width="100" |B
|width="100"| SE
| 
| 
|-
|rowspan="4" align="top" align="left"| 1
|style="background:#faecc8" align="left"|(Constant)
|align="right" style="background:#faecc8" |75,211
|align="right"|17,118
|align="right"|4,641
|align="right"|,0001
|-
|style="background:#faecc8" align="left"| Gewicht
|align="right" style="background:#faecc8" | 1,180
|align="right"|,261
|align="right"|4,512
|align="right"|,0001
|-
|style="background:#faecc8" align="left"| Lengte
|align="right" style="background:#faecc8" | -,031
|align="right"|,172
|align="right"|-,181
|align="right"|,857
|-
|style="background:#faecc8" align="left" | Geslacht
|align="right" style="background:#faecc8" | 4,230
|align="right"|1,611
|align="right"|2,626
|align="right"|,010
|}

De t-test laat zien dat de relatie tussen gewicht en systolische bloeddruk significant is (p < 0,001). Geadjusteerd voor de effecten van lengte en geslacht, leidt 1 kilogram gewichtstoename tot een gemiddelde systolische bloeddrukstijging van 1,18 mmHg. Geadjusteerd voor de invloeden van gewicht en geslacht is de relatie tussen lengte en systolische bloeddruk echter niet significant (p = 0,86). Er is ook een significante relatie (p = 0,01) tussen geslacht en bloeddruk: meisjes hebben - gemiddeld genomen – een 4,23 mmHg hogere systolische bloeddrukwaarde dan jongens, rekening houdend met verschillen in gewicht en lengte tussen kinderen. Kortom, gewicht en geslacht blijken onafhankelijke voorspellers te zijn van de systolische bloeddruk.
Met behulp van de gegeven regressiecoëfficiënten uit de tabel kunnen we de lineaire vergelijking verder invullen. Zo is de verwachte systolische bloeddruk van een meisje van 37 kg met een lengte van 115 cm: 75,21 + (1,18 <math>\times</math> 37) – (0,03 <math>\times</math> 115) + (4,23 <math>\times</math> 1) = 119,65 mmHg.

== Hoe interpreteer ik de resultaten van mijn lineaire model bij een log transformatie van de uitkomstmaat? ==

''Ik heb een vraag over de interpretatie van de B-waarden in mijn lineaire regressie analyse. De afhankelijke variable is namelijk een log-getransformeerde cortisolwaarde waardoor de B waarde (en wellicht ook de gestandaardiseerde Beta) moeilijker te interpreteren zijn. Ik heb daarom de B-waarden terug getransformeerd (Transformed B (EXP(B-waarde)) en krijg dan waarden rond de 1.
''Mijn vraag is nu: hoe leg ik de B-waardes uit tijdens de presentatie op een congres komende week? Normaal gesproken spreek je van bij 1 unit toename in de afhankelijke variabele van ...(B-waarde) afname in cortisol waarde. Zelf dacht ik dat bijvoorbeeld nu Transformed [EXP(beta)] = 0.97, CI (0.95-0.99), p = .027 nu uiteglegd kan worden als:bij iedere unit toename van de afhankelijke variabele geeft een afname van 3% in cortisol. Klopt dit?

Als je een linear model fit om het effect van X op de log-getransformeerde cortisolwaarde te beoordelen, ziet dat er als volgt uit:

log(cortisol) = intercept + B * X

Inderdaad, een unit toename in X geeft B toename van de log(cortisol). Als we dit terug willen vertalen naar "gewone" cortisolwaardes, gebruiken we de inverse van de log:

Exp(log(coritsol)) = exp (intercept + B*SRIP)

Dit is gelijk aan:

cortisol = exp ( intercept + B*SRIP)

Bekijken we nu het verschil in cortisolwaarden bij toename van 1 unit SRIP:

cortisol = exp ( intercept + B*X + B)

Dan is dit gebruik makend van de rekenregels gelijk aan

exp (intercept + B*X) * exp (B)

Nu is het eerste gedeelte van bovenstaande vergelijking precies gelijk aan de cortisolwaarde op het "beginpunt", dus inderdaad: een unit extra SRIP geeft vermenigvuldiging van de cortisolwaarde met de factor exp(B). En ook inderdaad: indien de exp(B) = 0.97, dan geeft vermenigvuldiging hiermee een afname van 3%.

Je interpretatie was dus juist. (In het bovenstaande ben ik wel vanuit gegaan dat de cortisol waardes met de natuurlijke logaritme getransformeerd zijn en niet bijvoorbeeld met een 10log).

Zie voor uitgebreidere uitleg over het interpreteren van regressiecoefficienten bij gebruik van een log transformatie deze pagina van [https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-are-log-transformed UCLA: Academic Technology Services, Statistical Consulting Group].

== Waar vind ik lineaire regressie in SPSS? ==

Je vindt lineaire regressie in SPSS 16 onder Analyze -> Regression -> Linear.

== Hoe geef ik categorische variabelen mee bij lineaire regressie in SPSS? ==

Voor het gebruiken van [[KEUZE TOETS#Van welk type is mijn data? |categorische variabelen]] als voorspeller in een lineair model moeten er in SPSS eerst dummy variabelen aangemaakt worden. Om bijvoorbeeld het effect van roken (met categorien 'no', 'previous' of 'current') op systolische bloeddruk te onderzoeken, moeten er twee dummy variabelen aangemaakt worden. Als we de groep die nooit gerookt heeft als referentie beschouwen, dan maken we een 0/1 variabele voor 'previous smoker' en een 0/1 variabele voor 'current smoker'. In het algemeen geldt: bij n categorien moeten n-1 dummy variabelen aangemaakt worden. In de output vinden we nu het voor het verschil previous vs no smoking en current vs no smoking de [[Lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressiecoefficient]] met bijhorende significantietest. Eventueel kan de "overall test" die weergeeft of de variabele roken uberhaupt bijdraagt aan het model verkregen worden door de voorspellers in twee blokken mee te geven aan het regressie model. Een blok met alle variabelen behalve roken en in een tweede blok de twee roken dummies toegevoegd. Als er bij 'Statistics' 'R squared change' staat aangevinkt, dan geeft SPSS ook een p-waarde behorend bij het toevoegen van alle drie de rook-categorien.

Alternatief kun je in plaats van de standaard ''Analyze -> Regression -> Linear'' procedure gebruik maken van de ''Analyze -> General Linear Model -> Univariate'' module. Hierin kun je aangeven wat de categorische variabelen zijn door deze als 'Fixed factor(s)' aan te duiden, de numerieke voorspellers meld je onder 'Covariate(s)'. Onder 'Model...' geef je vervolgens aan welke termen je in het model wilt, plus eventuele interacties. Vraag onder 'Options' om de parameter estimates om de gebruikelijke regressiecoeffcienten in de output te zien. Deze module doet hetzelfde als een gewone lineaire regressie, maar heeft meer opties/mogelijkheden die vaak niet van toepassing zijn.

==Mijn voorspeller is niet normaal verdeeld, kan ik nu nog lineaire regressie gebruiken?==

''Ik heb een onderzoek gedaan bij patienten met neurologische afwijking, deze patienten kunnen afwijkingen in de hersenen hebben. Daarom heb ik een MRI van de hersenen gemaakt en een aantal neuropsychologische testen gedaan. Ik wil onderzoeken of kinderen met véél afwijkingen ook slechter scoren op de neuropsychologische testen. De variabele die de MRI afwijkingen aangeeft is niet normaal verdeeld: de helft van de patienten heeft geen afwijkingen (afwijkscore is 0), de andere helft van de patienten heeft afwijkingsscore 5 tot >10.000. Het liefst zou ik een aantal lineaire regressies doen met als voorspeller de awfijkscore en als uitkomst telkens één van de neuropsychologische testen. Een deel van de neuropsychologische testen zijn afhankelijk van de leeftijd, die moet dan dus ook mee in het model als voorspeller. Ik twijfel of ik wel een (multipele) lineaire regressie mag doen gezien de scheve verdeling van de afwijkvariabele. [[KEUZE TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|Logtransformeren]] helpt wel iets maar dan nog is het niet normaal verdeeld. Is er nog een oplossing te vinden zodat ik wel de (multipele) lineaire regressie kan uitvoeren? Een alternatief is een simpel correlatie model maken, dat kan ik non-parameterisch mbv een [[Correlatie|Spearman's correlatie]] doen. Volgens mij mag ik dan gewoon de ongetransformeerde afwijkscore nemen als variabele en kijken wat de Spearman's correlatie is met de neuropsychologische testen. Klopt dat? Maar dan heb ik een probleem in die gevallen waarbij ik de leeftijd ook moet meenemen als variabele, dan moet ik partial correlations doen en dan leeftijd als 'controlling for' variabele meenemen. Maar dat is weer niet non-parametrisch, is er een manier om dat te omzeilen?

Heel sec bekeken hoeft de voorspeller in een lineaire regressie niet normaal verdeeld te zijn. Die voorwaarde geldt voor de uitkomstmaat (of eigenlijk voor de residuen van uitkomstmaat minus modelvoorspelling). Echter, als je de afwijkscore als numerieke covariaat in het model zou gebruiken, dan maak je wel een andere ferme aanname, namelijk dat iedere 1 punt toename in afwijkscore met een vaste toe- of afname op de uitkomsten van de neuropsychologische testen correspondeert. En dit is gezien de grote speiding in afwijkingswaarden waarschijnlijk niet realistisch. De schattingen in zo'n regressie zouden onevenredig zwaar beïnvloed worden door de patienten met >10000 score.

Een niet-parametrische [[Correlatie|Spearman correlatie]] berekenen kan inderdaad. Hierbij heb je zoals je zelf al aangeeft echter geen mogelijkheid tot corrigeren voor andere factoren (de partial correlaties zijn eigenlijk gewoon multipele lineaire regressies).

Wat je alternatief zou kunnen doen is het opdelen van de afwijkvariabele in categorien. Een grove indeling in wel of geen afwijking zou kunnen, of een meer fijnmazige in bijv 0, >0 tot 50, >500. Het liefst gebruik je 'logische afkappunten'. Let er wel op dat er nog een redelijk aantal patienten in ieder van de categorien valt om het schatbaar te houden. Een regressie met deze categorische variabele als voorspeller kan dan kijken of het behoren tot een andere categorie voorspellend is voor de testuitkomsten. Hierbij is het weer mogelijk te corrigeren voor andere factoren. Ook zou je kunnen proberen om dmv een transformatie de variabele minder scheef verdeeld te krijgen, bijvoorbeeld een [[KEUZE_TOETS#Hoe_kan_ik_in_SPSS_mijn_data_transformeren.3F|logtransformatie]].

== Referenties ==
[http://www.isqr.uni-freiburg.de/reginmed2011/interaction.pdf Course material on interaction and effect modification] from the web based distance learning course - Regression Models as a Tool in Medical Research - International School of Quantitative Research, University of Freiburg.

{{onderschrift}}

Multinomiale logistische regressie

2018-03-20T13:49:58Z

Nan van Geloven: /* Waar vind ik multinomiale logistische regressie in SPSS? */

Een multinomiaal logistische regressie model wordt gebruikt om het effect van voorspellers op een nominale uitkomstmaat te analyseren. De uitkomstmaat bestaat dus uit (meer dan twee) categorien, die niet een logische ordening hebben. Bijvoorbeeld in een onderzoek naar voorspellers van de gekozen behandeling bij hartpatienten, waarbij er drie opties zijn: 'PTCA', 'Bypass surgery' of 'Medication only'.

== Hebben wij een multinomiaal logistisch regressiemodel nodig?==

''We hebben een ordinale uitkomstmaat (tumorgraad 1,2,of 3) en een lineaire continue voorspeller (attenuatiecoefficient). Wij zouden graag een model ontwikkelen om obv de bekende attenuatiecoefficient te kunnen bepalen in welke categorie graad
deze tumor zal vallen. Onze gedachte was dat we hiervoor een multinomiale logistische
regressie moeten doen. Is dat juist en zijn er ook andere mogelijkheden?

Het is inderdaad mogelijk om met een multinomiaal logistisch regressiemodel het mogelijke effect van een continue voorspeller op een ordinale uitkomstmaat te analyseren. Let wel op het volgende: dit model houdt geen rekening met de geordendheid van de categorien. De tumorgraad 1 2 3 zou dus bij wijze van spreke ook rood groen blauw kunnen heten, zonder duidelijke volgorde. Indien het model graad 2 voorspelt ipv graad 3 is dit "evenveel fout" als het voorspellen van graad 1 ipv graad 3. Om ook met de geordendheid van de categorien rekening te houden, zou je een [[ordinale logistische regressie]] kunnen doen.

Bij beide modellen echter blijven de geschatte parameters altijd wat ver afstaan van de "klinische interpretatie" van het probleem. Jullie zouden daarom ook kunnen overwegen de assen om te draaien en -bijvoorbeeld in een (boxplotachtige) grafiek- de attenuatiecoefficient uit te zetten voor de drie verschillende groepen. Daarbij zou je met een [[One-way ANOVA|ANOVA]] / [[Kruskal Wallis]] het verschil tussen de drie groepen aan kunnen geven. Deze aanpak draait de relatie in zeker opzicht om, het berekent namelijk het verschil veroorzaakt door de tumorgroep in de uitkomstmaat attenuatiecoefficient. Maar de analysemethode is wel een stuk helderder/bekender. Let op: je loopt met deze aanpak vast als je ook andere predictors dan attenuatiecoefficient wilt meenemen in het model.

== Waar vind ik multinomiale logistische regressie in SPSS? ==

Je vindt multinomiale logistische regressie in SPSS onder Analyze -> Regression -> Multinomial Logistic. Zie bijvoorbeeld deze [https://stats.idre.ucla.edu/spss/output/multinomial-logistic-regression/ annotated output] van de UCLA voor uitleg hoe de output van deze procedure te interpreteren.

== Hoe voer ik multinomiale logistische regressie uit in [[Statistische_software#R|R]]? ==

In [[Statistische_software#R|R]] kun je voor het uitvoeren van een multinomiale logistische regressie bijvoorbeeld gebruik maken van de functie 'multinom' in de package 'nnet'.

==Referenties==

<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
<div>

Wiki Statistiek

2018-03-13T15:41:38Z

Nan van Geloven: Undo revision 2531 by Nan van Geloven (talk)

<div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek van het [https://www.amc.nl/ Academisch Medisch Centrum, Amsterdam.]'''</big></font></h2>

In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:

*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki.

*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Populaire pagina's'''

{| class="wikitable"
|-
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]
|-
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]
|-
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]
|-
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]
|-
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]
|}
</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">

'''Laatste toevoegingen:'''

*''[[Mann-Whitney_U_toets#Welke_effectmaat_kan_ik_rapporteren_als_ik_een_Mann-Whitney_U_toets_doe.3F | Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe?]]
*''[[Poweranalyse#Hoe_bereken_ik_de_steekproefgrootte_voor_een_studie_met_.C3.A9.C3.A9n_groep.2C_waarbij_de_uitkomst_een_proportie_is.3F | Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?]]
*''[[KEUZE_TOETS#Hoe_ga_ik_ermee_om_als_ik_veel_waarden_onder_of_boven_een_detectielimiet_heb.3F | Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?]]
*''[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictie_model_te_bouwen.3F | Hoeveel patienten heb ik nodig om een predictie model te bouwen?]]
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]
*''[[Meta-analyse#Hoe_kan_ik_een_meta-analyse_op_kwaliteit_van_leven_uitvoeren.3F | Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?]]
*''[[Meta-analyse#Kan_ik_medianen_poolen.3F | Kan ik in een systematische review medianen poolen?]]

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Over de wiki biostatistiek'''

De wiki biostatistiek is een initiatief van de [https://www.amc.nl/web/Research/ResearchAMC/Research-Support.htm AMC Clinical Research Unit]. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm AMC intranet site van de CRU] statistische ondersteuning aanvragen.

Heeft u opmerkingen over of wilt u meeschrijven aan de wikistatistiek? Neem dan [[meeschrijven | contact]] met ons op.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Meer leren over biostatistiek?'''

Volg dan de AMC e-learning Practical Biostatistics [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics] of bezoek de pagina met links naar [[cursusmateriaal|andere websites en cursussen]].
</div>

Wiki Statistiek

2018-03-13T15:39:40Z

Nan van Geloven:

<div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek van het [https://www.amc.nl/ Academisch Medisch Centrum, Amsterdam.]'''</big></font></h2>

In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:

*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki.

*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Populaire pagina's'''

{| class="wikitable"
|-
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]
|-
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]
|-
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]
|-
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]
|-
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]
|}
</div>

'''Laatste toevoegingen:'''

*''[[Mann-Whitney_U_toets#Welke_effectmaat_kan_ik_rapporteren_als_ik_een_Mann-Whitney_U_toets_doe.3F | Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe?]]
*''[[Poweranalyse#Hoe_bereken_ik_de_steekproefgrootte_voor_een_studie_met_.C3.A9.C3.A9n_groep.2C_waarbij_de_uitkomst_een_proportie_is.3F | Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?]]
*''[[KEUZE_TOETS#Hoe_ga_ik_ermee_om_als_ik_veel_waarden_onder_of_boven_een_detectielimiet_heb.3F | Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?]]
*''[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictie_model_te_bouwen.3F | Hoeveel patienten heb ik nodig om een predictie model te bouwen?]]
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]
*''[[Meta-analyse#Hoe_kan_ik_een_meta-analyse_op_kwaliteit_van_leven_uitvoeren.3F | Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?]]
*''[[Meta-analyse#Kan_ik_medianen_poolen.3F | Kan ik in een systematische review medianen poolen?]]

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Over de wiki biostatistiek'''

De wiki biostatistiek is een initiatief van de [https://www.amc.nl/web/Research/ResearchAMC/Research-Support.htm AMC Clinical Research Unit]. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm AMC intranet site van de CRU] statistische ondersteuning aanvragen.

Heeft u opmerkingen over of wilt u meeschrijven aan de wikistatistiek? Neem dan [[meeschrijven | contact]] met ons op.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Meer leren over biostatistiek?'''

Volg dan de AMC e-learning Practical Biostatistics [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics] of bezoek de pagina met links naar [[cursusmateriaal|andere websites en cursussen]].
</div>

Wiki Statistiek

2018-03-13T13:56:31Z

Nan van Geloven:

<div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek van het [https://www.amc.nl/ Academisch Medisch Centrum, Amsterdam.]'''</big></font></h2>

In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:

*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki.

*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Populaire pagina's'''

{| class="wikitable"
|-
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]
|-
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]
|-
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]
|-
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]
|-
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]
|}
</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Nieuws'''
*1 juli 2015 De wiki biostatistiek heeft een nieuwe url: [https://wikistatistiek.amc.nl https://wikistatistiek.amc.nl]. We raden u aan uw favorieten en bladwijzers aan te passen.
*anno 2015 ontvangt deze hoofdpagina zo'n 1000 bezoeken per week, en wordt er ~14000x per week doorgeklikt naar andere pagina's
*sinds jan 2010 is de wiki beschikbaar op internet

'''Laatste toevoegingen:'''

*''[[Mann-Whitney_U_toets#Welke_effectmaat_kan_ik_rapporteren_als_ik_een_Mann-Whitney_U_toets_doe.3F | Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe?]]
*''[[Poweranalyse#Hoe_bereken_ik_de_steekproefgrootte_voor_een_studie_met_.C3.A9.C3.A9n_groep.2C_waarbij_de_uitkomst_een_proportie_is.3F | Hoe bereken ik de steekproefgrootte voor een studie met één groep, waarbij de uitkomst een proportie is?]]
*''[[KEUZE_TOETS#Hoe_ga_ik_ermee_om_als_ik_veel_waarden_onder_of_boven_een_detectielimiet_heb.3F | Hoe ga ik ermee om als ik veel waarden onder of boven een detectielimiet heb?]]
*''[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictie_model_te_bouwen.3F | Hoeveel patienten heb ik nodig om een predictie model te bouwen?]]
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]
*''[[Meta-analyse#Hoe_kan_ik_een_meta-analyse_op_kwaliteit_van_leven_uitvoeren.3F | Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?]]
*''[[Meta-analyse#Kan_ik_medianen_poolen.3F | Kan ik in een systematische review medianen poolen?]]

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Over de wiki biostatistiek'''

De wiki biostatistiek is een initiatief van de [https://www.amc.nl/web/Research/ResearchAMC/Research-Support.htm AMC Clinical Research Unit]. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Medewerkers van het AMC kunnen via de [http://intranet.amc.nl/web/organisatie/domeinen/research/clinical-research-unit-cru/statistiek.htm AMC intranet site van de CRU] statistische ondersteuning aanvragen.

Heeft u opmerkingen over of wilt u meeschrijven aan de wikistatistiek? Neem dan [[meeschrijven | contact]] met ons op.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Meer leren over biostatistiek?'''

Volg dan de AMC e-learning Practical Biostatistics [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics] of bezoek de pagina met links naar [[cursusmateriaal|andere websites en cursussen]].
</div>

Mann-Whitney U toets

2018-03-13T13:53:25Z

Nan van Geloven: /* Waar vind ik de Mann-Whitney U toets in SPSS? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor=
}}
De Mann-Whitney U toets (ook wel Mann–Whitney–Wilcoxon, Wilcoxon rank-sum toets, of Wilcoxon–Mann–Whitney toets genoemd) is een niet-parametrische toets voor het vergelijken van een (semi-)continue variabele tussen twee onafhankelijke ([[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|ongepaarde]]) groepen.

== Wanneer gebruik ik de Mann-Whitney U toets? ==

Als je wilt toetsen of de waardes van een (semi-)continue variable verschillen tussen twee aparte groepen kun je de Mann-Whitney U toets gebruiken. Bijvoorbeeld als je wilt testen of het aantal behandelde lesies verschilt tussen twee armen van een studie.

De Mann-Whitney U toets wordt vaak gebruikt als alternatief voor de [[T-toets|ongepaarde t-toets]], omdat de Mann-Whitney geen normaal verdeelde data veronderstelt. De Mann-Whitney U toets mag altijd gebruikt worden, voor alle [[KEUZE TOETS#Van welk type is mijn uitkomstmaat?|ordinale]] data. Als de data toch normaal verdeeld zijn, zal de Mann-Whitney iets minder [[Poweranalyse|power]] hebben dan de [[T-toets|ongepaarde t-toets]] om een verschil tussen de twee groepen te bemerken.

Voorbeeld van het gebruik van de Mann-Whitney U toets:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="4" align="left"|Table 2. Procedural characteristics
|-
|align="left" |Variable*
|align="center"|Group A
|align="center"|Group B
|align="center"|p-value**
|-
|Number of lesions treated
|align="center" | 4 [2;5]
|align="center" | 3 [1;4]
|align="center" |0.45
|-
|Stent length (cm)
|align="center" | 2.2 [1.8;4.0]
|align="center" | 2.5 [1.7;3.8]
|align="center" |0.33
|-
|colspan="4" rowspan="2"| *Variables are denoted as median [inter quartile range]. **Group differences were tested with the Mann-Whitney U test.
|}

==Heb ik de juiste test gebruikt?==
''Wij voeren een onderzoek met als uitkomstmaat het percentages regressie (voor de behandeling is 100% en we kijken hoeveel er weg is na behandeling). Wij hebben twee groepen behandeld het hetzelfde apparaat maar met een andere methode. Ik wil graag weten of er een significant verschil zit tussen de twee groepen in de regressie-maat. Zodoende heb ik een paired-T-test gebruikt om te vergelijken.
''Mijn vragen zijn: 1. Moet de n van beide groepen gelijk zijn voor de test? SPSS maakt er 10 vs 10 van, terwijl het 13 vs 10 is. 2. Mag ik de groepen wel zo vergelijken? Ik heb aangenomen dat het standaard continue variabelen zijn.

1. De n hoeft zeker niet gelijk te zijn. Bij jou komt de 10 vs 10 omdat je, onterecht, een gepaarde t-test hebt gedaan: je vergelijkt immers 2 onafhankelijke patientengroepen.
2. Een vergelijking tussen de continue variabele bij 2 verschillende patientengroepen kan m.b.v. een independent t-test, mits de verdeling (ongeveer) normaal is en je niet te kleine aantallen hebt. Dan geef je je resultaten weer in gemiddelden en SD. Ik zie echter in je Excel-bestand 13 vs. 11 patienten, dus relatief weinig, en is de verdeling niet normaal: de mean en median waardes liggen uit elkaar. Dus kun je je resultaten het best weergeven als medianen en interkwartielbereiken (=interquartile ranges; 25-75ste percentiel) en non-parametrische statistiek gebruiken (Mann-Whitney test).

==Graphpad geeft mij een andere p-waarde voor de Mann-Whitney U toets dan SPSS, welke moet ik aanhouden?==

'' Ik heb een vraag over een discrepantie in uitslagen tussen GraphPad Prism enerzijds en SPSS statistics anderzijds. Voor de analyse van de data uit mijn pilot studie heb ik gebruik gemaakt van deze beide programma's. Zo vergeleek ik de uitkomst van mijn primaire uitkomst variabele tussen de groepen "Low risk" en "High risk". Het resultaat van de Mann Whitney volgens GraphPad is een p waarde van 0.0252, SPSS komt met een p waarde van 0.021. Hoewel dit verschil klein is krijg ik ook voor andere variabele steeds 2 (licht) verschillende resultaten. Ik vroeg mij af of jullie mij konden helpen achterhalen waar dat verschil in zit en welk van de 2 waardes ik aan zou moeten houden.

Gewoonlijk raad ik aan om de resultaten van [[statistische software#SPSS|SPSS]] meer te vertrouwen dan die van graphpad. Zie bijvoorbeeld deze [http://www.graphpad.com/faq/viewfaq.cfm?faq=416 melding] van eedere fouten in de Mann Whitney versie van [[statistische software#Graphpad|Graphpad]]. In dit geval echter blijkt dat na repliceren van de analyse in [[statistische software#R|R]] dat graphpad een continuiteitscorrectie gebruikt voor het berekenen van de p-waarde en SPSS een iets ruwere p-waarde zonder correctie geeft. Niet goed of fout, maar gezien jouw relatief kleine aantallen zou ik in Graphpad uitkomst met continuiteitscorrectie gebruiken. Dit geldt voor het geval waarbij er ties (gelijke waarden) zijn en Graphpad de 'asymptotic' - en niet exact - p-waarde rapporteert.

==Wat betekent de "missing analysis" regel die in de SPSS syntax verschijnt?==

''Ik doe een Mann Whitney U test in SPSS (via Analyze -> Non parametric tests -> Legacy dialogs -> 2 independent samples). Na het klikken op 'Paste' verschijnt er in de syntax een regel "/MISSING ANALYSIS". Er komt wel gewoon uitput van de analyse. Wat betekent deze code?

Je kunt bij het aansturen van de Mann-Whitney test onder 'options' kiezen voor hoe om te gaan met cases met missende waarden. SPSS biedt twee opties (uit de help file):
* Exclude cases test-by-test. When several tests are specified, each test is evaluated separately for missing values.
* Exclude cases listwise. Cases with missing values for any variable are excluded from all analyses.
De eerste is de standaardinstelling en komt in de syntax te staan als " /MISSING ANALYSIS". Het betekent dat als je meerdere uitkomstvariabelen hebt die je tussen twee groepen vergelijkt met de mann-whitney, dat er voor iedere uitkomstvariabele apart gekeken wordt naar welke cases met missende waardes niet mee kunnen doen. De tweede optie "/MISSING LISTWISE" zorgt ervoor dat bij alle testen de casussen met een missende waarde in 1 van de uitkomstvariabelen niet mee doen.

== Welke effectmaat kan ik rapporteren als ik een Mann-Whitney U toets doe? ==

''Het onderwerp van het onderzoek is compleetheid van de rapportage van een operatie. Ik onderscheid 5 facetten binnen rapportage. Om een indruk te geven per patiënt vat ik alle facetten samen in één score. Elke facet weegt even zwaar en een patiënt kan dus een score hebben van 0 (aan geen enkele facet voldaan) tot 5 (alle facetten zijn gerapporteerd). Nu wil ik de scores van twee onafhankelijke groepen vergelijken. De waardes zijn niet normaal verdeeld (gegeven het histogram en de Shapiro-Wilk test), dus zou ik de [[Mann-Whitney U toets]] gebruiken. Echter heb ik slecht zicht op de effectmaat (zoals ik dit wel mooi als het verschil tussen twee gemiddeldes bij een t-toets zou kunnen weergeven). Wat voor een effectmaat kan ik weergeven?

Je zou in deze situatie de ‘Hodges-Lehmann estimate of the median difference’ kunnen rapporteren.

== Waar vind ik de Mann-Whitney U toets in SPSS?==

Je vindt de test in SPSS onder Analyze->Non-parametric Tests-> (Legacy Dialogs) -> 2 Independent Samples of onder de wizard onder Analyze -> Non-parametrc Tests -> independent samples.

== Referenties ==

*[http://www.tqmp.org/Content/vol04-1/p013/p013.pdf Nadim Nachar. The Mann‐Whitney U, A Test for Assessing Whether Two Independent Samples Come from the Same Distribution. Tutorials in Quantitative Methods for Psychology 2008; vol. 4(1), p. 13‐20.]

{{onderschrift}}

Statistische software

2018-02-16T13:06:29Z

Nan van Geloven: /* Meta-analyses */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}

==Algemene statistische pakketten==

===SPSS===
SPSS (voluit: ''Statistical Package for the Social Sciences'') is verreweg het meest gebruikte pakket in het medisch onderzoek vanwege de gebruiksvriendelijkheid (bijna alle analyses zijn via menu's te starten).

*[http://habe.hogent.be/stat/default3.html SPSS handleiding - hoe om te gaan met SPSS] In deze handleiding van de hogeschool van Gent vind je alle basics van hoe het programma SPSS werkt. Bijvoorbeeld hoe je een net databestand opbouwt in SPSS.
*[https://wikistatistiek.amc.nl/images/Handleiding_voor_SPSS_20_%28versie_1.0%29.pdf Handleiding basisanalyses in SPSS] geschreven door Saskia le Cessie (LUMC) - Deze handleiding beperkt zich tot de binnen het medisch onderzoek meest gebruikte statistische methoden zoals beschrijvende statistiek, het maken van grafieken, de statistische methoden voor het vergelijken van twee of meer groepen waarnemingen, het berekenen van correlaties en het uitvoeren van lineaire, logistische en Cox proportional hazard regressie.

===R===
R is een vrij verkrijgbaar statistisch pakket te downloaden op [http://www.r-project.org/ http://www.r-project.org]. Ga naar Download -> CRAN, selecteer een 'mirror' en installeer het pakket. Omdat R een zogeheten open source structuur kent, zijn nieuwe statistische ontwikkeling direct beschikbaar via nieuwe downloadbare packages. Het is een zeer krachtig en flexibel pakket.

*Cursusmateriaal van het [http://www.bioinformaticslaboratory.nl/twiki/bin/view/BioLab/ComputinginR AMC Bioinformatics Laboratory].
*Gratis cursus [https://www.coursera.org/course/compdata 'Computing for Data Analysis' in R] van de Johns Hopkins Bloomberg School of Public Health.
*Introductiemanual : [http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf Simple statistical analyses in R.pdf]. Als je de eerste paar pagina's van deze manual doorloopt, weet je de basics van het pakket.
* [http://cran.r-project.org/doc/contrib/Short-refcard.pdf Short-refcard] Handige spiekkaart met veelgebruikte functies in R.
* Handig Youtube instructiefilmpjes over het importeren data uit SPSS in R: [http://youtu.be/gQTASLjgviE filmpje1], [http://youtu.be/jGPl8I6lSsM filmpje2], [http://youtu.be/9kImnwZHQyc filmpje3].
* Youtube kanaal [http://www.youtube.com/playlist?list=PLOU2XLYxmsIK9qQfztXeybpHvru-TrqAP 'Intro to R'].

===Stata===

===SAS===

==Randomisatie software==

Het heeft de voorkeur om de randomisatie van een RCT door een onafhankelijk persoon te laten gebeuren. Binnen het AMC ondersteunt de Clinical Research Unit randomisaties. Hiervoor wordt het programma [http://tenalea.net/tenalea-services-randomisation-and-registration-0 ALEA] gebruikt. ALEA is een door het Nederlands Kanker Instituut ontworpen applicatie. Dit systeem wordt momenteel door een consortium van 10 Europese universitair medische centra gebruikt. ALEA is gevalideerd voor toepassing in GCP trials. Met ALEA kun je de randomisatie procedure online uitvoeren. Bij inclusie van een nieuwe patient kan via het web opgevraagd worden naar welke studiearm deze patient gerandomiseerd is. Patiënten worden via de ALEA website gerandomiseerd in een eigen afgeschermde studie implementatie. Met ALEA kunnen alle typen gerandomiseerde studies ondersteund worden. De implementatie van de randomisatie van een RCT in ALEA gaat via de afdeling [http://www.amc-cru.nl/klinischonderzoek.aspx datamanagement van de CRU (AMC intranet)].

==Steekproefgrootte berekeningen en power analyses==

===nQuery Advisor===
Voor het berekenen van [[poweranalyse|sample sizes]] is binnen het AMC het programma nQuery Advisor beschikbaar. nQuery is een gevalideerd en gebruikersvriendelijk programma dat de mogelijkheid biedt om voor diverse onderzoeksdesigns en type data de gewenste groepsgrootte en statistische power te berekenen. nQuery, inclusief instructies voor het downloaden, vind je op de CRU-website onder de link [http://www.amc-cru.nl/tools.aspx?panel=SOF Tools (AMC intranet)]. Je kunt nQuery ook direct installeren vanuit je AMC computer (via Start -> Alle Programma's -> Extra Software installeren).

Op de [http://www.statistical-solutions-software.com/products-page/nquery-advisor-sample-size-software/ website van nQuery] vind je een introductie filmpje om het programma te leren kennen.

===PASS===
PASS is een alternatief programma voor het berekenen van [[poweranalyse|sample sizes]]. Het ondersteunt meer verschillende designs dan nQuery. Een gratis trialversie van het programma is te downloaden via [http://www.ncss.com/download/pass/free-trial/ de website van PASS].

==Meta-analyses==
De algemene pakketten om statistische analyses uit te voeren bieden in het algemeen geen voorgeprogrammeerde routines om meta-analyses uit te voeren.
*SPSS heeft geen voorgeprogrammeerde routines om meta-analyses uit te voeren. Op internet kom je verschillende syntax bestanden en macro's voor SPSS en Excel tegen. Als je hiervoor kiest, wees bewust dat deze de benodigde parameters vaak niet op de juiste manier berekenen.
*STATA heeft geen meta-analyse command, maar gebruikers van dit pakket hebben diverse packages hiervoor geschreven. Je kunt op de [http://www.stata.com/support/faqs/statistics/meta-analysis/ STATA website] meer hierover lezen.
*Er zijn diverse packages voor R om meta-analyses uit te voeren. Een goede beginpunt is de [http://cran.r-project.org/web/views/MetaAnalysis.html CRAN task view meta-analysis].

Er zijn ook diverse programma's die gericht zijn op het uitvoeren van een meta-analyse.
*[http://tech.cochrane.org/revman Review Manager (RevMan)] is een programma ontworpen om een Cochrane Review te schrijven en onthouden. Hiermee kan je verschillende typen meta-analyses uitvoeren. RevMan is in het AMC via de Centraal Digitale Werkplek zonder extra kosten beschikbaar.
*[http://www.cebm.brown.edu/openmeta/ OpenMeta[Analyst]] is een open source programma om meta-analyses uit te voeren. Zeer gebruiksvriendelijke interface.
* Een oude/verlopen versie van OpenMeta is [http://metaanalyst.software.informer.com/3.1b/ MetaAnalyst]. Let wel: voor succesvolle installatie is 1 extra stap nodig: "The operating system, being European, wants to use commas instead of decimals. It will have trouble parsing the conf file. Please go to the MetaAnalyst directory (e.g., C:\Program Files\MetaAnalyst) and open the file "ma.conf" in any text editor (e.g., notepad). Where it now reads: "ci = .95" change it to: "ci = ,95". Save the file as ma.conf and it will work."

==Overige software en links==

===Confidence Interval Analysis===
Het programma Confidence Interval Analysis (CIA), behorend bij het boek "Statistics with confidence" is helemaal gewijd aan het berekenen van betrouwbaarheidsintervallen. Er is een simpele versie van CIA te downloaden vanaf de CRU website onder [http://www.amc-cru.nl/tools.aspx Tools (AMC intranet)].

===Statpages===
[http://statpages.org/ http://statpages.org] Een overzichtsite met links naar honderden pagina's met gratis statistische software op het internet.

{{onderschrift}}

User:Nan van Geloven

2018-01-25T15:35:15Z

Nan van Geloven:

dr. ir. Nan van Geloven (1982) is initiatiefnemer van de wiki biostatistiek en modereert de pagina's. Zij werkt als assistant professor biostatistiek bij de [https://www.lumc.nl/org/bds/ afdeling Biomedical Data Sciences van het LUMC]. U kunt contact opnemen met Nan van Geloven via e-mail: n.van_geloven@lumc.nl.

User:Nan van Geloven

2018-01-25T15:33:21Z

Nan van Geloven:

dr. ir. Nan van Geloven (1982) is initiatiefnemer van de wiki biostatistiek en modereert de pagina's. Zij werkt als assistant professor biostatistiek bij de [www.lumc.nl/org/bds afdeling Biomedical Data Sciences van het LUMC]. U kunt contact opnemen met Nan van Geloven via e-mail: n.van_geloven@lumc.nl.

Herhaalde metingen

2017-05-12T07:52:40Z

Nan van Geloven: /* Informatie op andere websites */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor= prof. dr. A.H. Zwinderman
}}
==Wat zijn herhaalde metingen?==

Herhaalde metingen zijn meerdere metingen van dezelfde variabele bij dezelfde persoon, patient, proefdier, of algemeen geformuleerd, dezelfde observationele eenheid. Voorbeelden:

*'''herhaling in de tijd''': als patienten herhaaldelijk in een follow-up periode worden gemeten (of: voor en na een behandeling);
*'''meerdere locaties''': metingen op meerdere locaties in het lichaam van dezelfde persoon (linker en rechter oog, meerdere coupes in een biopt, meerdere slices in een MRI beeld);
*'''meerdere condities''': als dezelfde patient onder twee of meer verschillende condities (bijv. behandelingen) wordt gemeten, bijvoorbeeld bij een cross-over studie;
*'''herhalingen tbv nauwkeurigheid''': als een meting een grote variatie binnen een persoon heeft (of een grote meetfout) dan kan het zinvol zijn om een aantal aparte metingen te doen;
*'''multilevel structuren''': als metingen bij meerdere personen gedaan zijn die onderdeel uitmaken van dezelfde groep. Bijvoorbeeld patienten die dezelfde huisarts hebben, waarbij de interventie per huisartspraktijk is uitgevoerd. Het klassieke voorbeeld hier zijn leerlingen die dezelfde docent hebben en docenten die weer bij eenzelfde school horen.

==Waarom kun je bij herhaalde metingen geen standaard regressie model gebruiken?==

Bij een standaard regressie model wordt aangenomen dat alle metingen onafhankelijk van elkaar zijn. Bij herhaalde metingen is het waarschijnlijk dat twee metingen van dezelfde persoon meer op elkaar lijken dan twee metingen van verschillende personen. Als dat zo is, dan zijn de metingen binnen dezelfde persoon niet onafhankelijk. Als bij herhaalde metingen geen rekening wordt gehouden met deze afhankelijkheid, dan zijn i.h.a. de standaard fouten en de p-waardes (onterecht!) te klein.
Bovendien kan de uitkomst van de regressie analyse volkomen fout zijn, zoals geïllustreerd in het plaatje dat hieronder staat. In deze figuur worden de observaties van 12 personen getoond en elke persoon laat een duidelijk stijgende trend zien. Als de afhankelijkheid van de waarnemingen genegeerd wordt, dan is de best passende regressie lijn door de totale punten-wolk de oranje dalende lijn en deze geeft geen correcte weergave van de trend per patiënt.

[[Image:14189829-0.jpg|500px]]

==Welke analyses zijn er mogelijk voor herhaalde metingen?==

*'''Simpele methodes''': Soms kunnen herhaalde metingen samengevat worden in een enkele relevante maat. Je kunt bijvoorbeeld de meting van slechts een tijdpunt gebruiken, de verandering tussen twee meetpunten gebruiken, een samenvattende maat zoals het gemiddelde of de [[herhaalde metingen#area under the curve| area under the curve]] uitrekenen, of de tijd tot het bereiken van een bepaald level analyseren in een [[survival analyse]].
*'''Geavanceerde methodes''': Methodes die wel herhaalde metingen aankunnen zijn o.a. [[herhaalde metingen#mixed models|mixed models]], [[herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] en Generalized Estimation Equations (GEE).

De simpele methodes gebruiken maar een deel van de verzamelde informatie en dat levert vaak minder onderscheidingsvermogen (power) op.
Repeated measurements ANOVA is een specifieke variant van mixed-models, maar is alleen beschikbaar voor [[KEUZE TOETS#Van welk type is mijn data?|continue normaal verdeelde]] afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patienten.
Mixed-models en GEE-modellen zijn wat lastiger te specificeren, maar zijn flexibeler en zijn beschikbaar voor zowel continue normaal verdeelde afhankelijke variabelen, als voor bijv [[KEUZE TOETS#Van welk type is mijn data?|dichotome]] afhankelijke variabelen. Bovendien kunnen de mixed modellen ook omgaan met een zekere mate van [[missing values]], namelijk wanneer de data [[missing values#Welke soorten missing values zijn er?|missing at random]] zijn.

=area under the curve=

==Wat is een area under the curve en wanneer kun je die gebruiken?==
Wanneer er op meerdere tijdstippen metingen zijn van een patient, kun je die samenvatten in een "area under the curve". Hierbij bereken je per patient de oppervlakte onder de gemeten punten in de tijd. Deze samenvattende maat gebruik je vervolgens voor de analyse.

==Hoe bereken ik met SPSS een area under the curve bij herhaalde metingen?==
''Ik wil graag van een bepaalde meting in de tijd, op verschillende tijdstippen gemeten, de 'area under the curve' bepalen. Ik kom er met SPSS niet uit. Ik moet er nl een stuk of 300 bepalen... heeft u nog een advies?

Je kunt de volgende [[Media: Syntax_for_calculating_AUC.doc | syntax ]] gebruiken, deze rekent per patient een area under the curve uit. Bovenaan het document staat beschreven hoe je de variabelen in SPSS moet hebben staan.

=mixed models=
Mixed models kunnen op meerdere manieren gespecificeerd worden. Het is zinvol om een onderscheid te maken tussen
#onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
#onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten.

====Situatie 1: herhaalde metingen op dezelfde momenten====

Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard [[lineaire regressie| lineair model]]. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:

<math>Y_{i,t} = a + b \times X_{i,t} + \epsilon_{i,t}</math>

waarbij <math>Y_{i,t}</math> de meting van de <math>i^{de}</math> patient is op het <math>t^{de}</math> tijdstip (conditie); <math>X_{i,t}</math> is de meting van de covariaat op dat moment en <math>\epsilon_{i,t}</math> is de afstand (of: ''residu'') van de datapunten tot de [[lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressielijn]]. Bij een standaard [[lineaire regressie]] zijn al deze residuen onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen.
Bij een mixed model wordt rekening gehouden met de [[correlatie|correlaties]] tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:
*compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
*unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;

Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.

Deze eerste soort uitbreiding van het standaard lineaire model wordt ook wel 'Generalized Least Squares Model' genoemd.

====Situatie 2: herhaalde metingen op verschillende momenten====

Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het [[lineaire regressie|lineaire model]] op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben ten opzichte van de regressielijn. Hierbij maakt het niet uit hoe vaak en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm ziet dit er als volgt uit:

<math>Y_{i,t} = (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} </math>

waarbij de nu toegevoegde <math>\alpha_i</math> en <math>\beta_i</math> de specifieke afwijkingen van patient <math>i</math> t.o.v. de regressielijn voorstellen. De <math>\alpha_i</math> is de afwijking van de intercept van patient <math>i</math> ten opzichte van de gemiddelde [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|intercept]] <math>a</math>. De <math>\beta_i</math> is de afwijking van de [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|helling]] (''slope'') van patient <math>i</math> ten opzichte van de gemiddelde helling <math>b</math> van de regressielijn. De <math>\alpha's</math> en <math>\beta's</math> worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat.
De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.

Deze tweede soort modellen wordt vaak aangeduid als 'Random Effect Models'.

== Waar vind ik linear mixed models in SPSS?==
Je vindt de linear mixed models in SPSS 16 onder Analyze->Mixed models->Linear. T/m [[statistische software#SPSS|SPSS 18]] is er alleen nog een mixed model beschikbaar voor continue (normaal verdeelde) uitkomsten. Vanaf [[statistische software#SPSS|SPSS 19]] biedt SPSS ook procedures aan voor andere typen uitkomsten zoals dichotome variabelen. Deze vind je onder Analyze -> Mixed Models -> Generalized. In andere pakketten zoals [[statistische software#R|R]] (package 'nlme' en package 'lme4'), Stata ([http://www.gllamm.org GLAMM]) en [[statistische software#SAS|SAS]] zijn er ook mixed modellen beschikbaar voor verschillende typen uitkomstmaten.

Let op: om een mixed model in SPSS te kunnen draaien moeten de data onder elkaar gestructureerd staan, waarbij iedere meting op een rij staat en er meerdere rijen zijn die bij dezelfde patient horen. In deze [http://www.spss.ch/upload/1126184451_Linear%20Mixed%20Effects%20Modeling%20in%20SPSS.pdf SPSS handleiding] staat stap voor stap beschreven hoe data te restructureren is in het gewenste format voor mixed models. Als er drie herhaalde metingen van drie patienten zijn, ziet het resultaat er bijvoorbeeld zo uit:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! metingnr !! meting
|-
|align="center"| 1
|align="center"| 1
|align="center"| 10
|-
|align="center"| 1
|align="center"| 2
|align="center"| 9
|-
|align="center"| 1
|align="center"| 3
|align="center"| 11
|-
|align="center"| 2
|align="center"| 1
|align="center"| 8
|-
|align="center"| 2
|align="center"| 2
|align="center"| 11
|-
|align="center"| 2
|align="center"| 3
|align="center"| 12
|-
|align="center"| 3
|align="center"| 1
|align="center"| 5
|-
|align="center"| 3
|align="center"| 2
|align="center"| 8
|-
|align="center"| 3
|align="center"| 3
|align="center"| 9
|-
|}

De hierboven beschreven 'situatie 1' modellering gebeurt in SPSS middels het specificeren van de 'Repeated' (+bijbehorende repeated covariance type) in het eerste panel van de mixed procedure. De in 'situatie 2' besproken modellering wordt gespecificeerd onder de 'Random...' knop (let op: random intercept staat by default uit, bij covariance type kan correlatie tussen de random effects gespecificeerd worden). Vaak is het gebruik van 1 van beide opties (danwel repeated danwel random) voldoende om de correlatie in de data op te vangen. Gebruik maken van beide opties kan wel, maar zal soms leiden tot overbodige parameters.

==Voorbeeld: hoe analyseer ik met een mixed model een effect in de tijd?==
''Ik onderzoek een groep patienten die een operatie hebben ondergaan. We zijn geinteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 mnd daarna (dit klopt ook als je de data in een barplot zet). In eerste instantie heb ik de ANOVA for repeated measures gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn [[Media:voorbeeld_mixed_model_spss.doc|syntax]]) te doen. Mijn vragen hierover:

''1. Heb ik de juiste covariance structure gebruikt? (nl. AR1)

''2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?

''3. Hoe geef de resultaten van deze mixed analyse weer?

1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).

2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.

3. In de output vind je onder "fixed effects" een B die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de B's.

== Wat is het verschil tussen een mixed model en een GEE model?==

''Ik heb een mixed model gebruikt omdat ik wil corrigeren voor de familieverbanden tussen mijn patienten. In een paper met een soortgelijke analyse zie ik echter dat er een GEE model is gebruikt. Welke moet ik hebben en wat is het verschil?

Beide modellen, een mixed model en een GEE model, kunnen corrigeren voor familieverbanden (of andere herhaalde metingen structuren). Een GEE (generalized estimation equations), ook wel genoemd marginaal model, negeert de correlaties tussen de herhaalde metingen in dezelfde familie, maar corrigeert de [[standaardfout/standard error|standaardfouten]] van de regressie coëfficiënten door robuuste [[standaardfout/standard error|standaardfouten]] te berekenen. Een mixed model, ook wel conditioneel model, of ook wel random-effects model modelleert de correlaties tussen de herhaalde metingen in dezelfde familie door een random-effect per familie in het model te includeren. De herhaalde metingen in een familie hebben die random-effects parameter gezamenlijk en dat maakt dat die metingen correleren. De volgende pagina van [http://www.theanalysisfactor.com/extensions-general-linear-model/ The analysis factor] geeft een helder overzicht van de overeenkomst/verschillen tussen verschillende modellen die je kunt gebruiken voor herhaalde metingen.

==Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?==

''Het valt me op dat hier maar weinig over te vinden is op Pubmed, en als er al wat is, is het heel wisselend. Ik heb bijvoorbeeld een artikel gevonden waarin ze alleen maar de Beta coefficient met bijbehorende p-waarde geven. Maar ik wil toch graag ook wel de mean (±SD) weergeven. Is het gebruikelijk dat per cluster te doen? Of bijvoorbeeld toch een mean (±SD) per groep?

Je zou de ruwe data (mean +sd) kunnen presenteren voor iedere groep. Hier is de (cluster)correctie van het mixed model echter nog niet in meegenomen. Alternatief kun je de estimated marginal means (+ conf interval) uit het model per groep rapporteren, deze zijn 'gecorrigeerd' voor de clusters/correlaties. Deze kun je ook opvragen in SPSS.

=repeated measurements ANOVA=
Repeated measurements ANOVA is een wat oudere term voor speciale vormen van mixed-models voor het analyseren van herhaalde metingen van een kwantitatieve afhankelijke variabele die normaal verdeeld is. Binnen het SPSS pakket wordt deze techniek aangeduid als GLM - repeated. Zoals eerder opgemerkt is deze procedure specifieke variant van mixed-models, maar is alleen beschikbaar voor continue normaal verdeelde afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patiënten.

Repeated measures ANOVA zoals in SPSS geimplementeerd, geeft twee soorten analyses, namelijk onder de aanname dat de correlaties tussen de herhaalde metingen allemaal dezelfde waarde hebben (compound symmetry) of zonder aannames over de correlaties (unstructured). In de SPSS output worden de compound-symmetry resultaten onder het kopje Tests of Within-Subjects Effects gerapporteerd en de unstructured resultaten onder het kopje Multivariate Tests. Wel handig is dat Mauchly's Test of Sphericity wordt gegeven; dat is een statistische toets van de nulhypothese dat de compound symmetry aanname klopt (kleine p-waardes van deze test zijn een indicatie dat compound symmetry niet goed past bij de data). Als sphericity (i.e. compound symmetry) wordt verworpen, dan kunnen ofwel de multivariate toets resultaten gebruikt worden, ofwel een Greenhouse-Geisser of een Huynh-Feldt correctie worden toegepast op de Tests of Within-Subjects Effects.

==Wanneer kan ik een repeated measurements ANOVA gebruiken?==

Je kunt een repeated measurements ANOVA gebruiken als:
* de afhankelijke variabele continue is en (per level van de onafhankelijke voorspeller) normaal verdeeld is,
* de herhaalde metingen op vaste tijdstippen in alle patienten zijn gedaan,
* er geen missende waardes zijn.

==Hoe kan ik post hoc testen doen bij een two-way repeated measures anova?==

''Ik heb twee onafhankelijke groepen (patient/controle is between subject factor) waarbij bij beide op 5 tijdsmomenten data is verzameld (5 timepoints als within subject factor). Nu run ik een two-way repeated measures anova om het interactie effect tussen groep en tijd te bekijken. Indien dit significant is wil ik graag weten op welke tijdsmomenten de controle groep verschilde van de patient groep. Er is geen optie in SPSS om een Tukey post hoc test te doen. Mag je in deze situatie een independent t-test gebruiken op ieder tijdstip om te bepalen op welke verschillende tijdsmomenten de twee groepen met elkaar verschilden?

''Zo niet, dan wil ik graag een Tukey met de hand uitrekenen, dit heb ik al wel gedaan voor de one-way repeated measures anova waarin ik bij de patient groep heb gekeken op welke tijdsmomenten de data verschilde met de data van de baseline meting. Maar kan je dit ook doen bij een two way anova met 2 onafhankelijke groepen?

Je kunt de losse (t-)testen doen (t0 patient minus t0 controle, t1 patient minus t1 controle etc.). En vervolgens moet je de uitkomsten van die testen corrigeren voor het feit dat je [[multiple testing|multiple comparisons]] doet. Ik zou daar zelf niet direct zien hoe Tukey toe te passen, omdat je daarbij uitgaat van een aantal means met hypothese dat ze allemaal (aan elkaar) gelijk zijn. Nu is het een ander geval, namelijk je wilt kijken of de means telkens 2 aan 2 gelijk aan elkaar zijn. Ik zou daarom een andere correctiemethode gebruiken (zoals [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni]] of [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni-Holms]]).

Let bij je eerdere analyse (post hoc op de within factor) ook goed op dat je de vergelijkingen wel gepaard uitvoert. Overigens kun je deze (within) vergelijking wel door spss laten doen. Namelijk door onder 'Options' de factor 'tijd' naar 'Display means for' te brengen en dan 'compare main effects' aan te klikken, met gewenste correctiemethode.

Op deze [http://www.uvm.edu/~dhowell/StatPages/More_Stuff/RepMeasMultComp/RepMeasMultComp.html site van David Howell] staan zeer veel adviezen over de zin en onzin van post hoc tests bij repeated measurements ANOVA's.

== Waar vind ik de repeated measurements ANOVA in SPSS?==

Je vindt de repeated measurements ANOVA in SPSS 16 onder Analyze->General Linear Model->Repeated measures.

Er geldt voor de repeated measurements ANOVA dat de herhaalde metingen van de patienten in aparte kolommen naast elkaar in de SPSS file moeten staan. Stel dat er drie herhaalde metingen van drie patienten zijn, dan ziet de data file er als volgt uit met vier kolommen:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! meting1 !! meting2 !! meting3
|-
|align="center"| 1
|align="center"| 10
|align="center"| 9
|align="center"| 11
|-
|align="center"| 2
|align="center"| 8
|align="center"| 11
|align="center"| 12
|-
|align="center"| 3
|align="center"| 5
|align="center"| 8
|align="center"| 9
|-
|}

= Hoe kan ik data van 4 experimenten combineren? =

''De experimenten die ik verricht, heb ik in 4 sessies opgesplitst, aangezien het niet behapbaar was alle samples in een keer te verwerken. Nu blijkt dat de vergelijkingsgroepen (verschillende diagnoses) binnen elke serie toch wel erg klein zijn en vraag ik me af of en hoe ik de data van de 4 series zou kunnen combineren.

Wat wel gebruikt wordt bij zulk soort settings is het toepassen van een factor correctie. Zie ook de referentie naar de paper van Ruijter <cite>[Ruijter2006]</cite> onderaan op deze pagina. Je kunt ook binnen een statistisch model een correctie voor de 'clustering' binnen sessies meenemen, bijvoorbeeld door een [[herhaalde metingen#mixed models|mixed]] of [[herhaalde metingen#repeated measurements ANOVA|glm-repeated]] analyse te doen. Je beschouwt de experimenten dan als 'herhaalde metingen' binnen een sessie.

== Wat is het minimaal aantal observaties bij het gebruik van een mixed-effects model? ==
'Hoeveel datapunten (clusters en/of patiënten) heb ik nodig als ik een mixed-effects model wil gebruiken?'

[http://dx.doi.org/10.1186/1471-2288-7-34 Deze paper] geeft wat houvast bij binaire uitkomsten. En [http://dx.doi.org/10.1027/1614-2241.1.3.86 Deze paper] bij continue uitkomsten.

= Referenties =
<biblio>
#Gueorguieva2004 Gueorguieva R, Krystal JH. Move Over ANOVA: Progress in Analyzing Repeated-Measures Data and Its Reflection in Papers Published in the Archives of General Psychiatry. Arch Gen Psychiatry. 2004 Mar;61(3):310-7. [http://archpsyc.ama-assn.org/cgi/reprint/61/3/310]

#Ruijter2006 Ruijter JM, Thygesen HH, Schoneveld OJ, Das AT, Berkhout B, Lamers WH, Factor correction as a tool to eliminate between-session variation in replicate experiments: application to molecular biology and retrovirology, Retrovirology. 2006 Jan 6;3:2. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16398936]

#West BT, Analyzing Longitudinal Data With the Linear Mixed Models Procedure in SPSS. Eval Health Prof 2009 32: 207-228. [http://ehp.sagepub.com/content/32/3/207.full.pdf]
</biblio>

=Informatie op andere websites=
*Deze post van Jonathan Bartlett over [http://thestatsgeek.com/2017/05/11/odds-ratios-collapsibility-marginal-vs-conditional-gee-vs-glmms/ Odds ratios, collapsibility, marginal vs. conditional, GEE vs GLMMs ] geeft aan wat het verschil is tussen GEE en GLMM (mixed model) aanpak bij binaire uitkomsten.
*[http://www.cscu.cornell.edu/news/statnews/stnews76.pdf GEE newsletter] van Cornell Statistical Consulting Unit, Cornell University.
* [http://www.theanalysisfactor.com/repeated-and-random-2/ The analysis factor - The Repeated and Random Statements in Mixed Models for Repeated Measures] info over het onderscheid tussen de repeated en de random statement in SPSS mixed.
* [http://www.theanalysisfactor.com/repeated-measures-approaches/ The analysis factor] info over de verschillende aanpakken voor herhaalde metingen: repeated measurements anova, marginal model, mixed model.
* [http://www.floppybunny.org/robin/web/virtualclassroom/stats/course2.html Robin Beaumont Heath Informatics course material] Vrij te gebruiken cursusmateriaal over linear mixed models met uileg van specificatie in zowel SPSS als R, zie week 6 7 en 8. Inclusief bijbehorende Youtube instructiefilmpjes.

=Sofwaretips=
*[http://www.gllamm.org/ GLLAMM] Een familie functies (vrij te downloaden/attachen) in [[Statistische software#Stata|Stata]], waarbij er opties zijn voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).
*[http://tigger.uic.edu/~hedeker/mix.html SuperMix] Een standalone programma geschikt voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).

{{onderschrift}}

Herhaalde metingen

2017-05-12T07:46:37Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor= prof. dr. A.H. Zwinderman
}}
==Wat zijn herhaalde metingen?==

Herhaalde metingen zijn meerdere metingen van dezelfde variabele bij dezelfde persoon, patient, proefdier, of algemeen geformuleerd, dezelfde observationele eenheid. Voorbeelden:

*'''herhaling in de tijd''': als patienten herhaaldelijk in een follow-up periode worden gemeten (of: voor en na een behandeling);
*'''meerdere locaties''': metingen op meerdere locaties in het lichaam van dezelfde persoon (linker en rechter oog, meerdere coupes in een biopt, meerdere slices in een MRI beeld);
*'''meerdere condities''': als dezelfde patient onder twee of meer verschillende condities (bijv. behandelingen) wordt gemeten, bijvoorbeeld bij een cross-over studie;
*'''herhalingen tbv nauwkeurigheid''': als een meting een grote variatie binnen een persoon heeft (of een grote meetfout) dan kan het zinvol zijn om een aantal aparte metingen te doen;
*'''multilevel structuren''': als metingen bij meerdere personen gedaan zijn die onderdeel uitmaken van dezelfde groep. Bijvoorbeeld patienten die dezelfde huisarts hebben, waarbij de interventie per huisartspraktijk is uitgevoerd. Het klassieke voorbeeld hier zijn leerlingen die dezelfde docent hebben en docenten die weer bij eenzelfde school horen.

==Waarom kun je bij herhaalde metingen geen standaard regressie model gebruiken?==

Bij een standaard regressie model wordt aangenomen dat alle metingen onafhankelijk van elkaar zijn. Bij herhaalde metingen is het waarschijnlijk dat twee metingen van dezelfde persoon meer op elkaar lijken dan twee metingen van verschillende personen. Als dat zo is, dan zijn de metingen binnen dezelfde persoon niet onafhankelijk. Als bij herhaalde metingen geen rekening wordt gehouden met deze afhankelijkheid, dan zijn i.h.a. de standaard fouten en de p-waardes (onterecht!) te klein.
Bovendien kan de uitkomst van de regressie analyse volkomen fout zijn, zoals geïllustreerd in het plaatje dat hieronder staat. In deze figuur worden de observaties van 12 personen getoond en elke persoon laat een duidelijk stijgende trend zien. Als de afhankelijkheid van de waarnemingen genegeerd wordt, dan is de best passende regressie lijn door de totale punten-wolk de oranje dalende lijn en deze geeft geen correcte weergave van de trend per patiënt.

[[Image:14189829-0.jpg|500px]]

==Welke analyses zijn er mogelijk voor herhaalde metingen?==

*'''Simpele methodes''': Soms kunnen herhaalde metingen samengevat worden in een enkele relevante maat. Je kunt bijvoorbeeld de meting van slechts een tijdpunt gebruiken, de verandering tussen twee meetpunten gebruiken, een samenvattende maat zoals het gemiddelde of de [[herhaalde metingen#area under the curve| area under the curve]] uitrekenen, of de tijd tot het bereiken van een bepaald level analyseren in een [[survival analyse]].
*'''Geavanceerde methodes''': Methodes die wel herhaalde metingen aankunnen zijn o.a. [[herhaalde metingen#mixed models|mixed models]], [[herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] en Generalized Estimation Equations (GEE).

De simpele methodes gebruiken maar een deel van de verzamelde informatie en dat levert vaak minder onderscheidingsvermogen (power) op.
Repeated measurements ANOVA is een specifieke variant van mixed-models, maar is alleen beschikbaar voor [[KEUZE TOETS#Van welk type is mijn data?|continue normaal verdeelde]] afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patienten.
Mixed-models en GEE-modellen zijn wat lastiger te specificeren, maar zijn flexibeler en zijn beschikbaar voor zowel continue normaal verdeelde afhankelijke variabelen, als voor bijv [[KEUZE TOETS#Van welk type is mijn data?|dichotome]] afhankelijke variabelen. Bovendien kunnen de mixed modellen ook omgaan met een zekere mate van [[missing values]], namelijk wanneer de data [[missing values#Welke soorten missing values zijn er?|missing at random]] zijn.

=area under the curve=

==Wat is een area under the curve en wanneer kun je die gebruiken?==
Wanneer er op meerdere tijdstippen metingen zijn van een patient, kun je die samenvatten in een "area under the curve". Hierbij bereken je per patient de oppervlakte onder de gemeten punten in de tijd. Deze samenvattende maat gebruik je vervolgens voor de analyse.

==Hoe bereken ik met SPSS een area under the curve bij herhaalde metingen?==
''Ik wil graag van een bepaalde meting in de tijd, op verschillende tijdstippen gemeten, de 'area under the curve' bepalen. Ik kom er met SPSS niet uit. Ik moet er nl een stuk of 300 bepalen... heeft u nog een advies?

Je kunt de volgende [[Media: Syntax_for_calculating_AUC.doc | syntax ]] gebruiken, deze rekent per patient een area under the curve uit. Bovenaan het document staat beschreven hoe je de variabelen in SPSS moet hebben staan.

=mixed models=
Mixed models kunnen op meerdere manieren gespecificeerd worden. Het is zinvol om een onderscheid te maken tussen
#onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
#onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten.

====Situatie 1: herhaalde metingen op dezelfde momenten====

Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard [[lineaire regressie| lineair model]]. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:

<math>Y_{i,t} = a + b \times X_{i,t} + \epsilon_{i,t}</math>

waarbij <math>Y_{i,t}</math> de meting van de <math>i^{de}</math> patient is op het <math>t^{de}</math> tijdstip (conditie); <math>X_{i,t}</math> is de meting van de covariaat op dat moment en <math>\epsilon_{i,t}</math> is de afstand (of: ''residu'') van de datapunten tot de [[lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressielijn]]. Bij een standaard [[lineaire regressie]] zijn al deze residuen onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen.
Bij een mixed model wordt rekening gehouden met de [[correlatie|correlaties]] tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:
*compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
*unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;

Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.

Deze eerste soort uitbreiding van het standaard lineaire model wordt ook wel 'Generalized Least Squares Model' genoemd.

====Situatie 2: herhaalde metingen op verschillende momenten====

Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het [[lineaire regressie|lineaire model]] op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben ten opzichte van de regressielijn. Hierbij maakt het niet uit hoe vaak en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm ziet dit er als volgt uit:

<math>Y_{i,t} = (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} </math>

waarbij de nu toegevoegde <math>\alpha_i</math> en <math>\beta_i</math> de specifieke afwijkingen van patient <math>i</math> t.o.v. de regressielijn voorstellen. De <math>\alpha_i</math> is de afwijking van de intercept van patient <math>i</math> ten opzichte van de gemiddelde [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|intercept]] <math>a</math>. De <math>\beta_i</math> is de afwijking van de [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|helling]] (''slope'') van patient <math>i</math> ten opzichte van de gemiddelde helling <math>b</math> van de regressielijn. De <math>\alpha's</math> en <math>\beta's</math> worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat.
De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.

Deze tweede soort modellen wordt vaak aangeduid als 'Random Effect Models'.

== Waar vind ik linear mixed models in SPSS?==
Je vindt de linear mixed models in SPSS 16 onder Analyze->Mixed models->Linear. T/m [[statistische software#SPSS|SPSS 18]] is er alleen nog een mixed model beschikbaar voor continue (normaal verdeelde) uitkomsten. Vanaf [[statistische software#SPSS|SPSS 19]] biedt SPSS ook procedures aan voor andere typen uitkomsten zoals dichotome variabelen. Deze vind je onder Analyze -> Mixed Models -> Generalized. In andere pakketten zoals [[statistische software#R|R]] (package 'nlme' en package 'lme4'), Stata ([http://www.gllamm.org GLAMM]) en [[statistische software#SAS|SAS]] zijn er ook mixed modellen beschikbaar voor verschillende typen uitkomstmaten.

Let op: om een mixed model in SPSS te kunnen draaien moeten de data onder elkaar gestructureerd staan, waarbij iedere meting op een rij staat en er meerdere rijen zijn die bij dezelfde patient horen. In deze [http://www.spss.ch/upload/1126184451_Linear%20Mixed%20Effects%20Modeling%20in%20SPSS.pdf SPSS handleiding] staat stap voor stap beschreven hoe data te restructureren is in het gewenste format voor mixed models. Als er drie herhaalde metingen van drie patienten zijn, ziet het resultaat er bijvoorbeeld zo uit:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! metingnr !! meting
|-
|align="center"| 1
|align="center"| 1
|align="center"| 10
|-
|align="center"| 1
|align="center"| 2
|align="center"| 9
|-
|align="center"| 1
|align="center"| 3
|align="center"| 11
|-
|align="center"| 2
|align="center"| 1
|align="center"| 8
|-
|align="center"| 2
|align="center"| 2
|align="center"| 11
|-
|align="center"| 2
|align="center"| 3
|align="center"| 12
|-
|align="center"| 3
|align="center"| 1
|align="center"| 5
|-
|align="center"| 3
|align="center"| 2
|align="center"| 8
|-
|align="center"| 3
|align="center"| 3
|align="center"| 9
|-
|}

De hierboven beschreven 'situatie 1' modellering gebeurt in SPSS middels het specificeren van de 'Repeated' (+bijbehorende repeated covariance type) in het eerste panel van de mixed procedure. De in 'situatie 2' besproken modellering wordt gespecificeerd onder de 'Random...' knop (let op: random intercept staat by default uit, bij covariance type kan correlatie tussen de random effects gespecificeerd worden). Vaak is het gebruik van 1 van beide opties (danwel repeated danwel random) voldoende om de correlatie in de data op te vangen. Gebruik maken van beide opties kan wel, maar zal soms leiden tot overbodige parameters.

==Voorbeeld: hoe analyseer ik met een mixed model een effect in de tijd?==
''Ik onderzoek een groep patienten die een operatie hebben ondergaan. We zijn geinteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 mnd daarna (dit klopt ook als je de data in een barplot zet). In eerste instantie heb ik de ANOVA for repeated measures gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn [[Media:voorbeeld_mixed_model_spss.doc|syntax]]) te doen. Mijn vragen hierover:

''1. Heb ik de juiste covariance structure gebruikt? (nl. AR1)

''2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?

''3. Hoe geef de resultaten van deze mixed analyse weer?

1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).

2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.

3. In de output vind je onder "fixed effects" een B die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de B's.

== Wat is het verschil tussen een mixed model en een GEE model?==

''Ik heb een mixed model gebruikt omdat ik wil corrigeren voor de familieverbanden tussen mijn patienten. In een paper met een soortgelijke analyse zie ik echter dat er een GEE model is gebruikt. Welke moet ik hebben en wat is het verschil?

Beide modellen, een mixed model en een GEE model, kunnen corrigeren voor familieverbanden (of andere herhaalde metingen structuren). Een GEE (generalized estimation equations), ook wel genoemd marginaal model, negeert de correlaties tussen de herhaalde metingen in dezelfde familie, maar corrigeert de [[standaardfout/standard error|standaardfouten]] van de regressie coëfficiënten door robuuste [[standaardfout/standard error|standaardfouten]] te berekenen. Een mixed model, ook wel conditioneel model, of ook wel random-effects model modelleert de correlaties tussen de herhaalde metingen in dezelfde familie door een random-effect per familie in het model te includeren. De herhaalde metingen in een familie hebben die random-effects parameter gezamenlijk en dat maakt dat die metingen correleren. De volgende pagina van [http://www.theanalysisfactor.com/extensions-general-linear-model/ The analysis factor] geeft een helder overzicht van de overeenkomst/verschillen tussen verschillende modellen die je kunt gebruiken voor herhaalde metingen.

==Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?==

''Het valt me op dat hier maar weinig over te vinden is op Pubmed, en als er al wat is, is het heel wisselend. Ik heb bijvoorbeeld een artikel gevonden waarin ze alleen maar de Beta coefficient met bijbehorende p-waarde geven. Maar ik wil toch graag ook wel de mean (±SD) weergeven. Is het gebruikelijk dat per cluster te doen? Of bijvoorbeeld toch een mean (±SD) per groep?

Je zou de ruwe data (mean +sd) kunnen presenteren voor iedere groep. Hier is de (cluster)correctie van het mixed model echter nog niet in meegenomen. Alternatief kun je de estimated marginal means (+ conf interval) uit het model per groep rapporteren, deze zijn 'gecorrigeerd' voor de clusters/correlaties. Deze kun je ook opvragen in SPSS.

=repeated measurements ANOVA=
Repeated measurements ANOVA is een wat oudere term voor speciale vormen van mixed-models voor het analyseren van herhaalde metingen van een kwantitatieve afhankelijke variabele die normaal verdeeld is. Binnen het SPSS pakket wordt deze techniek aangeduid als GLM - repeated. Zoals eerder opgemerkt is deze procedure specifieke variant van mixed-models, maar is alleen beschikbaar voor continue normaal verdeelde afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patiënten.

Repeated measures ANOVA zoals in SPSS geimplementeerd, geeft twee soorten analyses, namelijk onder de aanname dat de correlaties tussen de herhaalde metingen allemaal dezelfde waarde hebben (compound symmetry) of zonder aannames over de correlaties (unstructured). In de SPSS output worden de compound-symmetry resultaten onder het kopje Tests of Within-Subjects Effects gerapporteerd en de unstructured resultaten onder het kopje Multivariate Tests. Wel handig is dat Mauchly's Test of Sphericity wordt gegeven; dat is een statistische toets van de nulhypothese dat de compound symmetry aanname klopt (kleine p-waardes van deze test zijn een indicatie dat compound symmetry niet goed past bij de data). Als sphericity (i.e. compound symmetry) wordt verworpen, dan kunnen ofwel de multivariate toets resultaten gebruikt worden, ofwel een Greenhouse-Geisser of een Huynh-Feldt correctie worden toegepast op de Tests of Within-Subjects Effects.

==Wanneer kan ik een repeated measurements ANOVA gebruiken?==

Je kunt een repeated measurements ANOVA gebruiken als:
* de afhankelijke variabele continue is en (per level van de onafhankelijke voorspeller) normaal verdeeld is,
* de herhaalde metingen op vaste tijdstippen in alle patienten zijn gedaan,
* er geen missende waardes zijn.

==Hoe kan ik post hoc testen doen bij een two-way repeated measures anova?==

''Ik heb twee onafhankelijke groepen (patient/controle is between subject factor) waarbij bij beide op 5 tijdsmomenten data is verzameld (5 timepoints als within subject factor). Nu run ik een two-way repeated measures anova om het interactie effect tussen groep en tijd te bekijken. Indien dit significant is wil ik graag weten op welke tijdsmomenten de controle groep verschilde van de patient groep. Er is geen optie in SPSS om een Tukey post hoc test te doen. Mag je in deze situatie een independent t-test gebruiken op ieder tijdstip om te bepalen op welke verschillende tijdsmomenten de twee groepen met elkaar verschilden?

''Zo niet, dan wil ik graag een Tukey met de hand uitrekenen, dit heb ik al wel gedaan voor de one-way repeated measures anova waarin ik bij de patient groep heb gekeken op welke tijdsmomenten de data verschilde met de data van de baseline meting. Maar kan je dit ook doen bij een two way anova met 2 onafhankelijke groepen?

Je kunt de losse (t-)testen doen (t0 patient minus t0 controle, t1 patient minus t1 controle etc.). En vervolgens moet je de uitkomsten van die testen corrigeren voor het feit dat je [[multiple testing|multiple comparisons]] doet. Ik zou daar zelf niet direct zien hoe Tukey toe te passen, omdat je daarbij uitgaat van een aantal means met hypothese dat ze allemaal (aan elkaar) gelijk zijn. Nu is het een ander geval, namelijk je wilt kijken of de means telkens 2 aan 2 gelijk aan elkaar zijn. Ik zou daarom een andere correctiemethode gebruiken (zoals [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni]] of [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni-Holms]]).

Let bij je eerdere analyse (post hoc op de within factor) ook goed op dat je de vergelijkingen wel gepaard uitvoert. Overigens kun je deze (within) vergelijking wel door spss laten doen. Namelijk door onder 'Options' de factor 'tijd' naar 'Display means for' te brengen en dan 'compare main effects' aan te klikken, met gewenste correctiemethode.

Op deze [http://www.uvm.edu/~dhowell/StatPages/More_Stuff/RepMeasMultComp/RepMeasMultComp.html site van David Howell] staan zeer veel adviezen over de zin en onzin van post hoc tests bij repeated measurements ANOVA's.

== Waar vind ik de repeated measurements ANOVA in SPSS?==

Je vindt de repeated measurements ANOVA in SPSS 16 onder Analyze->General Linear Model->Repeated measures.

Er geldt voor de repeated measurements ANOVA dat de herhaalde metingen van de patienten in aparte kolommen naast elkaar in de SPSS file moeten staan. Stel dat er drie herhaalde metingen van drie patienten zijn, dan ziet de data file er als volgt uit met vier kolommen:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! meting1 !! meting2 !! meting3
|-
|align="center"| 1
|align="center"| 10
|align="center"| 9
|align="center"| 11
|-
|align="center"| 2
|align="center"| 8
|align="center"| 11
|align="center"| 12
|-
|align="center"| 3
|align="center"| 5
|align="center"| 8
|align="center"| 9
|-
|}

= Hoe kan ik data van 4 experimenten combineren? =

''De experimenten die ik verricht, heb ik in 4 sessies opgesplitst, aangezien het niet behapbaar was alle samples in een keer te verwerken. Nu blijkt dat de vergelijkingsgroepen (verschillende diagnoses) binnen elke serie toch wel erg klein zijn en vraag ik me af of en hoe ik de data van de 4 series zou kunnen combineren.

Wat wel gebruikt wordt bij zulk soort settings is het toepassen van een factor correctie. Zie ook de referentie naar de paper van Ruijter <cite>[Ruijter2006]</cite> onderaan op deze pagina. Je kunt ook binnen een statistisch model een correctie voor de 'clustering' binnen sessies meenemen, bijvoorbeeld door een [[herhaalde metingen#mixed models|mixed]] of [[herhaalde metingen#repeated measurements ANOVA|glm-repeated]] analyse te doen. Je beschouwt de experimenten dan als 'herhaalde metingen' binnen een sessie.

== Wat is het minimaal aantal observaties bij het gebruik van een mixed-effects model? ==
'Hoeveel datapunten (clusters en/of patiënten) heb ik nodig als ik een mixed-effects model wil gebruiken?'

[http://dx.doi.org/10.1186/1471-2288-7-34 Deze paper] geeft wat houvast bij binaire uitkomsten. En [http://dx.doi.org/10.1027/1614-2241.1.3.86 Deze paper] bij continue uitkomsten.

= Referenties =
<biblio>
#Gueorguieva2004 Gueorguieva R, Krystal JH. Move Over ANOVA: Progress in Analyzing Repeated-Measures Data and Its Reflection in Papers Published in the Archives of General Psychiatry. Arch Gen Psychiatry. 2004 Mar;61(3):310-7. [http://archpsyc.ama-assn.org/cgi/reprint/61/3/310]

#Ruijter2006 Ruijter JM, Thygesen HH, Schoneveld OJ, Das AT, Berkhout B, Lamers WH, Factor correction as a tool to eliminate between-session variation in replicate experiments: application to molecular biology and retrovirology, Retrovirology. 2006 Jan 6;3:2. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16398936]

#West BT, Analyzing Longitudinal Data With the Linear Mixed Models Procedure in SPSS. Eval Health Prof 2009 32: 207-228. [http://ehp.sagepub.com/content/32/3/207.full.pdf]
</biblio>

=Informatie op andere websites=
*[http://faculty.chass.ncsu.edu/garson/PA765/glmrepeated.htm Statnotes GLM Repeated measures] - zeer uitgebreide uitleg over de SPSS specificatie van een repeated measures ANOVA (engelstalig)
*[http://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm Statnotes Mixed Models] - zeer uitgebreide uitleg over mixed models en uitgebreide behandeling van wanneer voor mixed en wanneer voor GLM te kiezen (engelstalig)
*Deze post van Jonathan Bartlett over [http://thestatsgeek.com/2017/05/11/odds-ratios-collapsibility-marginal-vs-conditional-gee-vs-glmms/ Odds ratios, collapsibility, marginal vs. conditional, GEE vs GLMMs ] geeft aan wat het verschil is tussen GEE en GLMM (mixed model) aanpak bij binaire uitkomsten.
*[http://www.cscu.cornell.edu/news/statnews/stnews76.pdf GEE newsletter] van Cornell Statistical Consulting Unit, Cornell University.
* [http://www.theanalysisfactor.com/repeated-and-random-2/ The analysis factor - The Repeated and Random Statements in Mixed Models for Repeated Measures] info over het onderscheid tussen de repeated en de random statement in SPSS mixed.
* [http://www.theanalysisfactor.com/repeated-measures-approaches/ The analysis factor] info over de verschillende aanpakken voor herhaalde metingen: repeated measurements anova, marginal model, mixed model.
* [http://www.floppybunny.org/robin/web/virtualclassroom/stats/course2.html Robin Beaumont Heath Informatics course material] Vrij te gebruiken cursusmateriaal over linear mixed models met uileg van specificatie in zowel SPSS als R, zie week 6 7 en 8. Inclusief bijbehorende Youtube instructiefilmpjes.

=Sofwaretips=
*[http://www.gllamm.org/ GLLAMM] Een familie functies (vrij te downloaden/attachen) in [[Statistische software#Stata|Stata]], waarbij er opties zijn voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).
*[http://tigger.uic.edu/~hedeker/mix.html SuperMix] Een standalone programma geschikt voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).

{{onderschrift}}

Herhaalde metingen

2017-05-12T07:43:58Z

Nan van Geloven: /* Hoe kan ik data van 4 experimenten combineren? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor= prof. dr. A.H. Zwinderman
}}
==Wat zijn herhaalde metingen?==

Herhaalde metingen zijn meerdere metingen van dezelfde variabele bij dezelfde persoon, patient, proefdier, of algemeen geformuleerd, dezelfde observationele eenheid. Voorbeelden:

*'''herhaling in de tijd''': als patienten herhaaldelijk in een follow-up periode worden gemeten (of: voor en na een behandeling);
*'''meerdere locaties''': metingen op meerdere locaties in het lichaam van dezelfde persoon (linker en rechter oog, meerdere coupes in een biopt, meerdere slices in een MRI beeld);
*'''meerdere condities''': als dezelfde patient onder twee of meer verschillende condities (bijv. behandelingen) wordt gemeten, bijvoorbeeld bij een cross-over studie;
*'''herhalingen tbv nauwkeurigheid''': als een meting een grote variatie binnen een persoon heeft (of een grote meetfout) dan kan het zinvol zijn om een aantal aparte metingen te doen;
*'''multilevel structuren''': als metingen bij meerdere personen gedaan zijn die onderdeel uitmaken van dezelfde groep. Bijvoorbeeld patienten die dezelfde huisarts hebben, waarbij de interventie per huisartspraktijk is uitgevoerd. Het klassieke voorbeeld hier zijn leerlingen die dezelfde docent hebben en docenten die weer bij eenzelfde school horen.

==Waarom kun je bij herhaalde metingen geen standaard regressie model gebruiken?==

Bij een standaard regressie model wordt aangenomen dat alle metingen onafhankelijk van elkaar zijn. Bij herhaalde metingen is het waarschijnlijk dat twee metingen van dezelfde persoon meer op elkaar lijken dan twee metingen van verschillende personen. Als dat zo is, dan zijn de metingen binnen dezelfde persoon niet onafhankelijk. Als bij herhaalde metingen geen rekening wordt gehouden met deze afhankelijkheid, dan zijn i.h.a. de standaard fouten en de p-waardes (onterecht!) te klein.
Bovendien kan de uitkomst van de regressie analyse volkomen fout zijn, zoals geïllustreerd in het plaatje dat hieronder staat. In deze figuur worden de observaties van 12 personen getoond en elke persoon laat een duidelijk stijgende trend zien. Als de afhankelijkheid van de waarnemingen genegeerd wordt, dan is de best passende regressie lijn door de totale punten-wolk de oranje dalende lijn en deze geeft geen correcte weergave van de trend per patiënt.

[[Image:14189829-0.jpg|500px]]

==Welke analyses zijn er mogelijk voor herhaalde metingen?==

*'''Simpele methodes''': Soms kunnen herhaalde metingen samengevat worden in een enkele relevante maat. Je kunt bijvoorbeeld de meting van slechts een tijdpunt gebruiken, de verandering tussen twee meetpunten gebruiken, een samenvattende maat zoals het gemiddelde of de [[herhaalde metingen#area under the curve| area under the curve]] uitrekenen, of de tijd tot het bereiken van een bepaald level analyseren in een [[survival analyse]].
*'''Geavanceerde methodes''': Methodes die wel herhaalde metingen aankunnen zijn o.a. [[herhaalde metingen#mixed models|mixed models]], [[herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] en Generalized Estimation Equations (GEE).

De simpele methodes gebruiken maar een deel van de verzamelde informatie en dat levert vaak minder onderscheidingsvermogen (power) op.
Repeated measurements ANOVA is een specifieke variant van mixed-models, maar is alleen beschikbaar voor [[KEUZE TOETS#Van welk type is mijn data?|continue normaal verdeelde]] afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patienten.
Mixed-models en GEE-modellen zijn wat lastiger te specificeren, maar zijn flexibeler en zijn beschikbaar voor zowel continue normaal verdeelde afhankelijke variabelen, als voor bijv [[KEUZE TOETS#Van welk type is mijn data?|dichotome]] afhankelijke variabelen. Bovendien kunnen de mixed modellen ook omgaan met een zekere mate van [[missing values]], namelijk wanneer de data [[missing values#Welke soorten missing values zijn er?|missing at random]] zijn.

=area under the curve=

==Wat is een area under the curve en wanneer kun je die gebruiken?==
Wanneer er op meerdere tijdstippen metingen zijn van een patient, kun je die samenvatten in een "area under the curve". Hierbij bereken je per patient de oppervlakte onder de gemeten punten in de tijd. Deze samenvattende maat gebruik je vervolgens voor de analyse.

==Hoe bereken ik met SPSS een area under the curve bij herhaalde metingen?==
''Ik wil graag van een bepaalde meting in de tijd, op verschillende tijdstippen gemeten, de 'area under the curve' bepalen. Ik kom er met SPSS niet uit. Ik moet er nl een stuk of 300 bepalen... heeft u nog een advies?

Je kunt de volgende [[Media: Syntax_for_calculating_AUC.doc | syntax ]] gebruiken, deze rekent per patient een area under the curve uit. Bovenaan het document staat beschreven hoe je de variabelen in SPSS moet hebben staan.

=mixed models=
Mixed models kunnen op meerdere manieren gespecificeerd worden. Het is zinvol om een onderscheid te maken tussen
#onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
#onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten.

====Situatie 1: herhaalde metingen op dezelfde momenten====

Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard [[lineaire regressie| lineair model]]. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:

<math>Y_{i,t} = a + b \times X_{i,t} + \epsilon_{i,t}</math>

waarbij <math>Y_{i,t}</math> de meting van de <math>i^{de}</math> patient is op het <math>t^{de}</math> tijdstip (conditie); <math>X_{i,t}</math> is de meting van de covariaat op dat moment en <math>\epsilon_{i,t}</math> is de afstand (of: ''residu'') van de datapunten tot de [[lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressielijn]]. Bij een standaard [[lineaire regressie]] zijn al deze residuen onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen.
Bij een mixed model wordt rekening gehouden met de [[correlatie|correlaties]] tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:
*compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
*unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;

Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.

Deze eerste soort uitbreiding van het standaard lineaire model wordt ook wel 'Generalized Least Squares Model' genoemd.

====Situatie 2: herhaalde metingen op verschillende momenten====

Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het [[lineaire regressie|lineaire model]] op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben ten opzichte van de regressielijn. Hierbij maakt het niet uit hoe vaak en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm ziet dit er als volgt uit:

<math>Y_{i,t} = (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} </math>

waarbij de nu toegevoegde <math>\alpha_i</math> en <math>\beta_i</math> de specifieke afwijkingen van patient <math>i</math> t.o.v. de regressielijn voorstellen. De <math>\alpha_i</math> is de afwijking van de intercept van patient <math>i</math> ten opzichte van de gemiddelde [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|intercept]] <math>a</math>. De <math>\beta_i</math> is de afwijking van de [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|helling]] (''slope'') van patient <math>i</math> ten opzichte van de gemiddelde helling <math>b</math> van de regressielijn. De <math>\alpha's</math> en <math>\beta's</math> worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat.
De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.

Deze tweede soort modellen wordt vaak aangeduid als 'Random Effect Models'.

== Waar vind ik linear mixed models in SPSS?==
Je vindt de linear mixed models in SPSS 16 onder Analyze->Mixed models->Linear. T/m [[statistische software#SPSS|SPSS 18]] is er alleen nog een mixed model beschikbaar voor continue (normaal verdeelde) uitkomsten. Vanaf [[statistische software#SPSS|SPSS 19]] biedt SPSS ook procedures aan voor andere typen uitkomsten zoals dichotome variabelen. Deze vind je onder Analyze -> Mixed Models -> Generalized. In andere pakketten zoals [[statistische software#R|R]] (package 'nlme' en package 'lme4'), Stata ([http://www.gllamm.org GLAMM]) en [[statistische software#SAS|SAS]] zijn er ook mixed modellen beschikbaar voor verschillende typen uitkomstmaten.

Let op: om een mixed model in SPSS te kunnen draaien moeten de data onder elkaar gestructureerd staan, waarbij iedere meting op een rij staat en er meerdere rijen zijn die bij dezelfde patient horen. In deze [http://www.spss.ch/upload/1126184451_Linear%20Mixed%20Effects%20Modeling%20in%20SPSS.pdf SPSS handleiding] staat stap voor stap beschreven hoe data te restructureren is in het gewenste format voor mixed models. Als er drie herhaalde metingen van drie patienten zijn, ziet het resultaat er bijvoorbeeld zo uit:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! metingnr !! meting
|-
|align="center"| 1
|align="center"| 1
|align="center"| 10
|-
|align="center"| 1
|align="center"| 2
|align="center"| 9
|-
|align="center"| 1
|align="center"| 3
|align="center"| 11
|-
|align="center"| 2
|align="center"| 1
|align="center"| 8
|-
|align="center"| 2
|align="center"| 2
|align="center"| 11
|-
|align="center"| 2
|align="center"| 3
|align="center"| 12
|-
|align="center"| 3
|align="center"| 1
|align="center"| 5
|-
|align="center"| 3
|align="center"| 2
|align="center"| 8
|-
|align="center"| 3
|align="center"| 3
|align="center"| 9
|-
|}

De hierboven beschreven 'situatie 1' modellering gebeurt in SPSS middels het specificeren van de 'Repeated' (+bijbehorende repeated covariance type) in het eerste panel van de mixed procedure. De in 'situatie 2' besproken modellering wordt gespecificeerd onder de 'Random...' knop (let op: random intercept staat by default uit, bij covariance type kan correlatie tussen de random effects gespecificeerd worden). Vaak is het gebruik van 1 van beide opties (danwel repeated danwel random) voldoende om de correlatie in de data op te vangen. Gebruik maken van beide opties kan wel, maar zal soms leiden tot overbodige parameters.

==Voorbeeld: hoe analyseer ik met een mixed model een effect in de tijd?==
''Ik onderzoek een groep patienten die een operatie hebben ondergaan. We zijn geinteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 mnd daarna (dit klopt ook als je de data in een barplot zet). In eerste instantie heb ik de ANOVA for repeated measures gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn [[Media:voorbeeld_mixed_model_spss.doc|syntax]]) te doen. Mijn vragen hierover:

''1. Heb ik de juiste covariance structure gebruikt? (nl. AR1)

''2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?

''3. Hoe geef de resultaten van deze mixed analyse weer?

1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).

2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.

3. In de output vind je onder "fixed effects" een B die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de B's.

== Wat is het verschil tussen een mixed model en een GEE model?==

''Ik heb een mixed model gebruikt omdat ik wil corrigeren voor de familieverbanden tussen mijn patienten. In een paper met een soortgelijke analyse zie ik echter dat er een GEE model is gebruikt. Welke moet ik hebben en wat is het verschil?

Beide modellen, een mixed model en een GEE model, kunnen corrigeren voor familieverbanden (of andere herhaalde metingen structuren). Een GEE (generalized estimation equations), ook wel genoemd marginaal model, negeert de correlaties tussen de herhaalde metingen in dezelfde familie, maar corrigeert de [[standaardfout/standard error|standaardfouten]] van de regressie coëfficiënten door robuuste [[standaardfout/standard error|standaardfouten]] te berekenen. Een mixed model, ook wel conditioneel model, of ook wel random-effects model modelleert de correlaties tussen de herhaalde metingen in dezelfde familie door een random-effect per familie in het model te includeren. De herhaalde metingen in een familie hebben die random-effects parameter gezamenlijk en dat maakt dat die metingen correleren. De volgende pagina van [http://www.theanalysisfactor.com/extensions-general-linear-model/ The analysis factor] geeft een helder overzicht van de overeenkomst/verschillen tussen verschillende modellen die je kunt gebruiken voor herhaalde metingen.

==Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?==

''Het valt me op dat hier maar weinig over te vinden is op Pubmed, en als er al wat is, is het heel wisselend. Ik heb bijvoorbeeld een artikel gevonden waarin ze alleen maar de Beta coefficient met bijbehorende p-waarde geven. Maar ik wil toch graag ook wel de mean (±SD) weergeven. Is het gebruikelijk dat per cluster te doen? Of bijvoorbeeld toch een mean (±SD) per groep?

Je zou de ruwe data (mean +sd) kunnen presenteren voor iedere groep. Hier is de (cluster)correctie van het mixed model echter nog niet in meegenomen. Alternatief kun je de estimated marginal means (+ conf interval) uit het model per groep rapporteren, deze zijn 'gecorrigeerd' voor de clusters/correlaties. Deze kun je ook opvragen in SPSS.

=repeated measurements ANOVA=
Repeated measurements ANOVA is een wat oudere term voor speciale vormen van mixed-models voor het analyseren van herhaalde metingen van een kwantitatieve afhankelijke variabele die normaal verdeeld is. Binnen het SPSS pakket wordt deze techniek aangeduid als GLM - repeated. Zoals eerder opgemerkt is deze procedure specifieke variant van mixed-models, maar is alleen beschikbaar voor continue normaal verdeelde afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patiënten.

Repeated measures ANOVA zoals in SPSS geimplementeerd, geeft twee soorten analyses, namelijk onder de aanname dat de correlaties tussen de herhaalde metingen allemaal dezelfde waarde hebben (compound symmetry) of zonder aannames over de correlaties (unstructured). In de SPSS output worden de compound-symmetry resultaten onder het kopje Tests of Within-Subjects Effects gerapporteerd en de unstructured resultaten onder het kopje Multivariate Tests. Wel handig is dat Mauchly's Test of Sphericity wordt gegeven; dat is een statistische toets van de nulhypothese dat de compound symmetry aanname klopt (kleine p-waardes van deze test zijn een indicatie dat compound symmetry niet goed past bij de data). Als sphericity (i.e. compound symmetry) wordt verworpen, dan kunnen ofwel de multivariate toets resultaten gebruikt worden, ofwel een Greenhouse-Geisser of een Huynh-Feldt correctie worden toegepast op de Tests of Within-Subjects Effects.

==Wanneer kan ik een repeated measurements ANOVA gebruiken?==

Je kunt een repeated measurements ANOVA gebruiken als:
* de afhankelijke variabele continue is en (per level van de onafhankelijke voorspeller) normaal verdeeld is,
* de herhaalde metingen op vaste tijdstippen in alle patienten zijn gedaan,
* er geen missende waardes zijn.

==Hoe kan ik post hoc testen doen bij een two-way repeated measures anova?==

''Ik heb twee onafhankelijke groepen (patient/controle is between subject factor) waarbij bij beide op 5 tijdsmomenten data is verzameld (5 timepoints als within subject factor). Nu run ik een two-way repeated measures anova om het interactie effect tussen groep en tijd te bekijken. Indien dit significant is wil ik graag weten op welke tijdsmomenten de controle groep verschilde van de patient groep. Er is geen optie in SPSS om een Tukey post hoc test te doen. Mag je in deze situatie een independent t-test gebruiken op ieder tijdstip om te bepalen op welke verschillende tijdsmomenten de twee groepen met elkaar verschilden?

''Zo niet, dan wil ik graag een Tukey met de hand uitrekenen, dit heb ik al wel gedaan voor de one-way repeated measures anova waarin ik bij de patient groep heb gekeken op welke tijdsmomenten de data verschilde met de data van de baseline meting. Maar kan je dit ook doen bij een two way anova met 2 onafhankelijke groepen?

Je kunt de losse (t-)testen doen (t0 patient minus t0 controle, t1 patient minus t1 controle etc.). En vervolgens moet je de uitkomsten van die testen corrigeren voor het feit dat je [[multiple testing|multiple comparisons]] doet. Ik zou daar zelf niet direct zien hoe Tukey toe te passen, omdat je daarbij uitgaat van een aantal means met hypothese dat ze allemaal (aan elkaar) gelijk zijn. Nu is het een ander geval, namelijk je wilt kijken of de means telkens 2 aan 2 gelijk aan elkaar zijn. Ik zou daarom een andere correctiemethode gebruiken (zoals [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni]] of [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni-Holms]]).

Let bij je eerdere analyse (post hoc op de within factor) ook goed op dat je de vergelijkingen wel gepaard uitvoert. Overigens kun je deze (within) vergelijking wel door spss laten doen. Namelijk door onder 'Options' de factor 'tijd' naar 'Display means for' te brengen en dan 'compare main effects' aan te klikken, met gewenste correctiemethode.

Op deze [http://www.uvm.edu/~dhowell/StatPages/More_Stuff/RepMeasMultComp/RepMeasMultComp.html site van David Howell] staan zeer veel adviezen over de zin en onzin van post hoc tests bij repeated measurements ANOVA's.

== Waar vind ik de repeated measurements ANOVA in SPSS?==

Je vindt de repeated measurements ANOVA in SPSS 16 onder Analyze->General Linear Model->Repeated measures.

Er geldt voor de repeated measurements ANOVA dat de herhaalde metingen van de patienten in aparte kolommen naast elkaar in de SPSS file moeten staan. Stel dat er drie herhaalde metingen van drie patienten zijn, dan ziet de data file er als volgt uit met vier kolommen:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! meting1 !! meting2 !! meting3
|-
|align="center"| 1
|align="center"| 10
|align="center"| 9
|align="center"| 11
|-
|align="center"| 2
|align="center"| 8
|align="center"| 11
|align="center"| 12
|-
|align="center"| 3
|align="center"| 5
|align="center"| 8
|align="center"| 9
|-
|}

= Hoe kan ik data van 4 experimenten combineren? =

''De experimenten die ik verricht, heb ik in 4 sessies opgesplitst, aangezien het niet behapbaar was alle samples in een keer te verwerken. Nu blijkt dat de vergelijkingsgroepen (verschillende diagnoses) binnen elke serie toch wel erg klein zijn en vraag ik me af of en hoe ik de data van de 4 series zou kunnen combineren.

Wat wel gebruikt wordt bij zulk soort settings is het toepassen van een factor correctie. Zie ook de referentie naar de paper van Ruijter <cite>[Ruijter2006]</cite> onderaan op deze pagina. Je kunt ook binnen een statistisch model een correctie voor de 'clustering' binnen sessies meenemen, bijvoorbeeld door een [[herhaalde metingen#mixed models|mixed]] of [[herhaalde metingen#repeated measurements ANOVA|glm-repeated]] analyse te doen. Je beschouwt de experimenten dan als 'herhaalde metingen' binnen een sessie.

== Wat is het minimaal aantal observaties bij het gebruik van een mixed-effects model? ==
'Hoeveel datapunten (clusters en/of patiënten) heb ik nodig als ik een mixed-effects model wil gebruiken?'

[http://dx.doi.org/10.1186/1471-2288-7-34 Deze paper] geeft wat houvast bij binaire uitkomsten. En [http://dx.doi.org/10.1027/1614-2241.1.3.86 Deze paper] bij continue uitkomsten.

= Referenties =
<biblio>
#Gueorguieva2004 Gueorguieva R, Krystal JH. Move Over ANOVA: Progress in Analyzing Repeated-Measures Data and Its Reflection in Papers Published in the Archives of General Psychiatry. Arch Gen Psychiatry. 2004 Mar;61(3):310-7. [http://archpsyc.ama-assn.org/cgi/reprint/61/3/310]

#Ruijter2006 Ruijter JM, Thygesen HH, Schoneveld OJ, Das AT, Berkhout B, Lamers WH, Factor correction as a tool to eliminate between-session variation in replicate experiments: application to molecular biology and retrovirology, Retrovirology. 2006 Jan 6;3:2. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16398936]

#West BT, Analyzing Longitudinal Data With the Linear Mixed Models Procedure in SPSS. Eval Health Prof 2009 32: 207-228. [http://ehp.sagepub.com/content/32/3/207.full.pdf]
</biblio>

=Informatie op andere websites=
*[http://faculty.chass.ncsu.edu/garson/PA765/glmrepeated.htm Statnotes GLM Repeated measures] - zeer uitgebreide uitleg over de SPSS specificatie van een repeated measures ANOVA (engelstalig)
*[http://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm Statnotes Mixed Models] - zeer uitgebreide uitleg over mixed models en uitgebreide behandeling van wanneer voor mixed en wanneer voor GLM te kiezen (engelstalig)
*Deze post van Jonathan Bartlett over [http://thestatsgeek.com/2017/05/11/odds-ratios-collapsibility-marginal-vs-conditional-gee-vs-glmms/ Odds ratios, collapsibility, marginal vs. conditional, GEE vs GLMMs ] geeft aan wat het verschil is tussen GEE en GLMM (mixed model) aanpak bij binaire uitkomsten.
*[http://www.cscu.cornell.edu/news/statnews/stnews76.pdf GEE newsletter] van Cornell Statistical Consulting Unit, Cornell University.
* [http://www.theanalysisfactor.com/repeated-and-random-2/ The analysis factor - The Repeated and Random Statements in Mixed Models for Repeated Measures] info over het onderscheid tussen de repeated en de random statement in SPSS mixed.
* [http://www.theanalysisfactor.com/repeated-measures-approaches/ The analysis factor] info over de verschillende aanpakken voor herhaalde metingen: repeated measurements anova, marginal model, mixed model.
* [http://www.floppybunny.org/robin/web/virtualclassroom/stats/course2.html Robin Beaumont Heath Informatics course material] Vrij te gebruiken cursusmateriaal over linear mixed models met uileg van specificatie in zowel SPSS als R, zie week 6 7 en 8. Inclusief bijbehorende Youtube instructiefilmpjes.

=Sofwaretips=
*[http://www.gllamm.org/ GLLAMM] Een familie functies (vrij te downloaden/attachen) in [[Statistische software#Stata|Stata]], waarbij er opties zijn voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).
*[http://tigger.uic.edu/~hedeker/mix.html SuperMix] Een standalone programma geschikt voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).

{{onderschrift}}

Herhaalde metingen

2017-05-12T07:41:17Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor= prof. dr. A.H. Zwinderman
}}
==Wat zijn herhaalde metingen?==

Herhaalde metingen zijn meerdere metingen van dezelfde variabele bij dezelfde persoon, patient, proefdier, of algemeen geformuleerd, dezelfde observationele eenheid. Voorbeelden:

*'''herhaling in de tijd''': als patienten herhaaldelijk in een follow-up periode worden gemeten (of: voor en na een behandeling);
*'''meerdere locaties''': metingen op meerdere locaties in het lichaam van dezelfde persoon (linker en rechter oog, meerdere coupes in een biopt, meerdere slices in een MRI beeld);
*'''meerdere condities''': als dezelfde patient onder twee of meer verschillende condities (bijv. behandelingen) wordt gemeten, bijvoorbeeld bij een cross-over studie;
*'''herhalingen tbv nauwkeurigheid''': als een meting een grote variatie binnen een persoon heeft (of een grote meetfout) dan kan het zinvol zijn om een aantal aparte metingen te doen;
*'''multilevel structuren''': als metingen bij meerdere personen gedaan zijn die onderdeel uitmaken van dezelfde groep. Bijvoorbeeld patienten die dezelfde huisarts hebben, waarbij de interventie per huisartspraktijk is uitgevoerd. Het klassieke voorbeeld hier zijn leerlingen die dezelfde docent hebben en docenten die weer bij eenzelfde school horen.

==Waarom kun je bij herhaalde metingen geen standaard regressie model gebruiken?==

Bij een standaard regressie model wordt aangenomen dat alle metingen onafhankelijk van elkaar zijn. Bij herhaalde metingen is het waarschijnlijk dat twee metingen van dezelfde persoon meer op elkaar lijken dan twee metingen van verschillende personen. Als dat zo is, dan zijn de metingen binnen dezelfde persoon niet onafhankelijk. Als bij herhaalde metingen geen rekening wordt gehouden met deze afhankelijkheid, dan zijn i.h.a. de standaard fouten en de p-waardes (onterecht!) te klein.
Bovendien kan de uitkomst van de regressie analyse volkomen fout zijn, zoals geïllustreerd in het plaatje dat hieronder staat. In deze figuur worden de observaties van 12 personen getoond en elke persoon laat een duidelijk stijgende trend zien. Als de afhankelijkheid van de waarnemingen genegeerd wordt, dan is de best passende regressie lijn door de totale punten-wolk de oranje dalende lijn en deze geeft geen correcte weergave van de trend per patiënt.

[[Image:14189829-0.jpg|500px]]

==Welke analyses zijn er mogelijk voor herhaalde metingen?==

*'''Simpele methodes''': Soms kunnen herhaalde metingen samengevat worden in een enkele relevante maat. Je kunt bijvoorbeeld de meting van slechts een tijdpunt gebruiken, de verandering tussen twee meetpunten gebruiken, een samenvattende maat zoals het gemiddelde of de [[herhaalde metingen#area under the curve| area under the curve]] uitrekenen, of de tijd tot het bereiken van een bepaald level analyseren in een [[survival analyse]].
*'''Geavanceerde methodes''': Methodes die wel herhaalde metingen aankunnen zijn o.a. [[herhaalde metingen#mixed models|mixed models]], [[herhaalde metingen#repeated measurements ANOVA|repeated measurements ANOVA]] en Generalized Estimation Equations (GEE).

De simpele methodes gebruiken maar een deel van de verzamelde informatie en dat levert vaak minder onderscheidingsvermogen (power) op.
Repeated measurements ANOVA is een specifieke variant van mixed-models, maar is alleen beschikbaar voor [[KEUZE TOETS#Van welk type is mijn data?|continue normaal verdeelde]] afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patienten.
Mixed-models en GEE-modellen zijn wat lastiger te specificeren, maar zijn flexibeler en zijn beschikbaar voor zowel continue normaal verdeelde afhankelijke variabelen, als voor bijv [[KEUZE TOETS#Van welk type is mijn data?|dichotome]] afhankelijke variabelen. Bovendien kunnen de mixed modellen ook omgaan met een zekere mate van [[missing values]], namelijk wanneer de data [[missing values#Welke soorten missing values zijn er?|missing at random]] zijn.

=area under the curve=

==Wat is een area under the curve en wanneer kun je die gebruiken?==
Wanneer er op meerdere tijdstippen metingen zijn van een patient, kun je die samenvatten in een "area under the curve". Hierbij bereken je per patient de oppervlakte onder de gemeten punten in de tijd. Deze samenvattende maat gebruik je vervolgens voor de analyse.

==Hoe bereken ik met SPSS een area under the curve bij herhaalde metingen?==
''Ik wil graag van een bepaalde meting in de tijd, op verschillende tijdstippen gemeten, de 'area under the curve' bepalen. Ik kom er met SPSS niet uit. Ik moet er nl een stuk of 300 bepalen... heeft u nog een advies?

Je kunt de volgende [[Media: Syntax_for_calculating_AUC.doc | syntax ]] gebruiken, deze rekent per patient een area under the curve uit. Bovenaan het document staat beschreven hoe je de variabelen in SPSS moet hebben staan.

=mixed models=
Mixed models kunnen op meerdere manieren gespecificeerd worden. Het is zinvol om een onderscheid te maken tussen
#onderzoeken waarbij alle patienten op (min of meer) dezelfde tijdstippen (of onder dezelfde condities) herhaald worden gemeten, en
#onderzoeken waarin het aantal herhaalde metingen per patient en/of de tijdstippen en condities verschillen tussen patienten.

====Situatie 1: herhaalde metingen op dezelfde momenten====

Als alle patienten op dezelfde tijdstippen (onder dezelfde condities) zijn gemeten, kan het mixed-model gezien worden als een uitbreiding van een standaard [[lineaire regressie| lineair model]]. In formulevorm ziet de uitbreiding van het standaard model er als volgt uit:

<math>Y_{i,t} = a + b \times X_{i,t} + \epsilon_{i,t}</math>

waarbij <math>Y_{i,t}</math> de meting van de <math>i^{de}</math> patient is op het <math>t^{de}</math> tijdstip (conditie); <math>X_{i,t}</math> is de meting van de covariaat op dat moment en <math>\epsilon_{i,t}</math> is de afstand (of: ''residu'') van de datapunten tot de [[lineaire regressie#Hoe werkt (enkelvoudige) lineaire regressie?|regressielijn]]. Bij een standaard [[lineaire regressie]] zijn al deze residuen onafhankelijk van elkaar, maar bij herhaalde metingen is dat niet per se het geval. Namelijk, als het eerste datapunt van een patient (ver) boven (of onder) de lijn ligt, is het goed voorstelbaar dat volgende datapunten van dezelfde persoon ook boven (of onder) de regressielijn zullen liggen. Anders geformuleerd: datapunten van dezelfde persoon lijken meer op elkaar dan op datapunten van andere personen.
Bij een mixed model wordt rekening gehouden met de [[correlatie|correlaties]] tussen de residuen van metingen bij dezelfde patient. Dit kan op verschillende manieren en moet door de gebruiker worden gespecificeerd. Veel voorkomende correlatiestructuren zijn:
*compound symmetry, waarbij aangenomen wordt dat de correlaties tussen alle residuen van dezelfde persoon gelijk zijn. De eerste en de tweede meting van een persoon hangen dus even sterk met elkaar samen als de eerste en de laatste meting van die persoon;
*unstructured, waarbij geen enkele aanname wordt gemaakt over de correlaties. Iedere correlatie tussen twee tijdspunten wordt los van de anderen bepaald;

Er zijn nog diverse andere opties en de beste keuze hangt af van het type onderzoek en het aantal herhaalde metingen. Er zijn statistische maten die je helpen bij het maken van de keuze. Vaak wordt hiervoor de Akaike Information Criterium (AIC) gebruikt. Dit is een maat voor hoe goed het gekozen model past bij de data. Hoe lager de AIC, hoe beter het model past.

Deze eerste soort uitbreiding van het standaard lineaire model wordt ook wel 'Generalized Least Squares Model' genoemd.

====Situatie 2: herhaalde metingen op verschillende momenten====

Als het aantal herhaalde metingen per patient en/of de tijdstippen (condities) waarop er gemeten wordt verschillen tussen patienten, ligt het voor de hand om het [[lineaire regressie|lineaire model]] op een andere wijze uit te breiden. In situatie 1 werd de correlatie tussen meetpunten op verschillende tijdstippen direct gemodelleerd. Als er niet op vaste tijdstippen gemeten wordt, is dit niet logisch. De afhankelijkheid van metingen bij eenzelfde patient kan ook gemodelleerd worden met zogenaamde random effects. Met random effects wordt een inschatting gemaakt van de afwijking die metingen van eenzelfde patient hebben ten opzichte van de regressielijn. Hierbij maakt het niet uit hoe vaak en op welke tijdstippen een patient gemeten is; al zijn metingen worden verondersteld een vaste afwijking van de 'gemiddelde' regressielijn te hebben. In formulevorm ziet dit er als volgt uit:

<math>Y_{i,t} = (a+ \alpha_i) + (b+\beta_i) \times X_{i,t} + \epsilon_{i,t} </math>

waarbij de nu toegevoegde <math>\alpha_i</math> en <math>\beta_i</math> de specifieke afwijkingen van patient <math>i</math> t.o.v. de regressielijn voorstellen. De <math>\alpha_i</math> is de afwijking van de intercept van patient <math>i</math> ten opzichte van de gemiddelde [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|intercept]] <math>a</math>. De <math>\beta_i</math> is de afwijking van de [[lineaire regressie#Hoe werkt een (enkelvoudig) lineair model?|helling]] (''slope'') van patient <math>i</math> ten opzichte van de gemiddelde helling <math>b</math> van de regressielijn. De <math>\alpha's</math> en <math>\beta's</math> worden niet direct geschat, in plaats daarvan wordt verondersteld dat zij normaal verdeeld zijn met gemiddelde 0. De standaard deviaties van deze verdelingen worden geschat.
De specificaties van de random effects kunnen nog uitgebreid worden en de fit van het model wordt gekwantificeerd met bijvoorbeeld de AIC. Ook hier geldt: het model met de laagste AIC past het beste bij de data.

Deze tweede soort modellen wordt vaak aangeduid als 'Random Effect Models'.

== Waar vind ik linear mixed models in SPSS?==
Je vindt de linear mixed models in SPSS 16 onder Analyze->Mixed models->Linear. T/m [[statistische software#SPSS|SPSS 18]] is er alleen nog een mixed model beschikbaar voor continue (normaal verdeelde) uitkomsten. Vanaf [[statistische software#SPSS|SPSS 19]] biedt SPSS ook procedures aan voor andere typen uitkomsten zoals dichotome variabelen. Deze vind je onder Analyze -> Mixed Models -> Generalized. In andere pakketten zoals [[statistische software#R|R]] (package 'nlme' en package 'lme4'), Stata ([http://www.gllamm.org GLAMM]) en [[statistische software#SAS|SAS]] zijn er ook mixed modellen beschikbaar voor verschillende typen uitkomstmaten.

Let op: om een mixed model in SPSS te kunnen draaien moeten de data onder elkaar gestructureerd staan, waarbij iedere meting op een rij staat en er meerdere rijen zijn die bij dezelfde patient horen. In deze [http://www.spss.ch/upload/1126184451_Linear%20Mixed%20Effects%20Modeling%20in%20SPSS.pdf SPSS handleiding] staat stap voor stap beschreven hoe data te restructureren is in het gewenste format voor mixed models. Als er drie herhaalde metingen van drie patienten zijn, ziet het resultaat er bijvoorbeeld zo uit:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! metingnr !! meting
|-
|align="center"| 1
|align="center"| 1
|align="center"| 10
|-
|align="center"| 1
|align="center"| 2
|align="center"| 9
|-
|align="center"| 1
|align="center"| 3
|align="center"| 11
|-
|align="center"| 2
|align="center"| 1
|align="center"| 8
|-
|align="center"| 2
|align="center"| 2
|align="center"| 11
|-
|align="center"| 2
|align="center"| 3
|align="center"| 12
|-
|align="center"| 3
|align="center"| 1
|align="center"| 5
|-
|align="center"| 3
|align="center"| 2
|align="center"| 8
|-
|align="center"| 3
|align="center"| 3
|align="center"| 9
|-
|}

De hierboven beschreven 'situatie 1' modellering gebeurt in SPSS middels het specificeren van de 'Repeated' (+bijbehorende repeated covariance type) in het eerste panel van de mixed procedure. De in 'situatie 2' besproken modellering wordt gespecificeerd onder de 'Random...' knop (let op: random intercept staat by default uit, bij covariance type kan correlatie tussen de random effects gespecificeerd worden). Vaak is het gebruik van 1 van beide opties (danwel repeated danwel random) voldoende om de correlatie in de data op te vangen. Gebruik maken van beide opties kan wel, maar zal soms leiden tot overbodige parameters.

==Voorbeeld: hoe analyseer ik met een mixed model een effect in de tijd?==
''Ik onderzoek een groep patienten die een operatie hebben ondergaan. We zijn geinteresseerd in de pijnscore (VAS) op verschillende tijdsmomenten na de operatie. De verwachting is (uiteraard) dat de pijn direct na de operatie heviger is dan bijv. 3 mnd daarna (dit klopt ook als je de data in een barplot zet). In eerste instantie heb ik de ANOVA for repeated measures gebruikt om te analyseren of de pijn significant verandert in de tijd. Maar, omdat ik een aantal missing data heb, heb ik ook geprobeerd een mixed models analyse (hier mijn [[Media:voorbeeld_mixed_model_spss.doc|syntax]]) te doen. Mijn vragen hierover:

''1. Heb ik de juiste covariance structure gebruikt? (nl. AR1)

''2. Ik heb 'tijd' als fixed effect genomen omdat de afname van de VAS op specifieke tijdsmomenten gebeurde, klopt dat?

''3. Hoe geef de resultaten van deze mixed analyse weer?

1. Of AR(1) de beste is is niet zo te zeggen, dat hangt af van de correlatie tussen de tijdsmomenten in jouw data. Je kunt bijvoorbeeld alle mogelijke structuren draaien en dan degene met de kleinste AIC te kiezen (smaller is better zoals er ook onder staat).

2. Tijd is hier inderdaad een fixed variable, want je wilt hier de hypothese toetsen of er een verandering in de tijd is.

3. In de output vind je onder "fixed effects" een B die aangeeft wat het effect is per tijdspunt (tov het startpunt) en een bijbehorende p-waarde. Dit is de toets die je waarschijnlijk wilt rapporteren. Onder het kopje "mean estimates" vind je de schatting van het model voor de gemiddelde VAS waarde op ieder tijdpunt. Deze mean estimates zijn voor een lezer makkelijker te interpreteren dan de B's.

== Wat is het verschil tussen een mixed model en een GEE model?==

''Ik heb een mixed model gebruikt omdat ik wil corrigeren voor de familieverbanden tussen mijn patienten. In een paper met een soortgelijke analyse zie ik echter dat er een GEE model is gebruikt. Welke moet ik hebben en wat is het verschil?

Beide modellen, een mixed model en een GEE model, kunnen corrigeren voor familieverbanden (of andere herhaalde metingen structuren). Een GEE (generalized estimation equations), ook wel genoemd marginaal model, negeert de correlaties tussen de herhaalde metingen in dezelfde familie, maar corrigeert de [[standaardfout/standard error|standaardfouten]] van de regressie coëfficiënten door robuuste [[standaardfout/standard error|standaardfouten]] te berekenen. Een mixed model, ook wel conditioneel model, of ook wel random-effects model modelleert de correlaties tussen de herhaalde metingen in dezelfde familie door een random-effect per familie in het model te includeren. De herhaalde metingen in een familie hebben die random-effects parameter gezamenlijk en dat maakt dat die metingen correleren. De volgende pagina van [http://www.theanalysisfactor.com/extensions-general-linear-model/ The analysis factor] geeft een helder overzicht van de overeenkomst/verschillen tussen verschillende modellen die je kunt gebruiken voor herhaalde metingen.

==Hoe wordt gebruikelijk een linear mixed model gerapporteerd in een artikel?==

''Het valt me op dat hier maar weinig over te vinden is op Pubmed, en als er al wat is, is het heel wisselend. Ik heb bijvoorbeeld een artikel gevonden waarin ze alleen maar de Beta coefficient met bijbehorende p-waarde geven. Maar ik wil toch graag ook wel de mean (±SD) weergeven. Is het gebruikelijk dat per cluster te doen? Of bijvoorbeeld toch een mean (±SD) per groep?

Je zou de ruwe data (mean +sd) kunnen presenteren voor iedere groep. Hier is de (cluster)correctie van het mixed model echter nog niet in meegenomen. Alternatief kun je de estimated marginal means (+ conf interval) uit het model per groep rapporteren, deze zijn 'gecorrigeerd' voor de clusters/correlaties. Deze kun je ook opvragen in SPSS.

=repeated measurements ANOVA=
Repeated measurements ANOVA is een wat oudere term voor speciale vormen van mixed-models voor het analyseren van herhaalde metingen van een kwantitatieve afhankelijke variabele die normaal verdeeld is. Binnen het SPSS pakket wordt deze techniek aangeduid als GLM - repeated. Zoals eerder opgemerkt is deze procedure specifieke variant van mixed-models, maar is alleen beschikbaar voor continue normaal verdeelde afhankelijke variabelen, die op vaste en dezelfde tijdstippen zijn gemeten in alle patiënten.

Repeated measures ANOVA zoals in SPSS geimplementeerd, geeft twee soorten analyses, namelijk onder de aanname dat de correlaties tussen de herhaalde metingen allemaal dezelfde waarde hebben (compound symmetry) of zonder aannames over de correlaties (unstructured). In de SPSS output worden de compound-symmetry resultaten onder het kopje Tests of Within-Subjects Effects gerapporteerd en de unstructured resultaten onder het kopje Multivariate Tests. Wel handig is dat Mauchly's Test of Sphericity wordt gegeven; dat is een statistische toets van de nulhypothese dat de compound symmetry aanname klopt (kleine p-waardes van deze test zijn een indicatie dat compound symmetry niet goed past bij de data). Als sphericity (i.e. compound symmetry) wordt verworpen, dan kunnen ofwel de multivariate toets resultaten gebruikt worden, ofwel een Greenhouse-Geisser of een Huynh-Feldt correctie worden toegepast op de Tests of Within-Subjects Effects.

==Wanneer kan ik een repeated measurements ANOVA gebruiken?==

Je kunt een repeated measurements ANOVA gebruiken als:
* de afhankelijke variabele continue is en (per level van de onafhankelijke voorspeller) normaal verdeeld is,
* de herhaalde metingen op vaste tijdstippen in alle patienten zijn gedaan,
* er geen missende waardes zijn.

==Hoe kan ik post hoc testen doen bij een two-way repeated measures anova?==

''Ik heb twee onafhankelijke groepen (patient/controle is between subject factor) waarbij bij beide op 5 tijdsmomenten data is verzameld (5 timepoints als within subject factor). Nu run ik een two-way repeated measures anova om het interactie effect tussen groep en tijd te bekijken. Indien dit significant is wil ik graag weten op welke tijdsmomenten de controle groep verschilde van de patient groep. Er is geen optie in SPSS om een Tukey post hoc test te doen. Mag je in deze situatie een independent t-test gebruiken op ieder tijdstip om te bepalen op welke verschillende tijdsmomenten de twee groepen met elkaar verschilden?

''Zo niet, dan wil ik graag een Tukey met de hand uitrekenen, dit heb ik al wel gedaan voor de one-way repeated measures anova waarin ik bij de patient groep heb gekeken op welke tijdsmomenten de data verschilde met de data van de baseline meting. Maar kan je dit ook doen bij een two way anova met 2 onafhankelijke groepen?

Je kunt de losse (t-)testen doen (t0 patient minus t0 controle, t1 patient minus t1 controle etc.). En vervolgens moet je de uitkomsten van die testen corrigeren voor het feit dat je [[multiple testing|multiple comparisons]] doet. Ik zou daar zelf niet direct zien hoe Tukey toe te passen, omdat je daarbij uitgaat van een aantal means met hypothese dat ze allemaal (aan elkaar) gelijk zijn. Nu is het een ander geval, namelijk je wilt kijken of de means telkens 2 aan 2 gelijk aan elkaar zijn. Ik zou daarom een andere correctiemethode gebruiken (zoals [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni]] of [[Multiple_testing#Hoe_kan_ik_corrigeren_met_de_Bonferroni_methode|Bonferroni-Holms]]).

Let bij je eerdere analyse (post hoc op de within factor) ook goed op dat je de vergelijkingen wel gepaard uitvoert. Overigens kun je deze (within) vergelijking wel door spss laten doen. Namelijk door onder 'Options' de factor 'tijd' naar 'Display means for' te brengen en dan 'compare main effects' aan te klikken, met gewenste correctiemethode.

Op deze [http://www.uvm.edu/~dhowell/StatPages/More_Stuff/RepMeasMultComp/RepMeasMultComp.html site van David Howell] staan zeer veel adviezen over de zin en onzin van post hoc tests bij repeated measurements ANOVA's.

== Waar vind ik de repeated measurements ANOVA in SPSS?==

Je vindt de repeated measurements ANOVA in SPSS 16 onder Analyze->General Linear Model->Repeated measures.

Er geldt voor de repeated measurements ANOVA dat de herhaalde metingen van de patienten in aparte kolommen naast elkaar in de SPSS file moeten staan. Stel dat er drie herhaalde metingen van drie patienten zijn, dan ziet de data file er als volgt uit met vier kolommen:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! patientnummer!! meting1 !! meting2 !! meting3
|-
|align="center"| 1
|align="center"| 10
|align="center"| 9
|align="center"| 11
|-
|align="center"| 2
|align="center"| 8
|align="center"| 11
|align="center"| 12
|-
|align="center"| 3
|align="center"| 5
|align="center"| 8
|align="center"| 9
|-
|}

= Hoe kan ik data van 4 experimenten combineren? =

''De experimenten die ik verricht, heb ik in 4 sessies opgesplitst, aangezien het niet behapbaar was alle samples in een keer te verwerken. Nu blijkt dat de vergelijkingsgroepen (verschillende diagnoses) binnen elke serie toch wel erg klein zijn en vraag ik me af of en hoe ik de data van de 4 series zou kunnen combineren.

Wat wel gebruikt wordt bij zulk soort settings is het toepassen van een factor correctie. Zie ook de 4e [[herhaalde metingen#Referenties|referentie]] op deze pagina. Je kunt ook binnen een statistisch model een correctie voor de 'clustering' binnen sessies meenemen, bijvoorbeeld door een [[herhaalde metingen#mixed models|mixed]] of [[herhaalde metingen#repeated measurements ANOVA|glm-repeated]] analyse te doen. Je beschouwt de experimenten dan als 'herhaalde metingen' binnen een sessie.

== Wat is het minimaal aantal observaties bij het gebruik van een mixed-effects model? ==
'Hoeveel datapunten (clusters en/of patiënten) heb ik nodig als ik een mixed-effects model wil gebruiken?'

[http://dx.doi.org/10.1186/1471-2288-7-34 Deze paper] geeft wat houvast bij binaire uitkomsten. En [http://dx.doi.org/10.1027/1614-2241.1.3.86 Deze paper] bij continue uitkomsten.

= Referenties =
<biblio>
#Gueorguieva2004 Gueorguieva R, Krystal JH. Move Over ANOVA: Progress in Analyzing Repeated-Measures Data and Its Reflection in Papers Published in the Archives of General Psychiatry. Arch Gen Psychiatry. 2004 Mar;61(3):310-7. [http://archpsyc.ama-assn.org/cgi/reprint/61/3/310]

#Ruijter2006 Ruijter JM, Thygesen HH, Schoneveld OJ, Das AT, Berkhout B, Lamers WH, Factor correction as a tool to eliminate between-session variation in replicate experiments: application to molecular biology and retrovirology, Retrovirology. 2006 Jan 6;3:2. [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pubmed&pubmedid=16398936]

#West BT, Analyzing Longitudinal Data With the Linear Mixed Models Procedure in SPSS. Eval Health Prof 2009 32: 207-228. [http://ehp.sagepub.com/content/32/3/207.full.pdf]
</biblio>

=Informatie op andere websites=
*[http://faculty.chass.ncsu.edu/garson/PA765/glmrepeated.htm Statnotes GLM Repeated measures] - zeer uitgebreide uitleg over de SPSS specificatie van een repeated measures ANOVA (engelstalig)
*[http://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm Statnotes Mixed Models] - zeer uitgebreide uitleg over mixed models en uitgebreide behandeling van wanneer voor mixed en wanneer voor GLM te kiezen (engelstalig)
*Deze post van Jonathan Bartlett over [http://thestatsgeek.com/2017/05/11/odds-ratios-collapsibility-marginal-vs-conditional-gee-vs-glmms/ Odds ratios, collapsibility, marginal vs. conditional, GEE vs GLMMs ] geeft aan wat het verschil is tussen GEE en GLMM (mixed model) aanpak bij binaire uitkomsten.
*[http://www.cscu.cornell.edu/news/statnews/stnews76.pdf GEE newsletter] van Cornell Statistical Consulting Unit, Cornell University.
* [http://www.theanalysisfactor.com/repeated-and-random-2/ The analysis factor - The Repeated and Random Statements in Mixed Models for Repeated Measures] info over het onderscheid tussen de repeated en de random statement in SPSS mixed.
* [http://www.theanalysisfactor.com/repeated-measures-approaches/ The analysis factor] info over de verschillende aanpakken voor herhaalde metingen: repeated measurements anova, marginal model, mixed model.
* [http://www.floppybunny.org/robin/web/virtualclassroom/stats/course2.html Robin Beaumont Heath Informatics course material] Vrij te gebruiken cursusmateriaal over linear mixed models met uileg van specificatie in zowel SPSS als R, zie week 6 7 en 8. Inclusief bijbehorende Youtube instructiefilmpjes.

=Sofwaretips=
*[http://www.gllamm.org/ GLLAMM] Een familie functies (vrij te downloaden/attachen) in [[Statistische software#Stata|Stata]], waarbij er opties zijn voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).
*[http://tigger.uic.edu/~hedeker/mix.html SuperMix] Een standalone programma geschikt voor het modelleren van herhaaldelijk gemeten niet continue uitkomstmaten (dichotome, ordinale etc).

{{onderschrift}}

Missing values

2017-04-04T15:31:46Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}

==Welke soorten missing values zijn er? ==

In het algemeen worden er drie typen missing values onderscheiden:
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

==Kan een GLM missende waarden aan? ==

''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data niet compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).

==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==

''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren

==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.

Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.

== Referenties ==

<biblio>
#White2010 White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. [http://dx.doi.org/10.1002/sim.4067 DOI:10.1002/sim.4067]
</biblio>

*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials The Prevention and Treatment of Missing Data in Clinical Trials (2010). Panel on Handling Missing Data in Clinical Trials; Committee on National Statistics; Division of Behavioral and Social Sciences and Education; National Research Council]

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.

*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]

*[http://www.mendeley.com/research/review-a-gentle-introduction-to-imputation-of-missing-values/# Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]

*[http://www.ncbi.nlm.nih.gov/pubmed/12589867 Clark T.A. et al. Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Journal of Clinical Epidemiology 56 (2003) 28–37]

*[http://multiple-imputation.com http://multiple-imputation.com] Uitleg over wat multiple imputation inhoudt.

*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].

*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].

*[http://www.bmj.com/content/338/bmj.b2393 Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. JAC Sterne, IR White, JB Carlin, M Spratt, P Royston, MG Kenward, AM Wood, JR Carpenter. BMJ. 2009; 338: b2393.]

*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14. doi: 10.1016/j.jclinepi.2009.03.017.]

*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]

{{onderschrift}}

Intraclass correlatie coefficient

2016-11-21T16:29:19Z

Nan van Geloven:

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor= Prof.dr. P.M.M. Bossuyt
}}
De intraclass correlatie coëfficiënt (ICC) wordt gebruikt voor het kwantificeren van de mate van overeenstemming tussen twee (of meer) op [[KEUZE_TOETS#Van_welk_type_is_mijn_data?|(semi-)continue schaal]] herhaaldelijk gemeten waardes. Bijvoorbeeld als bekeken wordt in hoeverre radiologen bij het beoordelen van een MRI van het brein een gelijk aantal microbloedingen detecteren. De ICC is een generalisatie van [[Cohen's kappa]] (waarbij overeenstemming bij de beoordeling van een [[KEUZE_TOETS#Van_welk_type_is_mijn_data?|dichotome of ordinale]] waarde bekeken wordt).

==Waarom is een 'gewone' correlatiecoëfficiënt niet voldoende voor het beoordelen van overeenstemming?==

Bij het analyseren van de overeenstemming tussen twee continue beoordelingen is het goed om te starten met het maken van een scatterplot. De reeks waarnemingen behorend bij de eerste beoordeling wordt dan uitgezet tegen de tweede reeks waarnemingen. Op basis van de scatterplot kan een eerste uitspraak gedaan worden over de mate van samenhang tussen de twee beoordelingen. Daarbij kan ook een [[correlatie|correlatiecoëfficiënt]] uitgerekend worden. Echter, een goede correlatiecoëfficiënt is geen verzekering voor een goede overeenstemming. Stel de eerste beoordeling van een reeks van 10 patiënten levert de volgende waardes op: 11, 13, 10, 15, 18, 13, 14, 15, 20, 12 en de tweede beoordeling levert de getallen: 21, 23, 20, 25, 28, 23, 24, 25, 30, 22. De twee reeksen zijn perfect gecorreleerd (met een correlatiecoëfficiënt van 1). Maar er is hier geen stricte overeenstemming. De tweede reeks scoort namelijk structureel 10 hoger dan de eerste. Het is daarom verstandig om na het kijken naar de scatterplot en de 'gewone' correlatiecoëfficiënt ook een ICC te berekenen. Bij het kwantificeren van overeenstemming tussen meer dan twee beoordelaars is een gewone correlatiecoëfficiënt direct ongeschikt.

Zie ook het artikel van [http://www-users.york.ac.uk/~mb55/meas/ba.pdf Bland and Altman] voor meer voorbeelden van 'inappropriate' gebruik van een correlatiecoefficient bij het analyseren van agreement.

==Waar vind ik de ICC in SPSS?==

Je kunt de ICC uitrekenen met SPSS. Ga daarvoor naar Analyze -> Scale -> Reliablity Analysis. Vink onder 'Statistics...' de Intraclass correlation coefficient aan. Let op dat je een geschikt model en type kiest (zie onder) en dat de data in goede opzet staan. De dataopzet in een studie waarbij 3 raters verschillende subjects scoren is als volgt:

{| border ="1" style="width:450px" align="center" cellpadding="3"
! rater1 !! rater2 !! rater3
|-
|align="center"| score subject 1
|align="center"| score subject 1
|align="center"| score subject 1
|-
|align="center"| score subject 2
|align="center"| score subject 2
|align="center"| score subject 2
|-
|align="center"| score subject 3
|align="center"| score subject 3
|align="center"| score subject 3
|-
|align="center"| etc.
|align="center"| etc.
|align="center"| etc.
|-
|}

==Welk model moet ik gebruiken voor de berekening van mijn ICC?==

Er zijn 3 modellen die in SPSS gebruikt kunnen worden voor het berekenen van de ICC: Two Way Mixed, Two Way Random en One Way Random

===Wanneer gebruik ik Two Way Mixed?===
Het Two Way Mixed model gaat ervan uit dat er een vast aantal beoordelaars zijn die een sample van alle patiënten beoordelen. Dit is bijvoorbeeld het geval als dezelfde samples een keer handmatig en een keer computergestuurd worden afgelezen. We zijn daarbij geïnteresseerd in de overeenstemming tussen deze twee specifieke technieken en willen dit niet extrapoleren naar een derde techniek oid.
===Wanneer gebruik ik Two Way Random?===
Het Two Way Random model gaat ervan uit dat de beoordelaars niet vast zijn, maar ook een random sample zijn van alle mogelijke beoordelaars. Dit is bijvoorbeeld het geval als er bij patiënten twee maal de temperatuur gemeten wordt. We zijn daarbij geïnteresseerd in de overeenstemming tussen de twee herhaalde metingen. Maar we willen hiermee ook iets kunnen zeggen over toekomstige herhalingen van temperatuurmetingen.
===Wanneer gebruik ik One Way Random?===
Het One Way Random model gaat ervan uit dat de beoordelaars een random sample zijn van alle beoordelaars, maar dat nu alle patiënten (of in het algemeen targets) beoordeeld worden. Omdat er in medisch onderzoek meestal gewerkt wordt met een sample uit de totale patiëntenpopulatie, wordt dit model daarbij niet vaak gebruikt.

===Heb ik het juiste model gekozen?===

''Ik heb een vraag over de berekening van de ICC voor het beoordelen van de mate van overeenstemming tussen twee observatoren. 2 observatoren hebben metingen gedaan van de temperatuur van patienten. Totaal zijn 8 metingen gelijktijdig uitgevoerd en daarna zijn er 32 metingen apart gedaan. We hebben deze eerste 8 metingen gezamenlijk laten uitvoeren om te bepalen of er voldoende overeenstemming is in het meten. Nu heb ik voor het bepalen van de ICC gebruik gemaakt van een one-way random model. Mijn vraag is, is dit correct?

De 8 metingen kunnen gezien worden als een sample van alle (40) metingen. Bij een one way random model ga je ervan uit dat je alle metingen (dubbel) hebt gemeten. Dat is hier niet het geval. Dat brengt de keuze terug naar two way random of two way mixed. Dat hangt ervan af. Als je met deze ICC puur iets wilt zeggen over in hoeverre deze twee observatoren voldoende overeenstemming hadden, dan gebruik je two way mixed. Als je de uitspraak wilt generaliseren naar 2 beoordelaars in het algemeen (ook andere beoordelaars) dan gebruik je two way random.

==Welk type moet ik gebruiken voor de berekening van mijn ICC?==
Er zijn in SPSS twee typen die gebruikt kunnen worden bij de berekening van een ICC: Consistency en Absolute Agreement. Bij 'consistency' ben je geïnteresseerd in een sterke samenhang tussen de beoordelingen, waarbij structurele verschillen tussen beoordelaars minder van belang zijn. Als de interesse ligt in precieze overeenkomst, dan wordt er gekozen voor de optie 'absolute agreement'.

==Moet ik de 'single measures' of 'average measures' ICC uit mijn output gebruiken?==

''Ik heb de ICC berekend voor verschillende parameters en nu krijg ik bij de output een ICC voor single measures en één voor average measures. Welke ICC moet ik nemen?

Je bent meestal geïnteresseerd in de 'single measures' uitkomst. De average measure is van belang als je ook daadwerkelijk het gemiddelde van de twee methodes zou willen gebruiken als beoordeling.

==Hoe kan ik de ICC interpreteren?==
De ICC is gedefinieerd als het aandeel ware variantie ten opzichte van de totale variantie. Verschillen tussen metingen kunnen het gevolg zijn van echte verschillen (tussen personen, of binnen personen bij herhaalde metingen) of van ruis: verschillen die zijn toe te schrijven aan onvolkomenheden in het meetinstrument of de test zelf of aan de beoordelaar. Bij een perfect instrument zijn alle verschillen “echt”, en is de ICC dus 1. Bij een waardeloos instrument zijn alle verschillen ruis, en is de ICC 0. Anders gezegd: Hoe lager de ICC, hoe meer variatie de methode van beoordeling veroorzaakt heeft en dus hoe slechter de overeenstemming tussen beoordelingen. De ICC wordt op vergelijkbare manier als de [[Cohen's_kappa#Hoe_interpreteer_ik_Cohen.E2.80.99s_Kappa.3F|kappa coëfficiënt]] geclassificeerd.

Vrij gezegd vertelt een lage ICC dat een andere manier van beoordeling iemand werkelijk als 'andere patient / andere herhaling' kan classificeren, bij een hoge ICC zijn de verschillen tussen de beoordelingen gering tov de ware verschillen. Let op: doordat de ICC deze relatieve bijdrage van patientverschillen tov totale verschillen berekent, zal de ICC gevoelig zijn voor de range aan waardes die voorkomen in de populatie. In een heterogene populatie zal een ICC hogere waardes geven dan in een homogene populatie (zie ook de volgende vraag).

==Hoe kan ik 2 ICCs met elkaar vergelijken?==
''187 pt zijn 2x gezien door endoscopisten die de lengte van het Barrett hebben geschat: ICC 0.91. Vervolgens heb ik 2 groepen gemaakt op basis van Barrett slokdarm lengte groep I (Barrett 5cm of kleiner, n=94) ICC 0.44, groep 2 (Barrett lengte groter dan 5 cm, n=93) ICC 0.83. Hoe kan ik laten zien dat deze 2 ICC's significant verschillend zijn?

Je zou kunnen zeggen dat deze twee ICC's onafhankelijk van elkaar zijn en ze dus mbv een t-test vergelijken. Je hebt neem ik aan ook de SE's van de twee schattingen? In [http://www.openepi.com/OE2.3/menu/openEpiMenu.htm OpenEpi] zit een handig menu'tje om deze test te doen als je gemiddelde, groepsgrootte en SE weet. Let er wel op dat de ICC sterk afhankelijk is van de spreiding die er uberhaupt tussen personen is. Dat verklaart ook waarom de ICC in de totale groep veel hoger is dan in de 2 groepen afzonderlijk. In de totale groep is veel meer spreiding, dus is de spreiding tussen de 2 endoscopisten relatief klein tov de totale spreiding. Ik kan me voorstellen dat een zelfde iets aan de hand is bij de 2 groepen, dat wil zeggen dat de aanwezige spreiding bij de >5 groep groter is dan bij de <5 groep? Denk goed of de ICC wel een geschikte maat is voor jouw vergelijking.

==Referenties==
*[http://wynneconsult.com/root/Assoc/Intr341.htm Kennisbasis - pagina intraclass correlatiecoefficient] Goede uitleg over de ICC, inclusief meerdere voorbeelden en de formules voor hoe de ICC zelf uit te rekenen in verschillende situaties.
*[http://www.ncbi.nlm.nih.gov/pubmed/18839484 Shrout, P. E., and J. L. Fleiss. 1979. Intraclass correlations: Uses in assessing reliability. Psychological Bulletin, 86:, 420-428.]
*[http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3402032/ Hallgren KA. Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial. Tutorials in quantitative methods forpsychology. 2012;8(1):23-34.]
*Cicchetti DV. Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment. 1994;6(4):284–290.

{{onderschrift}}

Multivariabele regressie

2016-11-17T08:19:52Z

Nan van Geloven:

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}
Bij een multivariabele regressie worden er meerdere voorspellers tegelijkertijd gerelateerd aan de uitkomstmaat. Vaak wordt een multivariabel regressiemodel gebruikt om te corrigeren voor mogelijke confounders.

== Hoe interpreteer ik een verschillende uitkomst in een univariabel en multivariabel model? ==

''Voor een van mijn studies heb ik een logistische regressie analyse gedaan. Mijn outcome is een dichotome variabele: 1 is verbetering 0 is geen verbetering. Vervolgens wil ik weten of leeftijd en bepaalde genetische afwijkingen wel of geen invloed op die outcome hebben. Als ik alleen leeftijd toevoeg aan mijn model komt deze als zeer zeer significant uit de bus. Als ik daar dan vervolgens de genetische variabelen aan toevoeg, verdwijnt de significantie van age als predictor (p=0.054) en zijn alleen de genetische variabelen significante predictoren. Mijn vraag is nu, hoe moet ik dit interpreteren?

Als een variabele in je multivariabele model niet significant is, dan betekent het dat deze geen significante associatie heeft met de uitkomstmaat, rekeninghoudend met het effect van de andere variabelen die op dat moment in je model zitten (dus conditioneel op die variabelen). Bij jou lijkt het er op dat het effect leeftijd gecorrigeerd voor de andere covariaten geen significant effect (bij een signniveau van 5%) heeft op de uitkomstmaat. Dit kan door twee zaken beïnvloed worden. Of de andere covariaten vagen het effect van leeftijd weg, of er is niet genoeg data om het effect van leeftijd als significant te bestempelen. Ook al is het conditionele (gecorrigeerd in een multivariabel model) verband even groot als het onconditionele (univariabel model), dan nog is vaak de precisie van het conditionele model minder groot (bredere [[betrouwbaarheidsinterval|betrouwbaarheidsintervallen]]), doordat men in een model meerdere verbanden schat en daardoor minder kracht heeft effecten aan te wijzen. Door niet alleen naar de p-waarde, maar ook naar het confidence interval te kijken, ben je iets minder afhankelijk van de harde (maar willekeurige) 5% grens.

== Hoeveel variabelen mag ik meegeven aan mijn model? ==

''Ik wil graag een multivariabele logistische analyse doen voor de risicofactoren voor obesitas binnen een patientengroep. Hoeveel variabelen (risicofactoren) mag ik testen op 893 patienten?

Een vuistregel is dat bij [[logistische regressie]] het aantal parameters in een multivariabel model maximaal 5% tot 10% mag zijn van het minimum van het aantal mensen met en zonder obesitas (event) in je sample. Dus als je 300 met en 593 zonder obesitas hebt, mag je max 15 tot 30 parameters in je model opnemen. Ik spreek hier over parameters, niet over variabelen, omdat bijv. een categorische variabele met 3 categorieen 2 extra parameters in je model geeft.
Bij [[logistische regressie]] heb je per parameter dus minimaal 10, maar het liefst ten minste 20 of 30, 'events' nodig. Bij minder 'events' kunnen de schattingen van de parameters misleidend zijn. Hierbij tel je het uitkomst dat het minst vaak voorkomt als event. Stel je hebt een onderzoek waarbij 285 van de 300 patienten overlijdt en 15 niet. Dan zijn er 15 'events'.

[http://dx.doi.org/10.1016/S0895-4356(96)00236-3 Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. ''J Clin Epidemiol''. 1996 Dec;49(12):1373-9.]

Bij een [[lineaire regressie|lineair regressie model]] luidt de vuistregel dat het aantal parameters max 5% tot 10% mag zijn van het totaal aantal gebruikte observaties mag zijn, oftewel minimaal 10 a 20 patienten per variabele. Deze suggestie wordt oa gedaan in het boek van Harrel <cite>[Harrel]</cite>. Wanneer je een meer nauwkeurige schatting van het benodigd aantal voorspellers wilt hebben, dan zul je een inschatting moeten doen van de verwachte sterkte van de voorspellers, zie ook de suggesties in twee andere posts op deze wiki:
*[[Poweranalyse#Welke_informatie_heb_ik_nodig_voor_een_poweranalyse_als_ik_een_multivariabele_lineaire_regressie_ga_doen.3F|poweranalyse voor een multiariabel lineair regressiemodel]] en
*[[Poweranalyse#Hoeveel_pati.C3.ABnten_heb_ik_nodig_om_een_predictie_model_te_bouwen.3F|poweranalyse bij een predictiemodel]].

== Hoe kies ik welke variabelen ik meeneem in mijn multivariabele model? ==

''Ik heb 90 patienten waarbij ik baseline parameters heb verzamled (9 lab parameters en 13 klinische parameters). Met een non-parameterische test heb ik gevonden dat 1 lab parameter en enkele klinische parameters verschillend zijn tussen beide uitkomst groepen (=diagnose wel/niet na 2 jaar). Nu wilde ik kijken welke parameters het beste voorspellend zijn voor uitkomst. Ik heb backward logistische regressie gedaan met de parameters die eerder een significant verschil lieten zien, maar ik weet niet zeker of dit de beste keuze is. Mogelijk moet het anders of moeten er meer parameters in of moeten parameters gecombineerd worden?

In jouw geval waarin je 90 patienten hebt en het effect van 21 (9+13) variabelen wilt testen, heb je niet genoeg patienten om al deze variabelen in 1 multivariabel model te testen (hetgeen natuurlijk het mooist zou zijn). Er moet dus een keuze gemaakt worden welke variabelen meegegeven gaan worden in een multivariabel model. Er bestaat geen consensus over de beste wijze om variabelen te selecteren, maar de keuze maak je altijd op basis van twee criteria:
*1. Van welke variabelen verwacht ik een effect / welke variabelen vind ik relevant?
*2. Voor welke variabelen geeft de data aan dat er een effect zou kunnen optreden (welke wijst het model als significant aan)?
Wat jij hebt gedaan is een soort univariabele preselectie van variabelen, waarbij je de variabelen eerst los test en degene die daar significant uitkomen meegeeft in een multivariabel model. Hoewel er methodologische nadelen te noemen zijn van deze aanpak, is het een veel gebruikte. Hierbij probeer je vraag 2 te beantwoorden. Je beschrijft echter dat je deze preselectie op basis van een niet-parametrische toets hebt gedaan, en dus niet op basis van hetzelfde (logistische?) model als waarin je de multivariabele analyse hebt gedaan. Als je hetzelfde model gebruikt, zou het de analyse consistenter maken. Verder is het zaak om bij de preselectie niet te streng te zijn met afwijzing. Een p-waarde van 0,10 of 0,20 zou hiervoor aangehouden kunnen worden. Je uiteindelijke conclusies zullen gebaseerd zijn op het multivariabele model waar je wel met een gebruikelijke strenge p-waarde kunt rekenen.
Kijk ook nog eens kritisch naar de variabelen in het kader van vraag 1. Het combineren van variabelen ten slotte is ook een goede manier om het aantal te testen variabelen te verkleinen.

== Ik heb backwards selection gebruikt - hoe interpreteer ik mijn resultaten? ==

''Ik ben bezig met een onderzoek naar welke variabelen van invloed zijn op een tumorbiopsie-uitkomst (wel of geen diagnose). Hiervoor heb ik een aantal parameters (bijv. tumorgrootte, lokatie van de tumor, in welke mate de tumor uitstulpt etc) genomen waarvan ik verwacht dat ze van invloed zijn. Ik heb er een backward multiple regressie op los gelaten en krijg hier ook wel resultaten uit, maar weet niet zo goed hoe ik die moet interpreteren.

De output vertelt welke factoren in het uiteindelijke model samenhangen met de uitkomst. Je ziet in de ouput de p waarde en een richtingscoefficient B met standaard error (SE (B)). Deze richtingscoefficient geeft aan hoe groot het effect is. Als je stapsgewijs variabelen uit je model haalt die niet significant bijdragen aan je model (zoals jij dat hebt gedaan), hou je uiteindelijk de variabelen over die dus significant geassocieerd zijn met je uitkomst, terwijl je corrigeert voor de andere variabelen in je model. Als je nog verder zou willen gaan kun je er ook voor kiezen om forward te doen en kijken of dan dezelfde variabelen samenhangen met je uitkomst.

== Hoe kan ik het best mijn variabelen selecteren, dmv handmatige selectie of met een automatische procedure? ==

''Er zijn verschillende methode voor het doen van een multivariabele regressie. Ik wil een backwards selectiestrategie aanhouden. Wat is aan te raden? Een handmatig procebure met enter selection, waar bij je handmatig de variabele met de hoogtste p waarde verwijdert tot er een set variabelen overblijft die allemaal significant zijn, of een automatische backward procedure?

Ik adviseer de handmatige manier, omdat je daarmee zelf de stappen in de hand hebt, je data leert kennen, en kunt bijsturen waar nodig. Doorgaans wil je niet dat belangrijke selecties door een ‘machine’ gebeuren, je wilt kunnen bemerken daar waar juist zeer relevant geachte variabelen eruit gaan en ook daar waar mogelijk sprake is van [[Multivariabele_regressie#Er_is_overlap_tussen_twee_van_onze_voorspellers.2C_mogen_deze_samen_in_een_multivariabel_model.3F|colineariteit]] etc.

De enige reden om voor automatisch te gaan is dat daarbij vaak ook na exclusie van een variabele de set van reeds afgevallen voorspellers opnieuw een voor een aangeboden wordt aan het kleinere model om te zien of ze nu wel sign bijdragen. Uiteraard kun je dit ook handmatig doen, maar dat is wat veel werk. Een mooie combi is het eerst handmatig te doen en daarna ter controle nog eens automatisch.

== Hoe rapporteer ik de resultaten van mijn multivariabele model? ==

''Voor een vragenlijstonderzoek betreffende kwaliteit van leven heb ik in de analyse lineaire regressie gedaan met forward selection. In het uiteindelijke model zijn er variabelen met een niet-significante p-waarde. Als je een tabel maakt van de variabelen in het uiteindelijke model, zouden jullie die dan sorteren op grootte van de beta, op significantie van de p-waarde of op grootte van de verklaarde variantie? Of zouden jullie gewoon de output van SPSS overnemen?

Er zijn geen vaste regels voor de volgorde waarin je variabelen in een tabel zet. Er zou bijvoorbeeld hierarchie in de variabelen kunnen zitten, of chronologische volgorde (bijvoorbeeld eerst leeftijd en geslacht en pas later de invloed van roken oid). Het is wel helder om alle variabelen van je uiteindelijke model (dus ook niet significante) te laten zien, dan kan een lezer zien naast welke andere voorspellers de variabelen beoordeeld zijn.

== Hoe selecteer ik mbv univariabele regressie factoren voor in een multivariabele regressie? ==

''Wij analyseren de verschillen in uitkomst (success rate) tussen twee operaties. We hebben eerst een aantal factoren los getest op invloed op success rate. Daarna de significante factoren overgebracht naar een multivariabele logistische regressie. Is dit een goede methodiek?

Bij dergelijke 'univariabele preselectie' is het methodologisch te prefereren om niet alleen variabelen die significant zijn in de univariabele analyse door te schuiven naar multivariabele, maar daarbij een meer coulante p-waarde aan te houden (bijv variabelen met univariabele p<0.20 of p<0.30).

== Wanneer is het noodzakelijk om leeftijd en geslacht als covariaat mee te nemen in mijn analyses? ==
''Ik doe oa. een [[t-toets#ongepaarde t-toets|independent sample t-test]] om het verschil op een afhankelijke variabele (continu) te bekijken tussen twee groepen en [[chi-kwadraat toets|Pearson Chi-Square analyses]] om het verschil op een afhankelijke variabele (dichotoom) te bekijken tussen twee groepen.

''Nu heb ik wel bekeken of de twee groepen significant van elkaar verschillen qua leeftijd en geslacht. Dit is niet zo en om deze reden heb ik leeftijd en geslacht niet meegenomen in mijn verdere analyses. Is dit zo voldoende gegrond of moet je ook bekijken hoe het zit met de relatie tussen geslacht/leeftijd en de afhankelijke variabele?

Uitgangspunt van meenemen zijn de volgende:
1. Als er een verschil in leeftijd/geslacht is in de twee groepen & leeftijd en geslacht hebben wel invloed op de uitkomstmaat, dan moet je ervoor corrigeren, want dan kan het tot bias leiden.
2. Als er een verschil in leeftijd/geslacht is in de twee groepen & leeftijd en geslacht hebben geen invloed op de uitkomstmaat, dan zal meenemen van de variabelen niet tot andere resultaten leiden en kun je dat dus net zo goed niet doen.
3. Als er geen verschil in leeftijd/geslacht is in de twee groepen & leeftijd en geslacht hebben geen invloed op de uitkomstmaat, dan zal meenemen van de variabelen niet tot andere resultaten leiden en kun je dat dus net zo goed niet doen.
4. Als er geen verschil in leeftijd/geslacht is in de twee groepen & leeftijd en geslacht hebben wel invloed op de uitkomstmaat, dan zal meenemen van de variabelen niet tot andere schattingen leiden voor de groepsvariabele, maar kan er wel een sterker model komen door rekening te houden met de extra factoren. Het significantieniveau van de groepsvariabele kan hierdoor wel veranderen, daarom wil je de variabelen het liefst wel meenemen in het model.

Of de variabelen verschillen over de groepsvariabele kun je het beste in je eigen data bekijken (dit hoeft niet een significant verschil te zijn, dus een verschil is er al snel, in geval van een gerandomiseerde groepsverdeling kun je er meestal vanuit gaan dat er geen verschil is). Of er reden is om aan te nemen dat leeftijd en geslacht de afhankelijke variabele(n) beinvloeden, kun je het best op basis van (externe) kennis beoordelen. Als je goede redenen hebt om aan te nemen dat dat zo is, dan zou je ze (zowiso) mee kunnen nemen in een multivariabel model. Het zou namelijk kunnen dat die invloed er wel is, maar dat je die in jouw eigen data toevallig niet terugvindt.

Voorwaarde voor meenemen van extra covariaten is wel dat je voldoende data hebt om zo'n extra term in het model op te kunnen nemen (qua power). Als je niet voldoende ruimte hebt in de data, dan zou je de variabelen leeftijd en geslacht minder 'graag' willen meenemen. Je kunt dan een 'voorselectie' doen en in je eigen data kijken of er reden is om ze mee te nemen. Bijvoorbeeld door toch weer naar de invloed in je eigen data te kijken:
1. kijken of ze verschillen over de 2 groepen (zoals jij gedaan hebt)
2. kijken of ze (univariabel) invloed hebben op de uitkomstmaat.
Zie hierbij ook de voorgaande vraag over [[multivariabele regressie#Hoe selecteer ik mbv univariabele regressie factoren voor in een multivariabele regressie.3F|preselectie]].

== Hoe kies ik welke variabelen ik in mijn model moet meenemen? ==

''Ik heb een databestand met een heleboel variabelen. Ik ben op zoek naar een zo eenvoudig mogelijk (en dus makkelijk toepasbaar) voorspellend model. Hoe kies ik welke variabelen ik in mijn model moet meenemen?''

Er zijn veel verschillende manieren om een multivariabele model te bouwen. We geven hier een voorbeeld van een eenvoudige procedure. Deze procedure is toepasbaar op verschillende vormen van regressie analyse.
* '''Stap 1'''. Voer een reeks regressie analyses uit, waarbij je steeds een verklarende variabel tegelijk meeneemt. Noteer bij elke analyse de p-waarde van de verklarende variabel in de regressie analyse.
* '''Stap 2'''. Neem alle variabelen die in stap 1 een p-waarde kleiner dan 0.3 hebben. Voer een regressie analyse met deze variabelen allemaal tegelijk.
* '''Stap 3'''. Verwijder de variabel uit stap 2 met de grootste p-waarde en voer de regressie analyse opnieuw uit.
* '''Stap 4'''. Herhaal stap 3 totdat alle variabelen die nog in het model zijn een p-waarde kleiner dan 0.05 hebben.
* '''Stap 5'''. Als alle variabelen een p-waarde kleiner dan 0.05 hebben, heb je je uiteindelijke model. Je kunt dit model verder in je manuscript beschrijven.

== Er is overlap tussen twee van onze voorspellers, mogen deze samen in een multivariabel model? ==

''We zijn op zoek naar voorspellende factoren voor het optreden van hepatitis A. We hebben verschillende factoren univariaat getoetst (leeftijd, geslacht, comorbiditeit, etc). Nu vonden we in de univariate analyse dat "man" vs. "vrouw" positief geassocieerd was met de uitkomstmaat en dat "comorbiditeit" negatief geassocieerd was (getoetst met een [[Chi-kwadraat toets]]). In de groep "zonder comborbiditeit" zitten veel mannen en in de groep "met comorbiditeit" zitten veel vrouwen, er is dus enige overlap in de groepen. Is het mogelijk om beide voorspellende factoren in een multivariabele logistische regressie te stoppen, of moeten wij daarvoor eerst bv. de mate van overlap toetsen omdat het model anders instabiel wordt?

De mate van overlap tussen de twee voorspellers mag inderdaad niet te hoog zijn, dan zal het model zoals je zegt instabiel worden. Dat wordt het probleem van colineariteit genoemd. Het is goed om daar eerst naar te kijken, al zijn er geen harde grenzen aan te geven voor wanneer de overlap te groot is. Wat wel eens gehanteerd wordt is dat de [[correlatie|correlatiecoefficient]] tussen de twee voorspellers niet hoger mag zijn dan 0.8. Wanneer het model instabiel wordt, zul je dat zien aan zeer grote standaard errors van de regressiecoefficienten. Je kunt in SPSS ook handig gebruik maken van de optie 'Colinearity Diagnostics' te vinden onder 'Statistics' bij de [[Lineaire_regressie#Waar_vind_ik_lineaire_regressie_in_SPSS.3F|lineare regressie]] procedure. Je doet dan net alsof je een lineaire regressie wilt doen, vraagt om deze diagnostics en kijkt dan in de output alleen naar dat gedeelte om te beoordelen of de voorspellers niet te veel overlap bevatten.

== Hoe moet ik corrigeren voor baseline waardes? ==

''Wij doen een onderzoek naar het voorspellers van fysiek functioneren na totale heup prothesen. Onze uitkomst maat van fysiek functioneren, HOOS (Hip disability and Osteoarthristis Outcome Score), drukt de functie uit op een schaal van 0-100 gemeten op de baseline en na 2 jaar. De volgende regressies met als voorspeller leeftijd en als afhankelijke variabele de HOOS zijn gedaan.

*''1: uitkomst HOOS absolute uitkomst op 2 jaar, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
*''2: uitkomst HOOS verschil score tussen 2 jaar en baseline, predictoren leeftijd + baseline HOOS, p-waarde voor leeftijd: 0.503
*''3. uitkomst HOOS verschil score tussen 2 jaar en baseline, predictor leeftijd (ongecorrigeerd), p-waarde voor leeftijd: 0.048

''Zoals u ziet is er een verschil in significantie afhankelijk van de correctie voor baseline. Welke uitkomst moet ik gebruiken?

Een waarschijnlijke verklaring van jouw uitkomsten is dat de correlatie tussen leeftijd en HOOS score op baseline de schijnbare significantie in model 3 veroorzaakt. In het algemeen is het aan te raden de baseline score als covariaat mee te geven in het model, zie ook de [[Multivariabele_regressie#Referenties|EMA Guideline on adjustment for baseline covariates (draft April 2013)]], paragraaf 4.2.6, daar staat ook de te verwachten overeenstemming van model 1 en 2 genoemd.

== Referenties ==
<biblio>
#Harrel Regression Modeling Strategies with Applications to Linear Models, Logistic Regression and Survival Analysis. Frank E. Harrell, Jun, Springer-Verlag, New York, 2001. No. of pages: 568. ISBN 0-387-95232-2.
</biblio>

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500003639.pdf EMA Points to consider on adjustment for baseline covariates (final 2003)]
*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2013/06/WC500144946.pdf EMA Guideline on adjustment for baseline covariates (draft April 2013)]

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2014/02/WC500160523.pdf EMA Guideline on the investigation of subgroups in confirmatory clinical trials (draft Feb 2014)]

*[http://www.ncbi.nlm.nih.gov/pubmed/15184705 What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models, Babyak M.A., Psychosom Med. 2004 May-Jun;66(3):411-21]

*[http://www.ncbi.nlm.nih.gov/pubmed/21030068 Everything You Always Wanted to Know About Evaluating Prediction Models (But Were Too Afraid to Ask)] Andrew J. Vickers and Angel M. Cronin, Urology Volume 76, Issue 6, December 2010, Pages 1298-1301.

{{onderschrift}}

Cursusmateriaal

2016-05-26T07:12:48Z

Nan van Geloven:

==Biostatistiek op het internet==

Op de volgende pagina's vind je betrouwbaar materiaal om zelf meer te leren over biostatistiek.

* [https://methodologiewinkel.webhosting.rug.nl/index.php?title=Overzicht Methodologiewiki] - vragen en antwoorden over statistiek, voornamelijk sociale wetenschappen - van de vakgroep Statistiek & Meettheorie van de Rijksuniversiteit Groningen
* [http://www.kennisbasisstatistiek.net Kennisbasis statistiek] - leeromgeving, uitgebreide glossary en forum over voornamelijk basisstatistiek - gemaakt door Herman Wijnne vanuit de Universiteit Utrecht
* [http://www.statisticalassociates.com/booklist.htm Statnotes] - diverse e-books over zowel basis als gevorderde statistische onderwerpen + hoe deze te specificeren in SPSS
* [http://www.statisticshell.com Statistics Hell] - website van Andy Field, schrijver van het boek 'Discovering Statistics using SPSS'. De site geeft uitgebreide handouts (boekdelen) en filmpjes over SPSS analyses, zie het kopje Statistics Hell'p.
* [http://statmaster.sdu.dk/courses/st111/ Regression analysis and ANOVA] cursusmateriaal met de master Applied Statistics, Dr Pia Veldt Larsen Department of Statistics University of Southern Denmark.
* [http://sph.bu.edu/otlt/MPH-Modules/Modules_Menu.html leermodules van de Boston University School of Public Health] - Zeer veel vrij toegankelijke leermodules op het gebied van epidemiologie en biostatistiek.
* [http://www.rug.nl/umcg/faculteit/disciplinegroepen/epidemiologie/downloadarea/index lezingenserie 'Help! Statistiek!'] - presentaties van toegankelijke lezingen over verscheidene statistiek onderwerpen - afdeling Epidemiologie van het UMC Groningen
* [http://talkstats.com/ Talkstats] Gemodereerd forum over statistiek (Engels).
* [http://www.bmj.com/collections/statsbk/ BMJ - Statistics at Square One] Basisboek over biostatistiek, eerste uitgave in 1976, nu online beschikbaar via BMJ, auteur M J Campbell. Alle basis testen, correlatie en regressie en survival analyse in detail uitgelegd, incl. formules waarmee de testen uitgerekend kunnen worden.
* [http://www.spsstools.net/ SPSS Tools] Website van Raynald Levesque met veel handige syntax van bewerkingen in spss.

==SPSS tutorials op het internet==
*[http://www.cst.cmich.edu/users/lee1c/spss/toc.htm SPSS tutorial movies from the Central Michigan University] Zeer goede kwaliteit instructiefilms over het aansturen van SPSS. Van begin tot geavanceerde analyses.
*[http://www.youtube.com/playlist?list=PL6B445216E3B93D2C&feature=plcp YouTube kanaal van de California State University Los Angeles] tutorial filmpjes over werken met SPSS, veel basisfuncties (bijv split file, werken met syntax). Handig om bekend te raken met de aanstuurmethode van SPSS.
*[http://www.youtube.com/playlist?list=UUr3OHuCSrwAO2KYP2CJB6zg&page=1 YouTube kanaal 'how2stats'] met >200 filmpjes over toetsen in SPSS.
*[http://www.ats.ucla.edu/stat/seminars/ UCLA Academic Technology Services Online Seminars and Classes] Filmpjes met statistische uitleg - vooral veel handige uitleg over hoe om te gaan met [[statistische software]] (SPSS, SAS, Stata)
*[http://www.ats.ucla.edu/stat/dae/ UCLA Academic Technology Services Data Analysis Examples] Goede en uitgebreide voorbeelden van hoe verschillende analyses in verschillende software pakketten uit te voeren. Inclusief uitleg over hoe de output te interpreteren.

==E-learning cursussen in de biostatistiek==
*[http://www.elearningbiostatistics.com e-learning Practical Biostatistics] Een in het AMC ontwikkelde cursus met 30 uur aan online cursusmateriaal inclusief SPSS tutorials.
*[http://www.healthknowledge.org.uk/e-learning HealthKnowledge] Een zestal e-learning modules voor public health professionals op twee niveaus - practitioner en specialist - over de volgende onderwerpen: 1. Epidemiology 2. Health Information 3. Statistical Methods. Engelstalig, zeer uitgebreide lesstof, veel uitdagende oefenvragen gericht op begrip, geen SPSS uitleg, geen kosten.
* [http://www.statistics.com/ Statistics.com] biedt cursussen aan over veel verschillende aspecten van de statistiek en data analyse.

==Live cursussen in de biostatistiek==

*Binnen het AMC/de UvA verzorgen Clinical Research Unit en de afdeling Klinische Epidemiologie Biostatistiek en Bioinformatica (vanuit de [https://www.amc.nl/web/Onderwijs/PhD-6/AMC-Graduate-School/About-the-AMC-Graduate-School.htm Graduate School]) en de Universitaire Masteropleiding [https://www.amc.nl/web/Onderwijs/Aankomend-student/Master-Evidence-Based-Practice/De-Master-EBP.htm Evidence Based Practice] cursussen over biostatistiek en epidemiologie.
* [http://nihes.nl/ NIHES] - De NIHES (Netherlands Institute for Health Sciences) biedt diverse opleidingen en cursussen aan op het gebied van biostatistiek en epidemiologie. Het AMC participeert in deze alliantie, de meeste activiteiten worden georganiseerd vanuit het Erasmus MC.
* [http://www.epidm.nl/ EpidM] - De afdeling Epidemiologie en Biostatistiek van het VUmc biedt via EpidM cursussen over statistiek en epidemiologie aan.
* [http://netherlands.cochrane.org/ Cochrane Netherlands] verzorgt scholing over evidence based medicine, systematische reviews en meta-analyse.
{{onderschrift}}

Wiki Statistiek

2016-05-25T08:51:08Z

Nan van Geloven:

<div style="background:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">

<h2 style="margin:0px;margin-bottom:15px;background-color:#D1DAEB;font-size:120%;font-weight:bold;border:1px solid #faf5ff;text-align:left;color:#000;padding:0.2em 0.4em;"><font color="black"><big>'''Welkom op de wiki biostatistiek'''</big></font></h2>

In deze wiki worden antwoorden gegeven op veelgestelde vragen over statistiek in medisch onderzoek. Start uw zoektocht langs een van onze twee overzichtspagina's:

*Via het '''[[OVERZICHT]]''' ziet u snel alle statistische onderwerpen op deze wiki.

*Op de pagina '''[[KEUZE TOETS]]''' kunt u kijken welke toets of analyse geschikt is voor uw data.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Populaire pagina's'''

{| class="wikitable"
|-
| '''1''' || [[poweranalyse|Poweranalyse]] || '''6''' || [[Cohen's kappa]]
|-
| '''2''' || [[lineaire regressie|Lineaire regressie]] || '''7''' || [[Survival analyse]]
|-
| '''3''' || [[herhaalde metingen|Herhaalde metingen]] || '''8''' ||[[Randomiseren]]
|-
| '''4''' || [[Logistische regressie]] || '''9''' || [[Chi-kwadraat toets]]
|-
| '''5''' || [[t-toets|T-toets]] || '''10''' || [[Intraclass correlatie coefficient]]
|}
</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Nieuws'''
*1 juli 2015 De wiki biostatistiek heeft een nieuwe url: [https://wikistatistiek.amc.nl https://wikistatistiek.amc.nl]. We raden u aan uw favorieten en bladwijzers aan te passen.
*anno 2015 ontvangt deze hoofdpagina zo'n 1000 bezoeken per week, en wordt er ~14000x per week doorgeklikt naar andere pagina's
*sinds jan 2010 is de wiki beschikbaar op internet

'''Laatste toevoegingen:'''
*''[[T-toets#Wanneer_kunnen_we_gelijke_varianties_aannemen_in_de_t-toets.3F | Wanneer kunnen we gelijke varianties aannemen in de t-toets?]]
*''[[Fisher%27s_exact_toets#Kan_ik_Fisher.27s_exact_toets_ook_bij_grotere_steekproeven_gebruiken.3F | Kan ik Fisher's exact toets ook bij grotere steekproeven gebruiken?]]
*''[[Meta-analyse#Hoe_kan_ik_een_meta-analyse_op_kwaliteit_van_leven_uitvoeren.3F | Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?]]
*''[[Meta-analyse#Kan_ik_medianen_poolen.3F | Kan ik in een systematische review medianen poolen?]]
*''[[Meta-analyse#Kan_ik_p-waardes_in_plaats_van_betrouwbaarheidsintervallen_vermelden.3F | Kan ik in een systematische review p-waardes in plaats van betrouwbaarheidsintervallen vermelden?]]
*''[[Gemiddelde_en_mediaan#Wat_doe_ik_als_de_gemiddelde_minus_de_standaard_deviatie_ver_buiten_de_range_van_mogelijke_waarden_ligt.3F | Wat doe ik als de gemiddelde minus de standaard deviatie buiten de range van mogelijke waarden ligt?]]
*''[[Meta-analyse#Welke_software_kan_ik_gebruiken_om_een_meta-analyse_uit_te_voeren.3F | Welke software kan ik gebruiken om een meta-analyse uit te voeren?]]

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Over de wiki biostatistiek'''

De wiki biostatistiek is een initiatief van de [https://www.amc.nl/web/Research/ResearchAMC/Research-Support.htm AMC Clinical Research Unit]. De Clinical Research Unit biedt statistische ondersteuning aan AMC onderzoekers bij het ontwerpen, uitvoeren en rapporteren van statistische analyses. Daarnaast ontwikkelen we ondersteunende producten die toegankelijke uitleg geven over het gebruik van statistiek en statistische software in het medisch onderzoek. Meer informatie over de statistische ondersteuning van de AMC Clinical Research Unit is te vinden op onze [http://www.amc-cru.nl/methodologie.aspx?panel=STA website (AMC intranet)].

Heeft u opmerkingen over of wilt u meeschrijven aan de wikistatistiek? Neem dan [[meeschrijven | contact]] met ons op.

</div>

<div style="background-color:#fcfcfc; margin:0.5em; padding:1em; border:1px solid #960018;">
'''Meer leren over biostatistiek?'''

Volg dan de AMC e-learning Practical Biostatistics [http://www.elearningbiostatistics.com AMC e-learning Practical Biostatistics] of bezoek de pagina met links naar [[cursusmateriaal|andere websites en cursussen]].
</div>

One-way ANOVA

2016-05-25T08:50:23Z

Nan van Geloven:

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor=
}}
De One-way ANOVA (voluit One-way ANalysis Of VAriance) is een parametrische toetsings procedure voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De ANOVA toetst of de gemiddelden van 2 of meer onafhankelijke groepen gelijk zijn.

== Wanneer gebruik ik de One-way ANOVA? ==

Als je wilt toetsen of de gemiddelden van 2 of meer groepen aan elkaar gelijk zijn, kun je de ongepaarde One-way ANOVA gebruiken. In de regel wordt de One-way ANOVA alleen gebruikt bij het vergelijken van minstens 3 groepen. Voor de vergelijking van twee groepen is de One-way ANOVA gelijk aan het uitvoeren van een [[t-toets#ongepaarde t-toets | ongepaarde t-toets]].

De One-way ANOVA veronderstelt dat het de drie groepen uit een multivariate normale verdeling afkomstig zijn (in iedere groep heeft de variabele een normale verdeling). Er wordt vervolgens getoetst of de gemiddelden van deze verdelingen gelijk zijn of niet. De One-way ANOVA veronderstelt daarnaast dat de groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in de groepen gelijk verondersteld kan worden. Indien niet aan deze voorwaarden voldaan is, kan een niet parametrische [[Kruskal Wallis]] analyse overwogen worden.

Voorbeeld van het gebruik van de One-way ANOVA:
Stel je wilt testen of de (10 log) CD4 count gelijk is voor drie armen in een studie.

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="5" align="left"|Table 1. log 10 CD4 counts in the three treatment arms
|-
|align="left" |Variable*
|align="center"|Treatment arm 1
|align="center"|Treatment arm 2
|align="center"|Treatment arm 3
|align="center"|p-value**
|-
|Log 10 CD4 counts
|align="center" | 4.5 (1.3)
|align="center" | 4.0 (1.5)
|align="center" | 4.1 (1.6)
|align="center" |0.66
|-
|colspan="5" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with one-way ANOVA.
|}
[[Image:figuur ANOVA0.jpg]]

== Wat doe ik als mijn data niet voldoen aan de assumptie van gelijke varianties in de groepen? ==

''Wij hebben een dierexperimentele studie waarbij ratten met verschillende strategieen zijn beademend en al dan niet een medicamenteuze voorbehandeling hebben gekregen. In ieder van de 4 experimentele groepen zijn 6 ratten geincludeerd. Ik heb de one-way ANOVA gebruikt indien de test voor gelijke varianties (Bartlett's test for equal variances) geen significante waarde opleverde. Indien de p-waarde van deze test <0.05 was, heb ik een log transformatie op de data toegepast en de ANOVA analyse hierop gerund. Indien de p-waarde na transformatie nog steeds ruim onder de 0.05 was, heb ik de Kruskall-Wallis analyse gebruikt. Volgens de checklist die GraphPad Prism levert, zou dit statistisch verantwoord zijn. Over 1 analyse heb ik echter een vraag. De Bartlett's test geeft nl een waarde van p<0.0001 indien de data niet getransformeerd zijn en na log transformatie een waarde van 0.0318. Zowel de ANOVA als Kruskal-Wallis geeft een statistisch verschil aan tussen de verschillende experimentele groepen maar de post-hoc analyses verschillen behoorlijk, waarbij bij de non-parametrische test in de post-hoc analyse (Dunns test) nagenoeg geen verschillen tussen de groepen aangeeft.
''Nu zegt de uitleg die bij het programma wordt geleverd, dat je kritisch moet kijken of je de ANOVA verwerpt indien de Bartlett's test niet veel onder de 0.05 uitkomt, aangezien bij kleine aantallen de Kruskall-Wallis niet zo'n krachtige test is. Kan ik dit inderdaad doen, want als ik naar de grafieken kijk, geeft de post-hoc analyse van de ANOVA (de Newman-Keuls test) een uitslag die veel meer bij de visuele data past?

Je verhaal klopt. Testen voor gelijke varianties zijn soms streng (met name bij de kleine aantallen). Een p-waarde van 0.04 zit dicht bij je grens waarbij je het wel mag accepteren. Ik zou inderdaad naar de ruwe (log) waardes kijken en me afvragen wat je daar ziet. Bij kleine aantallen kunnen met name outliers zorgen voor andere resultaten. Je zou daar dus nog naar kunnen kijken. Als je inderdaad een enorme outlier hebt, zou je eens moeten kijken als die eruit is of je ANOVA van de ln waarde dan nog steeds significant is.
Non-parametrisch is inderdaad vaak strenger (en dus minder snel significant) dan paramtetrisch, maar wordt ook veel minder door outliers beinvloed.

== Waar vind ik de One-way ANOVA in SPSS?==

Je vindt de One-way ANOVA in SPSS 16 onder Analyze->Compare Means.

== Referenties ==

*[http://www.teorekol.lu.se/statistics_for_biologists/SPSS_ANOVA_guide.pdf A short guide to running ANOVA:s in SPSS] Door Jörgen Ripa - legt uit hoe one-way anova's, maar ook meer geavanceerde ANOVAs, in SPSS gespecificeerd kunnen. Zeer handig om de ANOVA SPSS syntax beter te begrijpen.

{{onderschrift}}

T-toets

2016-05-25T08:48:58Z

Nan van Geloven: /* Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
|coauthor=
}}
De t-toets is een parametrische toets voor het testen van hypothesen over de gemiddelden van (semi-)continue data. De meest gebruikte t-toets is de [[T-toets#ongepaarde t-toets|ongepaarde t-toets]]. Deze toets vergelijkt de de gemiddelden van 2 onafhankelijk groepen. Voor [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]] groepen is er de [[T-toets#gepaarde t-toets|gepaarde t-toets]] en voor hypotheses over het gemiddelde in 1 groep de [[T-toets#one sample t-toets|one sample t-toets]].

=ongepaarde t-toets=
== Wanneer gebruik ik de ongepaarde t-toets? ==

Als je wilt toetsen of de gemiddelden van twee aparte groepen aan elkaar gelijk zijn, kun je de ongepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de gemiddelde leeftijd gelijk is voor twee armen in een studie.

De t-toets veronderstelt dat het gemiddelde verschil tussen de twee groepen normaal verdeeld is. Als beide groepen afkomstig zijn uit een normaal verdeelde populatie is hieraan voldaan. Je kunt daarom beoordelen of jouw studie sample aan de normaliteit assumptie van de two sample ongepaarde t-toets voldoet door voor beide groepen het histogram te bekijken of een formele toets te doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef de groepsvariabele op onder "Factor List").

De standaard two sample ongepaarde t-toets veronderstelt daarnaast dat beide groepen uit een verdeling komen met dezelfde variantie (spreiding). Met bijvoorbeeld 'Levene's Test for equality of variance' kun je testen of de variantie in beide groepen gelijk verondersteld kan worden. SPSS geeft in zijn output van de two sample ongepaarde t-toets dit testresultaat plus het resultaat van de t-toets bij het wel of niet veronderstellen van gelijke variantie.

Voorbeeld van het gebruik van een ongepaarde t-toets:

{| border ="1" style=align="center" cellpadding="3" cellspacing="0"
! colspan="4" align="left"|Table 1. Baseline characteristics of the patients
|-
|align="left" |Variable*
|align="center"|Treated Group
|align="center"|Placebo Group
|align="center"|p-value**
|-
|Age - yr
|align="center" | 67 (5.0)
|align="center" | 64 (4.2)
|align="center" |0.12
|-
|Weight - kg
|align="center" | 79 (10.2)
|align="center" | 85 (15.4)
|align="center" |0.33
|-
|colspan="4" rowspan="2"| *Variables are denoted as mean (SD). **Group differences were tested with the two sample unpaired t-test.
|}

== Welke toets kan ik gebruiken voor het vergelijken van twee virusmetingen? ==
''Ik heb 2 metingen gedaan (betrefende de hoeveelheid van een virus: niet normaal verdeeld) op tijdstip A en tijdstip B bij een patienten populatie. Deze populatie heb ik opgesplist in 2 groepen, nl: opgeknapt en niet opgeknapt. Nu wil ik weten of de afnamen (of toenamen) van hoeveelheid virus verschilt voor de opgeknapte en niet opgeknapte patienten. Ik wil graag weten welke toets ik hiervoor kan gebruiken.

Voor het ontwerp wat je omschrijft zijn meerdere aanpakken mogelijk. Ik doe hier een voorstel: Indien je geïnteresseerd bent in de afname (of toename) tussen de twee tijdstippen, kun je deze verschillen als uitkomstmaat beschouwen. Iedere patient heeft dan 1 uitkomst, namelijk zijn verschil in virus.
De patienten heb je ingedeeld in twee groepen (opgeknapt, niet opgeknapt). Je wilt dan toetsen of de uitkomstmaat verschilt over deze twee groepen.
Je schrijft dat de hoeveelheid virus niet normaal verdeeld is. Je zou dit opnieuw kunnen bekijken voor het verschil in virushoeveelheid. Eventueel zou een log transformatie kunnen helpen de data minder scheef te krijgen (je bekijkt dan als het ware een log reductie factor). De twee groepen kunnen dan of met ongepaarde t-toets of met een niet parametrische toets ([[Mann-Whitney U toets]]) vergeleken worden.

== Kan ik bij ongelijke groepsgrootte de t-toets gebruiken? ==
''Ik wil binnen mijn studiepopulatie groepen vergelijken op basis van verschillende variabelen. Als ik groepen maak kom ik bij een vergelijking op 14 proefpersonen in de ene group en 97 in de andere groep uit. Dit is een erg groot verschil en ik vroeg me af of dit niet een te sterke invloed heeft het resultaat? Mijn vraag is dus of ik in SPSS gewoon de t-toets mag gebruiken voor de vergelijking van deze twee groepen of wat anders het alternatief zou zijn.

De t-toett houdt bij de berekening rekening met de beschikbare aantallen (in de degrees of freedom), het is dus in principe geen bezwaar dat er ongelijke groepsgroottes zijn. Wat (bij de standaard t-test) wel gelijk verondersteld wordt is de spreiding (variantie) in beide groepen. En verder wordt er natuurlijk een normale verdeling verondersteld. Daar zou je nog eens kritisch naar kunnen kijken. Bij kleinere groepen (n=14) is de normaliteitsaanname soms niet goed hard te maken. Het kan dan 'veilig' zijn om een niet-parametrische test te gerbruiken, zoals de [[Mann-Whitney U toets]].

== Wanneer kunnen we gelijke varianties aannemen in de t-toets? ==

''We hebben een vraag over t-toetsen op data met ongelijke variantie. In het soort experimenten die wij doen komt bijna nooit voor dat groepen ongelijke variantie vertonen, maar een enkele keer wel. Wij vroegen ons af wat me moeten doen als er in een experiment met meer dan 2 groenen, 1 groep is waarvan de variantie significant anders is. Moeten we dan bijvoorbeeld een Welch test doen voor vergelijkingen met de groep die andere variantie vertoont en een student t-test voor de vergelijkingen tussen groepen met dezelfde variantie? Of moeten we in dat geval binnen het hele experiment of zelfs experimenten een test gebruiken die niet uitgaat van gelijke variantie? Of kunnen we stellen dat het die ene keer toeval is dat de variantie anders is en gewoon de testen gebruiken die van gelijke variantie uit gaan? Het lijkt ons niet wenselijk dat we verschillende datasets/experimenten of zelfs groepen binnen experiment statistisch anders moeten behandelen terwijl het type data hetzelfde is.

Hier zijn de richtlijnen niet zwart wit. Je kunt meewegen wat je verwachtingen zijn van de variantie (of je denkt dat het toeval is). Daarbij zou ik in ogenschouw houden wat de sample size is en dus hoe overtuigend de data je vertellen dat er ongelijke varianties zijn. Daarnaast is het zowiezo van belang voordat je groepen onderling vergelijkt een sterke ‘overall’ test te doen ([[One-way ANOVA]] of [[Kruskal Wallis|niet-parametrisch equivalent]]).

=gepaarde t-toets=
== Wanneer gebruik ik de gepaarde t-toets? ==
Als je wilt toetsen of de gemiddelden van twee maal gemeten, [[KEUZE TOETS#Heb ik gepaarde of ongepaarde data?|gepaarde]], variabelen aan elkaar gelijk zijn, kun je de gepaarde t-toets gebruiken. Bijvoorbeeld als je wilt testen of de bloedwaarden voor en na het toedienen van een medicijn van elkaar verschillen.

De gepaarde t-toets veronderstelt dat het verschil tussen twee gepaarde metingen normaal verdeeld is. Om dit te onderzoeken kun je voor ieder paar het verschil tussen de twee metingen berekenen en beoordelen of deze verschil scores uit een normale verdeling afkomstig kunnen zijn. Je kunt het histogram van de verschilscore bekijken of een formele toets doen, bijvoorbeeld de Kolmogorov-Smirnoff toets of de Shapiro-Wilk toets (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan, geef in de "Dependent List" de verschilscore op).

=one sample t-toets=
== Wanneer gebruik ik de one sample t-toets? ==
Als je wilt toetsen of het gemiddelde van een variabele (bijvoorbeeld lengte) in een populatie gelijk is aan een bepaalde, vooraf gespecificeerde, waarde kun je de one sample t-toets gebruiken. Bijvoorbeeld als je de hypothese wilt toetsen of de gemiddelde lengte van mannen met bepaalde aandoening lager is dan de (bekende) Nederlands gemiddelde lengte van mannen (1.82 m).

De one sample t-toets veronderstelt dat de variabele een normale verdeling heeft in de populatie. Om redelijkerwijs aan te kunnen nemen dat de gemeten waardes in een studie sample uit een normale verdeling afkomstig zijn kun je een histogram maken van de data of een formele toets uitvoeren, bijvoorbeeld de Kolmogorov-Smirnoff test of de Shapiro-Wilk test (in SPSS 16: Analyze- Descriptive Statistics->Explore, klik onder het "Plots" kopje 'Histogram' en 'Normality plots with tests' aan).

= Waar vind ik de t-toets in SPSS?=

Je vindt de t-toets in SPSS 16 onder Analyze->Compare Means.

= Referenties =

{{onderschrift}}

Gemiddelde en mediaan

2016-05-25T08:42:07Z

Nan van Geloven: /* Wat doe ik als de gemiddelde minus de standaard deviatie ver buiten de range van mogelijke waarden ligt? */

== Moet ik de gemiddelden of de medianen van mijn data weergeven? ==

''We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?

Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te
interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.

== Gemiddede of mediaan als ene groep wel normaal verdeeld is en andere niet? ==

''In mijn studie vergelijk ik een patiëntengroep met een controlegroep. In m’n tabel 1 vergelijk ik de klinische eigenschappen van de groepen. Daarbij heb ik de normaal verdeelde parameters in mean + SD gegeven, en de niet normaal verdeelde parameters in median + IQR. O.a. de leeftijd van de patiëntengroep is echter niet normaal verdeeld, terwijl de leeftijd van de controlegroep wel normaal verdeeld is; ik zou dus de een in mean moeten geven, en de ander in median. Lezers kunnen daardoor de waarden niet in één oogopslag met elkaar vergelijken. Zou ik in dit geval beter allebei in median moeten uitdrukken, of toch één mean en één median?

Ik raad je aan beide groepen met dezelfde descriptieve maten te beschrijven. Zoals je zelf al schrijft kun je anders niet goed vergelijken. Als voor een van de groepen geldt dat het weergeven van mean en sd geen goede weergave is van waar de meeste waardes zich bevinden, dan zou ik beide groepen met median en IQR beschrijven.

==Hoe bereken ik de standard error van de mediaan?==

''Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?

Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:

mean +/- SD

median [rangelower,rangeupper]

median [Q1,Q3]

Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.

Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:

<math>
r=\frac{n}{2} - 1.96 * \frac{\sqrt{n}}{2}
</math>

<math>
s=1+\frac{n}{2} + 1.96 * \frac{\sqrt{n}}{2}
</math>

Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.

Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.

==Hoe bereken ik een 95% betrouwbaarheidsinterval rondom een geometrisch gemiddelde?==

''Ik moet het geometrisch gemiddelde met 95% [[betrouwbaarheidsinterval]] (confidence interval - CI) berekenen van een heleboel waarden van CRP. Nu heb ik de variabele ln(CRP) aangemaakt en daar het gemiddelde van berekend. Nu begrepen dat ik e^(dat getal) moet doen om het geometrisch gemiddelde te krijgen. Alleen nu weet ik niet hoe ik daar een 95% CI bij krijg.

De makkelijkste manier is om eerst een 95% CI te maken van de ln(CRP) variabele en die grenzen weer terug te transformeren met de e^(die grens) regel.

==Hoe beschrijf ik het beste een kleine dataset?==

''Ik heb 5 metingen van spina bifida patienten, vier van dwarslaesiepatienten en 5 van controlebiopten. Hoe kan ik de data het beste beschrijven? Ik speel met ideeën, om bijvoorbeeld de mediaan en range per groep te gebruiken maar weet niet of dit zinvol is.

Als je de data apart per groep wilt beschrijven, dan heb je te maken met kleine groepen (5-4-5). Bij dergelijke kleine aantallen is een standaard deviatie doorgaans niet zo betrouwbaar. Het lijkt dus inderdaad gepast om op andere maat de spreiding in de data te beschrijven, bijv met een range. Het centrum van de data kun je indien de data redelijk symmetrisch is met een gemiddelde beschrijven, of zoals je voorstelt met mediaan. De mediaan van 4 getallen is wel iets lastiger te kiezen (vaak wordt gekozen voor het gemiddelde van de middelste twee getallen).

Met deze aanpak gebruik je 3 maten (laagste waarde, mean of median, hoogste waarde) om 4 of 5 datapunten te beschrijven. Je kunt ook overwegen de datapunten zelf te beschrijven, dit zijn maar 1 of 2 getallen extra en daarmee heeft een lezer alle informatie. Doorgaans gaat dit het overzichtelijke in een (jitter) plot, dus een plot waarin de individuele punten zichtbaar blijven door ze iets versprongen naast elkaar te plotten.

==Hoe beschrijf ik het beste mijn observaties op een 5-punts likertschaal?==

''Ik heb 5-punts likertvragen in een vragenlijst gebruikt en de beste manier om die te verwerken is mediaan + IQR (iig geen gemiddelde). Als ik dit nu echter opschrijf ziet dit er niet uit (Bv, mediaan is 3, IQR 1, het blijft erg abstract), en overweeg ik om simpelweg de percentages uit te schrijven en er een tabel bij te voegen. Kunt u mij nog adviezen hierover geven?

Als je er ruimte voor hebt, is het uitschrijven van de percentages per categorie zeker een goede manier om de data volledig te beschrijven. Als je voor median + IQR gaat, kun je ook ipv alleen de breedte van de IQR, de twee grenzen van de IQR aangeven, bijv mediaan 3, IQR (2-4). Soms wordt met de range alleen de afstand tussen Q3 en Q1 bedoeld, soms de beschrijving van Q1 en Q3 zelf, die tweede versie zie ik wat vaker gebruikt worden.

== Wat doe ik als de gemiddelde minus de standaard deviatie ver buiten de range van mogelijke waarden ligt? ==

''Ik heb een meetinstrument waarbij uitkomsten tussen de 0 en 100 mogelijk zijn. 0 is zeer slecht en 100 is perfect. Ik heb metingen van 58 patiënten, waarbij de gemiddelde 13 en de standaard deviatie 28 is. De p-waarde van de Kolmogorov-Smirnov toets is groter dan 0,05. Maar eigenlijk kan dat niet, omdat het instrument niet negatief meet. Kan ik dan de gemiddelde en standaard deviatie in een artikel weergeven?''

Als ik het goed begrijp heb je de Kolmogorov-Smirnov toets gebruikt om te toetsen of het aannemelijk is dat je data een normale verdeling volgen. Je gaat ervan uit dat je data wel een normale verdeling volgen omdat de p-waarde van de toets groter is dan 0,05. Gegeven dat de metingen alleen tussen 0 en 100 kunnen vallen en de waardes van de gemiddelde en standaard deviatie dat je geeft, denk ik dat je verdeling erg scheef is. Dit kan je bekijken door een histogram te maken. De Kolmogorov-Smirnov toets heeft weinig [[Poweranalyse | power]] om met dit aantal observaties (patiënten) afwijkingen van een normale verdeling te detecteren. Dit betekent dat de verdeling heel anders kan zijn dan een normale verdeling, zonder dat de p-waarde kleiner dan 0,05 is. In deze situatie heeft de Anderson-Darling toets meer power om afwijkingen van de normale verdeling te detecteren (Table 2)<cite>[razali2011]</cite>. De Anderson-Darling toets is echter niet in SPSS geïmplementeerd.

Praktisch gezien kan je het beste in je artikel de mediaan en range of interquartile range weergeven. Deze zijn ook geschikt als je observaties geen normale verdeling volgen.

== Referenties ==
<biblio>
#razali2011 Razali NM, Yap BW. Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics Vol 2.1 (2011): 21-33. [http://www.instatmy.org.my/downloads/e-jurnal%202/3.pdf link]
</biblio>

*[http://thestatsgeek.com/2013/07/16/the-difference-between-the-sample-mean-and-the-population-mean/ The difference between the sample mean and the population mean on TheStatsGeek.com] Een zeer heldere Engelstalige uitlag over het verschil tussen een steekproefgemiddelde en een populatiegemiddelde.

{{onderschrift}}

Randomiseren

2016-04-06T06:01:39Z

Nan van Geloven: /* Gestratificeerde randomisatie */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}
Randomisatie is een techniek waarmee patiënten, proefpersonen of proefdieren op basis van toeval (loting) worden toegewezen aan een van de groepen van een experimenteel onderzoek.

== Wat is randomiseren? ==

Een randomized controlled trial is de gouden standaard voor het evalueren van interventies in de gezondheidszorg. De idee van het studiedesign is dat proefpersonen op basis van toeval (at random) worden toegewezen aan een van de studiearmen. Het beoogde resultaat is een gelijke verdeling van de eigenschappen van bekende en onbekende prognostische factoren over de studiearmen. Na randomisatie verwacht je dat het effect van het natuurlijk beloop, placebo effecten, confounders en meetfouten in beide groepen tegen elkaar wegvallen. Hierdoor meet je uiteindelijk alleen het “netto” effect van de interventie als verschil tussen de interventie en de controle groep.

==Wanneer randomiseren?==

In experimenteel onderzoek waarbij twee of meer groepen worden vergeleken en waarin de onderzoeker de interventie kan manipuleren en op deze wijze invloed zou kunnen hebben op de toewijzing van de interventie of op de behandeling van de proefpersonen.

==Waarom randomiseren? ==
Er zijn drie redenen om te randomiseren:

#Idealiter bestaat het verschil tussen de armen van een studie alleen uit het effect van de therapie, de interventie. Door te randomiseren worden alle andere factoren die het therapie effect kunnen beïnvloeden door het toeval verdeeld over de beide groepen. Dit zorgt ervoor dat het effect van bekende en onbekende (prognostische) factoren at random wordt verdeeld over beide studiearmen.
#Randomisatie helpt bij het blinderen van de interventie voor de behandelaars en de proefpersonen. Het voorkomt dat er patronen van patiëntreacties herkend worden waardoor de toewijzing aan een van de studiearmen bekend wordt aan de behandelaar.
#Randomisatie levert groepen op die een willekeurige steekproef zijn van de onderzoekspopulatie waarmee aan een voorwaarde wordt voldaan voor het toepassen van de standaard statistische testen die gebaseerd zijn op kanstheorie.

==Wat doet randomisatie niet? ==

Randomisatie is geen garantie dat prognostische factoren ook werkelijk gelijk verdeeld worden tussen studiegroepen, het toeval kan ongelukkig uitpakken. De kans op een ongelijke verdeling wordt groter naarmate de steekproef kleiner is. Bij een willekeurig grote steekproef zullen prognostische factoren gelijk verdeeld raken.

==Welke methoden zijn ongeschikt voor randomisatie?==

Er zijn verschillende methoden om patiënten aan een studie arm toe te wijzen die niet gelden als random. Het bezwaar tegen deze methoden is de voorspelbaarheid van de toewijzing. Omdat artsen er naar streven om iedere patient optimaal te behandelen kan er bij een voorspelde toewijzing een conflict ontstaan tussen wat de arts wenselijk acht, op dat moment, onder die specifieke omstandigheden en wat de zorg behorende bij de toegewezen studiearm inhoudt. <br/>
Voorbeelden van toewijzing die worden geassocieerd met een hoge mate van voorspelbaarheid zijn: volgens een vaste volgorde (patiënt 1 krijgt A, patiënt 2 krijgt B, patiënt 3 krijgt A etc.); op basis van de datum of dag in de week (patiënten geïncludeerd op even dagen krijgen A, patiënten geïncludeerd op oneven dagen krijgen B); op basis van de initialen van de patient (A-K → behandeling A en M-Z → behandeling B). Deze methoden worden sterk afgeraden omdat er makkelijk mee gemanipuleerd kan worden.

==Welke software is beschikbaar voor randomisatie?==
Je kunt op de pagina over software lezen welke [[Statistische_software#Randomisatie_software | randomisatie software]] beschikbaar is.

==Welke typen randomisatie zijn er?==

Er zijn verschillende manieren om te randomiseren, o.a. simpel-, blok-, gestratificeerde randomisatie en minimisatie.

===Simpele randomisatie===

Bij twee studiearmen is deze methode vergelijkbaar met het opgooien van een munt. In de praktijk werkt het met random getallen. Een behandeling wordt toegewezen volgens een vooraf gestelde regel. Bijvoorbeeld een computer genereert een random getal tussen de 0 en 1. Als dit getal minder of gelijk is aan 0,5 wordt behandeling A toegepast, als het getal meer is dan 0,5 wordt behandeling B toegepast.
Nadeel van deze methode is dat het niet garandeert dat de steekproef precies gelijk over de studiearmen verdeeld zal worden. Op basis van toeval kan er een lange opeenvolging van eenzijdige toewijzing plaatsvinden, bijvoorbeeld AAAABBA. Hoe kleiner de steekproef hoe groter het risico op een ongelijke verdeling is.<br/>
Om een ongelijke verdeling tussen de studiearmen te vermijden kun vooraf aan de studie met een computer een lijst met random getallen maken en beoordelen op bruikbaarheid. Als de lijst een ongelijke verdeling heeft van meer dan 10 tussen de studiearmen kun je een nieuwe random getallen lijst genereren. De praktijk leert dat de simpele methode van randomisatie alleen bij een beoogde steekproef van pakweg meer dan 200 toepasbaar is <cite>[pocock1979]</cite>.

===Blok randomisatie===

Het nadeel van simpele randomisatie is de kans op een ongelijke verdeling van het aantal patiënten over de studiearmen . Door te randomiseren in blokken kun je dit vermijden. Een blok krijgt een bepaalde grootte, bijvoorbeeld 4, 6 of 8 waarin beide studiearmen evenredig verdeeld zijn (voorbeeld ABAB of BAAB etc.). Na ieder blok heb je dus een gelijke verdeling over beide studiearmen. De blokgrootte is een veelvoud van het aantal studiearmen in de studie.

Als blokken niet helemaal gebruikt worden kan er alsnog een ongelijke verdeling tussen studiearmen ontstaan. Bijvoorbeeld, als een studie met een blokgrootte van 8 halverwege stopt is de maximale ongelijkheid 4 patiënten.

Kritiek op het gebruik van kleine blokken is dat de randomisatie voor een deel voorspelbaar kan worden. Daarom worden er het liefst grote en blokken van random wisselende grootte gebruikt.

Voorbeeld van randomisatie met blokgrootte van 4 ( therapie = A, controle = B) R → ABAB BABA AABB ABBA ABBA ABAB BABA AABB ABBA etc. <br/>

===Gestratificeerde randomisatie===

Bij simpele of blok randomisatie is het niet gegarandeerd dat bekende prognostische factoren gelijk verdeeld worden over de studiearmen. De kans dat prognostische factoren ongelijk verdeeld worden is bij een kleine steekproef groter dan bij een grote steekproef. Een methode om een ongelijke verdeling van bekende prognostische factoren te voorkomen is gestratificeerde randomisatie. Stratificatie betekent dat voor iedere combinatie van prognostische factoren (voor ieder stratum) een aparte randomisatielijst wordt gebruikt. Gestratificeerde randomisatie wordt vaak gebruikt in combinatie met het blok design om de interventie evenredig over beide studiearmen te verdelen.

Voorbeeld van een gestratificeerde blok randomisatie waarin gestratificeerd wordt voor geslacht en leeftijdsgroep ( therapie = A, controle = B)

{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="70"|
|width="160" colspan="2"|Patienteigenschappen
|width="200"|Randomisatievolgorde
|-
|width="70"|Lijst1
|width="50"|man
|width="110"|mediane leeftijd-
|width="200"|ABAB AABB ABBA BABA
|-
|width="70"|Lijst2
|width="50"|man
|width="110"|mediane leeftijd+
|width="200"|BAAB BBAA ABAB AABB
|-
|width="70"|Lijst3
|width="50"|vrouw
|width="110"|mediane leeftijd-
|width="200"|AABB ABBA BAAB BBAA
|-
|width="70"|Lijst4
|width="50"|vrouw
|width="110"|mediane leeftijd+
|width="200"|ABBA BABA ABAB AABB
|}

Op basis van de eigenschappen van een patient wordt de juiste lijst gekozen, een man die ouder is dan de mediane leeftijd wordt gerandomiseerd vanuit lijst 2.
Het stratificeren wordt belangrijker naarmate de steekproef kleiner is omdat het risico op een onevenredige verdeling van de prognostische factoren dan groter is. Echter, het aantal randomisatielijsten dat je moet hanteren groeit snel naarmate je met meer prognostische factoren rekening wil houden. Voor je het weet heb je evenveel strata als patiënten in je steekproef. Bij deze methode is evenzogoed een onevenredige verdeling van patiënten aantallen tussen de studiearmen mogelijk (zie blok randomisatie). Hierbij speelt de blokgrootte en het aantal strata een rol. Als in het bovenstaande voorbeeld toevalligerwijs in alle strata de laatste blokken AABB zouden zijn en de studie stopt nadat alleen de AA's zijn gebruikt is de maximale (erg theoretische) scheefheid 8 patiënten.
Als je met meerdere prognostische factoren rekening wilt houden kun je meerdere factoren combineren in een index waarna je de index gebruikt om de strata te definiëren.
Let op: wanneer er gestratificeerd gerandomiseerd wordt, dan moet ook de analyse corrigeren voor de stratificatiefactoren. Zie bijvoorbeeld de artikelen van Kahan en Morris <cite>[Kahan2011],[Kahan2012]</cite> en de [http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2013/06/WC500144946.pdf EMA guideline on adjustment for baseline covariates (draft)]. Een toegankelijke uitleg hierover vind je in deze [http://thestatsgeek.com/2016/04/05/matching-analysis-to-design-stratified-randomization-in-trials/ post van Jonathan Bartlett].

===Minimisatie===

Met minimisatie wordt ook gestreefd naar een gelijke verdeling van patiënten en hun prognostische factoren onder de studiearmen. Het verschil met gestratificeerde blok randomisatie is dat er bij minimisatie geen strata (subgroepen) vooraf worden gedefinieerd van waaruit gerandomiseerd wordt. De minimisatie methode beoordeelt alvorens een nieuwe patient wordt gerandomiseerd hoe zijn of haar verdeling van de prognostische factoren is bij de tot dan toe gerandomiseerde patiënten. Als deze verdeling in balans is wordt de patient gewoon (kop of munt) gerandomiseerd. Als er een onbalans bestaat zal de trekking bewust worden beïnvloed ten gunste van de groep die de onbalans doet verminderen.

''Voorbeeld van een randomisatie met de minimisatie methode. ''<br/>
{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="200" colspan="3"| Overzicht eerder gerandomiseerde patienten
|-
|width="120"|Prognostische factor
|width="40"|Interventie
|width="40"|Controle
|-
|width="120"|Mannen
|width="40"|3
|width="40"|5
|-
|width="120"|Vrouwen
|width="40"|5
|width="40"|3
|-
|width="120"|Leeftijd 21-30
|width="40"|4
|width="40"|4
|-
|width="120"|Leeftijd 31-40
|width="40"|2
|width="40"|3
|-
|width="120"|Leeftijd 41-50
|width="40"|2
|width="40"|1
|-
|width="120"|Risico hoog
|width="40"|4
|width="40"|5
|-
|width="120"|Risico laag
|width="40"|4
|width="40"|3
|}

Stel de eerst volgende patient is een man, tussen de 31 en 40 jaar oud met een hoog risico.<br/>
In de interventie groep zijn tot nu toe 3 mannen gerandomiseerd, hebben 2 patienten een leeftijd tussen de 31-40 en hebben 4 patienten een hoog risico.<br/>
In de controle groep zijn 5 mannen gerandomiseerd, hebben 3 patienten een leeftijd tussen de 31-40 en hebben 5 patienten een hoog risico.<br/>
De onbalans die nu zou ontstaan bij randomizatie naar de interventiearm is voor mannen 5 - 4 = 1, voor de leeftijdscategorie 3 - 3 = 0 en voor hoog risico 5 - 5 = 0, totaal 1 (1+0+0). Bij randomizatie naar de controlearm ontstaat er een onbalans van 6 - 3 = 3 (mannen), 4 - 2 = 2 (leeftijd 31-40) en 6 - 4 = 2 (hoog risico), een totale onbalans van 7 (3+2+2). Nu zijn er verschillende opties om de patiënt toe te wijzen. Bij een strikte minimisatie wordt de patiënt toegewezen aan de interventie groep omdat 1 < 7. Het nadeel van deze methode is de voorspelbaarheid. Een andere optie is het aanpassen van de kansverhouding op toewijzing, bijvoorbeeld 80:20. De kansverhouding kan je laten bepalen door de mate van onbalans (gebruikelijk). Als groepen in balans zijn vindt de toewijzing plaats op basis van een fifty-fifty kans.

==Vragen over randomisatie==

=== Kan ik op volgorde van aanmelding randomiseren ? ===

''Wij gaan een dubbelblinde crossover studie doen. Een groep volwassen patiënten gaat gedurende 2 perioden van 4 weken een extra supplement krijgen wat we ene periode een mogelijk werkzame stof en de andere periode placebo bevat. Het doel is 20 patiënten te includeren. Graag willen we uw advies over hoe te randomiseren. Er zal een groep 1 zijn, die eerst het blauwe supplement en in de tweede periode het groene supplement krijgt, en er is een groep 2 die eerst het groene supplement en in de tweede periode het blauwe supplement krijgt. Mijn voorstel zou zijn om te randomiseren in volgorde van aanmelding waarbij de oneven nummers (1e, 3e, 5e aanmelding etc) in groep 1 gaan en de even nummers (2e 4e 6e etc) aanmelding in groep 2. Is dit een juiste methode of zijn er valkuilen?

Om en om randomiseren is gevaarlijk omdat dan makkelijk de blindering doorbroken kan worden (als je eenmaal weet dat nr 5 groen heeft gekregen weet je alle opeenvolgende toewijzingen ook gelijk!). Er worden in [[meta-analyse|meta-analyses]] zelfs studies geexludeerd die gerandomiseerd hebben op bijvoorbeeld dag van de week. Het handigst om de te randomiseren mbv een randomisatieprogramma. Degene die het middel moet gaan geven, mag niet weten of dit groen of blauw is. Bij de tweede (cross-over) periode moet de 'randomisator' alle groene op blauw overzetten en vice versa. Wederom blijft de behandelaar blind.

=== Kan het bij gestratificeerde randomisatie voorkomen dat bepaalde patienten niet meer geincludeerd kunnen worden? ===

''Ik wil binnenkort starten met een RCT waarin ik 100 patiënten in de interventie wil hebben en 100 in de controle groep. Stratificatie zal zijn voor geslacht (man/vrouw), leeftijd(50-70/70-90) en uitvoerend chirurg. Mijn vraag is nu: kan het zijn dat (vooral later in het randomisatieproces) er patiënten NIET worden geincludeerd omdat een randomisatie stratum al vol is en de patiënt niet voldoet aan de eisen die gesteld zijn door de stratificatieprocedure (bv. niet de goede leeftijd, geslacht, arts zit al vol etc etc.) Ik vraag dit, daar de patiënten die ik wil includeren moeilijk te vinden zijn en elke patiënt eigenlijk telt.

Doorgaans wordt er bij gebruik van gestratificeerde randomisatie geen grens gezet op bijv het 'absolute' aantal mannen of vrouwen dat geincludeerd wordt. Stel dat er maar 10% vrouwen instroomt, dan tracht de stratificatie in beide behandelgroepen die 10% vrouwen te krijgen. Het is niet zo dat er op een gegeven moment 'geen vrouw meer geincludeerd mag worden' oid. Waar wel rekening mee moet worden gehouden is dat bij het gebruik van (meerdere) stratificatiefactoren het lastiger is om die balans te verkrijgen en het ook lastiger kan worden om de totale balans (100 vs 100) te verzekeren. Het kan dan bijv ook 95-105 worden, of 5% vrouwen in de ene arm en 15% in de andere. Er moet van te voren gekeken worden hoeveel stratificatiefactoren meekunnen om een redelijke balans te kunnen verzekeren. Maar het is dus niet zo dat er patienten 'niet mee kunnen doen'.

=== Een van onze trialpatienten is uitgevallen, is het verstandig om de randomisatieplek weer vrij te maken en te vergeven aan een nieuwe patient? ===

''Op dit moment zijn er een aantal patienten gerandomiseerd, maar nu valt er middenin de lijst een patient uit. Deze patient is onterecht geincludeerd. Wij zouden deze plek het liefst opnieuw vergeven aan een nieuwe patient. Mag dat of zijn er methodologische bezwaren? In principe is de randomisatielijst overigens lang genoeg om de plek leeg te laten.

De aanpak bij 'uitval' van gerandomiseerde patienten hangt van een aantal zaken af:

1. intention to treat principe:
Volgens het 'intention to treat' principe zou iedereen die ooit in een studie geincludeerd is mee moeten blijven doen tot het einde volgens de gerandomiseerde allocatie. Ook als er protocol violations zijn zoals het switchen van behandeling, niet houden aan voorgeschreven behandeling of het achteraf niet volledig blijken te voldoen aan inclusiecriteria. Idee hierachter is dat wanneer de behandeling aangeraden gaat worden (bijv in guidelines) voor patienten met bepaalde criteria er soortgelijke 'inschattingsfouten'/ protocol violations kunnen optreden en dat een vergelijking van de effectiviteit binnen een studiepopulaties inclusief deze violators de beste inschatting van het effect in de werkelijkheid / praktijk geeft. Indien jullie in de trial het intention to treat principe willen aanhouden, dan zou deze patient niet geexcludeerd moeten worden.

2. sample size berekening:
De [[poweranalyse|sample size berekening]] kan op verschillende wijze rekening houden met uitval. Vaak is er bij de sample size berekening rekening gehouden met een bepaalde mate van uitval. Bijv er zijn 100 patienten nodig in de analyze, er worden er 110 geincludeerd omdat enkelen waarschijnlijk zullen uitvallen/niet mee kunnen in de analyse. In dit geval zou je 110 patienten randomiseren (randomisatielijst van 110). Er zullen uiteindelijk 10 hiervan niet mee doen in de analyse, dat is ingecalculeerd en een uitgevallen plek hoeft dus niet opgevuld te worden. Heel soms is de sample size berekening zo opgesteld dat er bijv 10 mannen en 10 vrouwen nodig zijn die het hele protocol strict moeten hebben gevolgd (powerberekening gebaseerd op de per-protocol analyse). Dit is vaak het geval in heel vroeg fase, experimentele studies. In zo'n geval kan er bij uitval een plek worden opgevuld door een nieuwe patient. In sommige situatie is het raadzaam om daarbij de vrijgevallen randomisatieplaatsen weer op te vullen (zie punt 3 hieronder).

3. balans in randomisatielijst:
Wanneer er een kleine sample size is en daarbij wellciht ook nog een stratificatie in de randomisatie (bijv 10 mannen in 1 stratum en 10 vrouwen in ander stratum) dan kan uitval van een van de patienten en toevoegen van een nieuwe patient met nieuwe randomisatieuitslag een ongewenst scheve allocatie opleveren (bijv mannen 4:6 ipv gewenste 5:5). In dat soort gevallen kan er voor gekozen worden een vrijgevallen randomisatieplek op te laten vullen door de nieuwe 'vervangende' patient. Nadeel hiervan is wel dat (bij niet geblindeerde studies) de randomisatieuitslag van de vervanger al bekend is voor inclusie. Wanneer er een grotere sample size is, dan is iha een kleine disbalans in allocatie niet storend. Bijv een trial met 47:53 allocatie is prima en heeft evenveel power als een 50:50 allocatie. Ervan uitgaande dat uitval van patienten niet slechts in 1 van de twee armen voorkomt (dat zou op hele andere problemen duiden) is er in het algemeen geen probleem met allocatiebalans te verwachten en wordt aangeraden om gewoon een volgende positie van de randomisatielijst te gebruiken na uitval van een patient.

Samenvattend is het in het algemeen af te raden om randomisatieposites 'vrij te maken en opnieuw te vullen'. Uitzondering hierop zijn vroeg fase experimentele studies met sterke wens voor gebalanceerde allocaties. Ook is een uitzondering als er ten onrechte gerandomiseerd is door bijv een technische fout zoals 'twee keer op de randomisatieknop drukken'.

== Referenties ==
<biblio>
#kernan1999 Kernan WN, Viscoli CM, Makuch RW, Brass LM, Horwitz RI. Stratified randomization for clinical trials. J Clin Epidemiol. 1999 Jan;52(1):19-26. [http://dx.doi.org/10.1016/S0895-4356(98)00138-3 DOI 10.1016/S0895-4356(98)00138-3]

#altman2005 DG Altman, JM Bland. Treatment allocation by minimization. BMJ. 2005 April 9; 330(7495): 843. [http://dx.doi.org/10.1136/bmj.330.7495.843 DOI 10.1136/bmj.330.7495.843]

#scott2002 Scott NW, McPherson GC, Ramsay CR, Campbell MK. The method of minimization for allocation to clinical trials. a review. Control Clin Trials. 2002 Dec;23(6):662-74. [http://dx.doi.org/10.1016/S0197-2456(02)00242-8 DOI 10.1016/S0197-2456(02)00242-8]

#schulz2002 Schulz KF, Grimes DA. Generation of allocation sequences in randomised trials: chance, not choice. Lancet. 2002 Feb 9;359(9305):515-9. [http://dx.doi.org/10.1016/S0140-6736(02)07683-3 DOI 10.1016/S0140-6736(02)07683-3]

#kang2008 Kang M, Ragan BG, Park JH. Issues in outcomes research: an overview of randomization techniques for clinical trials. J Athl Train. 2008 Apr-Jun;43(2):215-21. [http://dx.doi.org/10.4085/1062-6050-43.2.215 DOI 10.4085/1062-6050-43.2.215.]

#pocock1979 Pocock SJ. Allocation of patients to treatment in clinical trials. Biometrics 1979; 35: 183-197 [http://dx.doi.org/10.2307/2529944 DOI 10.2307/2529944]

#Kahan2012 Kahan BC, Morris TP. Reporting and analysis of trials using stratified randomisation in leading medical journals: review and reanalysis. BMJ 2012; 345 :e5840 [http://dx.doi.org/10.1136/bmj.e5840 DOI 10.1136/bmj.e5840]

#Kahan2011 Kahan, B. C. and Morris, T. P. (2012), Improper analysis of trials randomised using stratified blocks or minimisation. Statist. Med., 31: 328–340 [http://dx.doi.org/10.1002/sim.4431 DOI: 10.1002/sim.4431]

</biblio>

{{onderschrift}}

Randomiseren

2016-04-06T05:54:17Z

Nan van Geloven: /* Gestratificeerde randomisatie */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}
Randomisatie is een techniek waarmee patiënten, proefpersonen of proefdieren op basis van toeval (loting) worden toegewezen aan een van de groepen van een experimenteel onderzoek.

== Wat is randomiseren? ==

Een randomized controlled trial is de gouden standaard voor het evalueren van interventies in de gezondheidszorg. De idee van het studiedesign is dat proefpersonen op basis van toeval (at random) worden toegewezen aan een van de studiearmen. Het beoogde resultaat is een gelijke verdeling van de eigenschappen van bekende en onbekende prognostische factoren over de studiearmen. Na randomisatie verwacht je dat het effect van het natuurlijk beloop, placebo effecten, confounders en meetfouten in beide groepen tegen elkaar wegvallen. Hierdoor meet je uiteindelijk alleen het “netto” effect van de interventie als verschil tussen de interventie en de controle groep.

==Wanneer randomiseren?==

In experimenteel onderzoek waarbij twee of meer groepen worden vergeleken en waarin de onderzoeker de interventie kan manipuleren en op deze wijze invloed zou kunnen hebben op de toewijzing van de interventie of op de behandeling van de proefpersonen.

==Waarom randomiseren? ==
Er zijn drie redenen om te randomiseren:

#Idealiter bestaat het verschil tussen de armen van een studie alleen uit het effect van de therapie, de interventie. Door te randomiseren worden alle andere factoren die het therapie effect kunnen beïnvloeden door het toeval verdeeld over de beide groepen. Dit zorgt ervoor dat het effect van bekende en onbekende (prognostische) factoren at random wordt verdeeld over beide studiearmen.
#Randomisatie helpt bij het blinderen van de interventie voor de behandelaars en de proefpersonen. Het voorkomt dat er patronen van patiëntreacties herkend worden waardoor de toewijzing aan een van de studiearmen bekend wordt aan de behandelaar.
#Randomisatie levert groepen op die een willekeurige steekproef zijn van de onderzoekspopulatie waarmee aan een voorwaarde wordt voldaan voor het toepassen van de standaard statistische testen die gebaseerd zijn op kanstheorie.

==Wat doet randomisatie niet? ==

Randomisatie is geen garantie dat prognostische factoren ook werkelijk gelijk verdeeld worden tussen studiegroepen, het toeval kan ongelukkig uitpakken. De kans op een ongelijke verdeling wordt groter naarmate de steekproef kleiner is. Bij een willekeurig grote steekproef zullen prognostische factoren gelijk verdeeld raken.

==Welke methoden zijn ongeschikt voor randomisatie?==

Er zijn verschillende methoden om patiënten aan een studie arm toe te wijzen die niet gelden als random. Het bezwaar tegen deze methoden is de voorspelbaarheid van de toewijzing. Omdat artsen er naar streven om iedere patient optimaal te behandelen kan er bij een voorspelde toewijzing een conflict ontstaan tussen wat de arts wenselijk acht, op dat moment, onder die specifieke omstandigheden en wat de zorg behorende bij de toegewezen studiearm inhoudt. <br/>
Voorbeelden van toewijzing die worden geassocieerd met een hoge mate van voorspelbaarheid zijn: volgens een vaste volgorde (patiënt 1 krijgt A, patiënt 2 krijgt B, patiënt 3 krijgt A etc.); op basis van de datum of dag in de week (patiënten geïncludeerd op even dagen krijgen A, patiënten geïncludeerd op oneven dagen krijgen B); op basis van de initialen van de patient (A-K → behandeling A en M-Z → behandeling B). Deze methoden worden sterk afgeraden omdat er makkelijk mee gemanipuleerd kan worden.

==Welke software is beschikbaar voor randomisatie?==
Je kunt op de pagina over software lezen welke [[Statistische_software#Randomisatie_software | randomisatie software]] beschikbaar is.

==Welke typen randomisatie zijn er?==

Er zijn verschillende manieren om te randomiseren, o.a. simpel-, blok-, gestratificeerde randomisatie en minimisatie.

===Simpele randomisatie===

Bij twee studiearmen is deze methode vergelijkbaar met het opgooien van een munt. In de praktijk werkt het met random getallen. Een behandeling wordt toegewezen volgens een vooraf gestelde regel. Bijvoorbeeld een computer genereert een random getal tussen de 0 en 1. Als dit getal minder of gelijk is aan 0,5 wordt behandeling A toegepast, als het getal meer is dan 0,5 wordt behandeling B toegepast.
Nadeel van deze methode is dat het niet garandeert dat de steekproef precies gelijk over de studiearmen verdeeld zal worden. Op basis van toeval kan er een lange opeenvolging van eenzijdige toewijzing plaatsvinden, bijvoorbeeld AAAABBA. Hoe kleiner de steekproef hoe groter het risico op een ongelijke verdeling is.<br/>
Om een ongelijke verdeling tussen de studiearmen te vermijden kun vooraf aan de studie met een computer een lijst met random getallen maken en beoordelen op bruikbaarheid. Als de lijst een ongelijke verdeling heeft van meer dan 10 tussen de studiearmen kun je een nieuwe random getallen lijst genereren. De praktijk leert dat de simpele methode van randomisatie alleen bij een beoogde steekproef van pakweg meer dan 200 toepasbaar is <cite>[pocock1979]</cite>.

===Blok randomisatie===

Het nadeel van simpele randomisatie is de kans op een ongelijke verdeling van het aantal patiënten over de studiearmen . Door te randomiseren in blokken kun je dit vermijden. Een blok krijgt een bepaalde grootte, bijvoorbeeld 4, 6 of 8 waarin beide studiearmen evenredig verdeeld zijn (voorbeeld ABAB of BAAB etc.). Na ieder blok heb je dus een gelijke verdeling over beide studiearmen. De blokgrootte is een veelvoud van het aantal studiearmen in de studie.

Als blokken niet helemaal gebruikt worden kan er alsnog een ongelijke verdeling tussen studiearmen ontstaan. Bijvoorbeeld, als een studie met een blokgrootte van 8 halverwege stopt is de maximale ongelijkheid 4 patiënten.

Kritiek op het gebruik van kleine blokken is dat de randomisatie voor een deel voorspelbaar kan worden. Daarom worden er het liefst grote en blokken van random wisselende grootte gebruikt.

Voorbeeld van randomisatie met blokgrootte van 4 ( therapie = A, controle = B) R → ABAB BABA AABB ABBA ABBA ABAB BABA AABB ABBA etc. <br/>

===Gestratificeerde randomisatie===

Bij simpele of blok randomisatie is het niet gegarandeerd dat bekende prognostische factoren gelijk verdeeld worden over de studiearmen. De kans dat prognostische factoren ongelijk verdeeld worden is bij een kleine steekproef groter dan bij een grote steekproef. Een methode om een ongelijke verdeling van bekende prognostische factoren te voorkomen is gestratificeerde randomisatie. Stratificatie betekent dat voor iedere combinatie van prognostische factoren (voor ieder stratum) een aparte randomisatielijst wordt gebruikt. Gestratificeerde randomisatie wordt vaak gebruikt in combinatie met het blok design om de interventie evenredig over beide studiearmen te verdelen.

Voorbeeld van een gestratificeerde blok randomisatie waarin gestratificeerd wordt voor geslacht en leeftijdsgroep ( therapie = A, controle = B)

{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="70"|
|width="160" colspan="2"|Patienteigenschappen
|width="200"|Randomisatievolgorde
|-
|width="70"|Lijst1
|width="50"|man
|width="110"|mediane leeftijd-
|width="200"|ABAB AABB ABBA BABA
|-
|width="70"|Lijst2
|width="50"|man
|width="110"|mediane leeftijd+
|width="200"|BAAB BBAA ABAB AABB
|-
|width="70"|Lijst3
|width="50"|vrouw
|width="110"|mediane leeftijd-
|width="200"|AABB ABBA BAAB BBAA
|-
|width="70"|Lijst4
|width="50"|vrouw
|width="110"|mediane leeftijd+
|width="200"|ABBA BABA ABAB AABB
|}

Op basis van de eigenschappen van een patient wordt de juiste lijst gekozen, een man die ouder is dan de mediane leeftijd wordt gerandomiseerd vanuit lijst 2.
Het stratificeren wordt belangrijker naarmate de steekproef kleiner is omdat het risico op een onevenredige verdeling van de prognostische factoren dan groter is. Echter, het aantal randomisatielijsten dat je moet hanteren groeit snel naarmate je met meer prognostische factoren rekening wil houden. Voor je het weet heb je evenveel strata als patiënten in je steekproef. Bij deze methode is evenzogoed een onevenredige verdeling van patiënten aantallen tussen de studiearmen mogelijk (zie blok randomisatie). Hierbij speelt de blokgrootte en het aantal strata een rol. Als in het bovenstaande voorbeeld toevalligerwijs in alle strata de laatste blokken AABB zouden zijn en de studie stopt nadat alleen de AA's zijn gebruikt is de maximale (erg theoretische) scheefheid 8 patiënten.
Als je met meerdere prognostische factoren rekening wilt houden kun je meerdere factoren combineren in een index waarna je de index gebruikt om de strata te definiëren.
Let op: wanneer er gestratificeerd gerandomiseerd wordt, dan moet ook de analyse corrigeren voor de stratificatiefactoren. Zie bijvoorbeeld de artikelen van Kahan en Morris <cite>[kahan2011],[kahan2012]</cite> en de [http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2013/06/WC500144946.pdf EMA guideline on adjustment for baseline covariates (draft)]. Een toegankelijke uitleg hierover vind je in deze [http://thestatsgeek.com/2016/04/05/matching-analysis-to-design-stratified-randomization-in-trials/ post van Jonathan Bartlett].

===Minimisatie===

Met minimisatie wordt ook gestreefd naar een gelijke verdeling van patiënten en hun prognostische factoren onder de studiearmen. Het verschil met gestratificeerde blok randomisatie is dat er bij minimisatie geen strata (subgroepen) vooraf worden gedefinieerd van waaruit gerandomiseerd wordt. De minimisatie methode beoordeelt alvorens een nieuwe patient wordt gerandomiseerd hoe zijn of haar verdeling van de prognostische factoren is bij de tot dan toe gerandomiseerde patiënten. Als deze verdeling in balans is wordt de patient gewoon (kop of munt) gerandomiseerd. Als er een onbalans bestaat zal de trekking bewust worden beïnvloed ten gunste van de groep die de onbalans doet verminderen.

''Voorbeeld van een randomisatie met de minimisatie methode. ''<br/>
{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="200" colspan="3"| Overzicht eerder gerandomiseerde patienten
|-
|width="120"|Prognostische factor
|width="40"|Interventie
|width="40"|Controle
|-
|width="120"|Mannen
|width="40"|3
|width="40"|5
|-
|width="120"|Vrouwen
|width="40"|5
|width="40"|3
|-
|width="120"|Leeftijd 21-30
|width="40"|4
|width="40"|4
|-
|width="120"|Leeftijd 31-40
|width="40"|2
|width="40"|3
|-
|width="120"|Leeftijd 41-50
|width="40"|2
|width="40"|1
|-
|width="120"|Risico hoog
|width="40"|4
|width="40"|5
|-
|width="120"|Risico laag
|width="40"|4
|width="40"|3
|}

Stel de eerst volgende patient is een man, tussen de 31 en 40 jaar oud met een hoog risico.<br/>
In de interventie groep zijn tot nu toe 3 mannen gerandomiseerd, hebben 2 patienten een leeftijd tussen de 31-40 en hebben 4 patienten een hoog risico.<br/>
In de controle groep zijn 5 mannen gerandomiseerd, hebben 3 patienten een leeftijd tussen de 31-40 en hebben 5 patienten een hoog risico.<br/>
De onbalans die nu zou ontstaan bij randomizatie naar de interventiearm is voor mannen 5 - 4 = 1, voor de leeftijdscategorie 3 - 3 = 0 en voor hoog risico 5 - 5 = 0, totaal 1 (1+0+0). Bij randomizatie naar de controlearm ontstaat er een onbalans van 6 - 3 = 3 (mannen), 4 - 2 = 2 (leeftijd 31-40) en 6 - 4 = 2 (hoog risico), een totale onbalans van 7 (3+2+2). Nu zijn er verschillende opties om de patiënt toe te wijzen. Bij een strikte minimisatie wordt de patiënt toegewezen aan de interventie groep omdat 1 < 7. Het nadeel van deze methode is de voorspelbaarheid. Een andere optie is het aanpassen van de kansverhouding op toewijzing, bijvoorbeeld 80:20. De kansverhouding kan je laten bepalen door de mate van onbalans (gebruikelijk). Als groepen in balans zijn vindt de toewijzing plaats op basis van een fifty-fifty kans.

==Vragen over randomisatie==

=== Kan ik op volgorde van aanmelding randomiseren ? ===

''Wij gaan een dubbelblinde crossover studie doen. Een groep volwassen patiënten gaat gedurende 2 perioden van 4 weken een extra supplement krijgen wat we ene periode een mogelijk werkzame stof en de andere periode placebo bevat. Het doel is 20 patiënten te includeren. Graag willen we uw advies over hoe te randomiseren. Er zal een groep 1 zijn, die eerst het blauwe supplement en in de tweede periode het groene supplement krijgt, en er is een groep 2 die eerst het groene supplement en in de tweede periode het blauwe supplement krijgt. Mijn voorstel zou zijn om te randomiseren in volgorde van aanmelding waarbij de oneven nummers (1e, 3e, 5e aanmelding etc) in groep 1 gaan en de even nummers (2e 4e 6e etc) aanmelding in groep 2. Is dit een juiste methode of zijn er valkuilen?

Om en om randomiseren is gevaarlijk omdat dan makkelijk de blindering doorbroken kan worden (als je eenmaal weet dat nr 5 groen heeft gekregen weet je alle opeenvolgende toewijzingen ook gelijk!). Er worden in [[meta-analyse|meta-analyses]] zelfs studies geexludeerd die gerandomiseerd hebben op bijvoorbeeld dag van de week. Het handigst om de te randomiseren mbv een randomisatieprogramma. Degene die het middel moet gaan geven, mag niet weten of dit groen of blauw is. Bij de tweede (cross-over) periode moet de 'randomisator' alle groene op blauw overzetten en vice versa. Wederom blijft de behandelaar blind.

=== Kan het bij gestratificeerde randomisatie voorkomen dat bepaalde patienten niet meer geincludeerd kunnen worden? ===

''Ik wil binnenkort starten met een RCT waarin ik 100 patiënten in de interventie wil hebben en 100 in de controle groep. Stratificatie zal zijn voor geslacht (man/vrouw), leeftijd(50-70/70-90) en uitvoerend chirurg. Mijn vraag is nu: kan het zijn dat (vooral later in het randomisatieproces) er patiënten NIET worden geincludeerd omdat een randomisatie stratum al vol is en de patiënt niet voldoet aan de eisen die gesteld zijn door de stratificatieprocedure (bv. niet de goede leeftijd, geslacht, arts zit al vol etc etc.) Ik vraag dit, daar de patiënten die ik wil includeren moeilijk te vinden zijn en elke patiënt eigenlijk telt.

Doorgaans wordt er bij gebruik van gestratificeerde randomisatie geen grens gezet op bijv het 'absolute' aantal mannen of vrouwen dat geincludeerd wordt. Stel dat er maar 10% vrouwen instroomt, dan tracht de stratificatie in beide behandelgroepen die 10% vrouwen te krijgen. Het is niet zo dat er op een gegeven moment 'geen vrouw meer geincludeerd mag worden' oid. Waar wel rekening mee moet worden gehouden is dat bij het gebruik van (meerdere) stratificatiefactoren het lastiger is om die balans te verkrijgen en het ook lastiger kan worden om de totale balans (100 vs 100) te verzekeren. Het kan dan bijv ook 95-105 worden, of 5% vrouwen in de ene arm en 15% in de andere. Er moet van te voren gekeken worden hoeveel stratificatiefactoren meekunnen om een redelijke balans te kunnen verzekeren. Maar het is dus niet zo dat er patienten 'niet mee kunnen doen'.

=== Een van onze trialpatienten is uitgevallen, is het verstandig om de randomisatieplek weer vrij te maken en te vergeven aan een nieuwe patient? ===

''Op dit moment zijn er een aantal patienten gerandomiseerd, maar nu valt er middenin de lijst een patient uit. Deze patient is onterecht geincludeerd. Wij zouden deze plek het liefst opnieuw vergeven aan een nieuwe patient. Mag dat of zijn er methodologische bezwaren? In principe is de randomisatielijst overigens lang genoeg om de plek leeg te laten.

De aanpak bij 'uitval' van gerandomiseerde patienten hangt van een aantal zaken af:

1. intention to treat principe:
Volgens het 'intention to treat' principe zou iedereen die ooit in een studie geincludeerd is mee moeten blijven doen tot het einde volgens de gerandomiseerde allocatie. Ook als er protocol violations zijn zoals het switchen van behandeling, niet houden aan voorgeschreven behandeling of het achteraf niet volledig blijken te voldoen aan inclusiecriteria. Idee hierachter is dat wanneer de behandeling aangeraden gaat worden (bijv in guidelines) voor patienten met bepaalde criteria er soortgelijke 'inschattingsfouten'/ protocol violations kunnen optreden en dat een vergelijking van de effectiviteit binnen een studiepopulaties inclusief deze violators de beste inschatting van het effect in de werkelijkheid / praktijk geeft. Indien jullie in de trial het intention to treat principe willen aanhouden, dan zou deze patient niet geexcludeerd moeten worden.

2. sample size berekening:
De [[poweranalyse|sample size berekening]] kan op verschillende wijze rekening houden met uitval. Vaak is er bij de sample size berekening rekening gehouden met een bepaalde mate van uitval. Bijv er zijn 100 patienten nodig in de analyze, er worden er 110 geincludeerd omdat enkelen waarschijnlijk zullen uitvallen/niet mee kunnen in de analyse. In dit geval zou je 110 patienten randomiseren (randomisatielijst van 110). Er zullen uiteindelijk 10 hiervan niet mee doen in de analyse, dat is ingecalculeerd en een uitgevallen plek hoeft dus niet opgevuld te worden. Heel soms is de sample size berekening zo opgesteld dat er bijv 10 mannen en 10 vrouwen nodig zijn die het hele protocol strict moeten hebben gevolgd (powerberekening gebaseerd op de per-protocol analyse). Dit is vaak het geval in heel vroeg fase, experimentele studies. In zo'n geval kan er bij uitval een plek worden opgevuld door een nieuwe patient. In sommige situatie is het raadzaam om daarbij de vrijgevallen randomisatieplaatsen weer op te vullen (zie punt 3 hieronder).

3. balans in randomisatielijst:
Wanneer er een kleine sample size is en daarbij wellciht ook nog een stratificatie in de randomisatie (bijv 10 mannen in 1 stratum en 10 vrouwen in ander stratum) dan kan uitval van een van de patienten en toevoegen van een nieuwe patient met nieuwe randomisatieuitslag een ongewenst scheve allocatie opleveren (bijv mannen 4:6 ipv gewenste 5:5). In dat soort gevallen kan er voor gekozen worden een vrijgevallen randomisatieplek op te laten vullen door de nieuwe 'vervangende' patient. Nadeel hiervan is wel dat (bij niet geblindeerde studies) de randomisatieuitslag van de vervanger al bekend is voor inclusie. Wanneer er een grotere sample size is, dan is iha een kleine disbalans in allocatie niet storend. Bijv een trial met 47:53 allocatie is prima en heeft evenveel power als een 50:50 allocatie. Ervan uitgaande dat uitval van patienten niet slechts in 1 van de twee armen voorkomt (dat zou op hele andere problemen duiden) is er in het algemeen geen probleem met allocatiebalans te verwachten en wordt aangeraden om gewoon een volgende positie van de randomisatielijst te gebruiken na uitval van een patient.

Samenvattend is het in het algemeen af te raden om randomisatieposites 'vrij te maken en opnieuw te vullen'. Uitzondering hierop zijn vroeg fase experimentele studies met sterke wens voor gebalanceerde allocaties. Ook is een uitzondering als er ten onrechte gerandomiseerd is door bijv een technische fout zoals 'twee keer op de randomisatieknop drukken'.

== Referenties ==
<biblio>
#kernan1999 Kernan WN, Viscoli CM, Makuch RW, Brass LM, Horwitz RI. Stratified randomization for clinical trials. J Clin Epidemiol. 1999 Jan;52(1):19-26. [http://dx.doi.org/10.1016/S0895-4356(98)00138-3 DOI 10.1016/S0895-4356(98)00138-3]

#altman2005 DG Altman, JM Bland. Treatment allocation by minimization. BMJ. 2005 April 9; 330(7495): 843. [http://dx.doi.org/10.1136/bmj.330.7495.843 DOI 10.1136/bmj.330.7495.843]

#scott2002 Scott NW, McPherson GC, Ramsay CR, Campbell MK. The method of minimization for allocation to clinical trials. a review. Control Clin Trials. 2002 Dec;23(6):662-74. [http://dx.doi.org/10.1016/S0197-2456(02)00242-8 DOI 10.1016/S0197-2456(02)00242-8]

#schulz2002 Schulz KF, Grimes DA. Generation of allocation sequences in randomised trials: chance, not choice. Lancet. 2002 Feb 9;359(9305):515-9. [http://dx.doi.org/10.1016/S0140-6736(02)07683-3 DOI 10.1016/S0140-6736(02)07683-3]

#kang2008 Kang M, Ragan BG, Park JH. Issues in outcomes research: an overview of randomization techniques for clinical trials. J Athl Train. 2008 Apr-Jun;43(2):215-21. [http://dx.doi.org/10.4085/1062-6050-43.2.215 DOI 10.4085/1062-6050-43.2.215.]

#pocock1979 Pocock SJ. Allocation of patients to treatment in clinical trials. Biometrics 1979; 35: 183-197 [http://dx.doi.org/10.2307/2529944 DOI 10.2307/2529944]

#Kahan2012 Kahan BC, Morris TP. Reporting and analysis of trials using stratified randomisation in leading medical journals: review and reanalysis. BMJ 2012; 345 :e5840 [http://dx.doi.org/10.1136/bmj.e5840 DOI 10.1136/bmj.e5840]

#Kahan2011 Kahan, B. C. and Morris, T. P. (2012), Improper analysis of trials randomised using stratified blocks or minimisation. Statist. Med., 31: 328–340 [http://dx.doi.org/10.1002/sim.4431 DOI: 10.1002/sim.4431]

</biblio>

{{onderschrift}}

Randomiseren

2016-04-06T05:47:27Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Jan Binnekade|dr. J.M. Binnekade]]
|coauthor= [[user:Nan van Geloven|dr. ir. N. van Geloven]]
}}
Randomisatie is een techniek waarmee patiënten, proefpersonen of proefdieren op basis van toeval (loting) worden toegewezen aan een van de groepen van een experimenteel onderzoek.

== Wat is randomiseren? ==

Een randomized controlled trial is de gouden standaard voor het evalueren van interventies in de gezondheidszorg. De idee van het studiedesign is dat proefpersonen op basis van toeval (at random) worden toegewezen aan een van de studiearmen. Het beoogde resultaat is een gelijke verdeling van de eigenschappen van bekende en onbekende prognostische factoren over de studiearmen. Na randomisatie verwacht je dat het effect van het natuurlijk beloop, placebo effecten, confounders en meetfouten in beide groepen tegen elkaar wegvallen. Hierdoor meet je uiteindelijk alleen het “netto” effect van de interventie als verschil tussen de interventie en de controle groep.

==Wanneer randomiseren?==

In experimenteel onderzoek waarbij twee of meer groepen worden vergeleken en waarin de onderzoeker de interventie kan manipuleren en op deze wijze invloed zou kunnen hebben op de toewijzing van de interventie of op de behandeling van de proefpersonen.

==Waarom randomiseren? ==
Er zijn drie redenen om te randomiseren:

#Idealiter bestaat het verschil tussen de armen van een studie alleen uit het effect van de therapie, de interventie. Door te randomiseren worden alle andere factoren die het therapie effect kunnen beïnvloeden door het toeval verdeeld over de beide groepen. Dit zorgt ervoor dat het effect van bekende en onbekende (prognostische) factoren at random wordt verdeeld over beide studiearmen.
#Randomisatie helpt bij het blinderen van de interventie voor de behandelaars en de proefpersonen. Het voorkomt dat er patronen van patiëntreacties herkend worden waardoor de toewijzing aan een van de studiearmen bekend wordt aan de behandelaar.
#Randomisatie levert groepen op die een willekeurige steekproef zijn van de onderzoekspopulatie waarmee aan een voorwaarde wordt voldaan voor het toepassen van de standaard statistische testen die gebaseerd zijn op kanstheorie.

==Wat doet randomisatie niet? ==

Randomisatie is geen garantie dat prognostische factoren ook werkelijk gelijk verdeeld worden tussen studiegroepen, het toeval kan ongelukkig uitpakken. De kans op een ongelijke verdeling wordt groter naarmate de steekproef kleiner is. Bij een willekeurig grote steekproef zullen prognostische factoren gelijk verdeeld raken.

==Welke methoden zijn ongeschikt voor randomisatie?==

Er zijn verschillende methoden om patiënten aan een studie arm toe te wijzen die niet gelden als random. Het bezwaar tegen deze methoden is de voorspelbaarheid van de toewijzing. Omdat artsen er naar streven om iedere patient optimaal te behandelen kan er bij een voorspelde toewijzing een conflict ontstaan tussen wat de arts wenselijk acht, op dat moment, onder die specifieke omstandigheden en wat de zorg behorende bij de toegewezen studiearm inhoudt. <br/>
Voorbeelden van toewijzing die worden geassocieerd met een hoge mate van voorspelbaarheid zijn: volgens een vaste volgorde (patiënt 1 krijgt A, patiënt 2 krijgt B, patiënt 3 krijgt A etc.); op basis van de datum of dag in de week (patiënten geïncludeerd op even dagen krijgen A, patiënten geïncludeerd op oneven dagen krijgen B); op basis van de initialen van de patient (A-K → behandeling A en M-Z → behandeling B). Deze methoden worden sterk afgeraden omdat er makkelijk mee gemanipuleerd kan worden.

==Welke software is beschikbaar voor randomisatie?==
Je kunt op de pagina over software lezen welke [[Statistische_software#Randomisatie_software | randomisatie software]] beschikbaar is.

==Welke typen randomisatie zijn er?==

Er zijn verschillende manieren om te randomiseren, o.a. simpel-, blok-, gestratificeerde randomisatie en minimisatie.

===Simpele randomisatie===

Bij twee studiearmen is deze methode vergelijkbaar met het opgooien van een munt. In de praktijk werkt het met random getallen. Een behandeling wordt toegewezen volgens een vooraf gestelde regel. Bijvoorbeeld een computer genereert een random getal tussen de 0 en 1. Als dit getal minder of gelijk is aan 0,5 wordt behandeling A toegepast, als het getal meer is dan 0,5 wordt behandeling B toegepast.
Nadeel van deze methode is dat het niet garandeert dat de steekproef precies gelijk over de studiearmen verdeeld zal worden. Op basis van toeval kan er een lange opeenvolging van eenzijdige toewijzing plaatsvinden, bijvoorbeeld AAAABBA. Hoe kleiner de steekproef hoe groter het risico op een ongelijke verdeling is.<br/>
Om een ongelijke verdeling tussen de studiearmen te vermijden kun vooraf aan de studie met een computer een lijst met random getallen maken en beoordelen op bruikbaarheid. Als de lijst een ongelijke verdeling heeft van meer dan 10 tussen de studiearmen kun je een nieuwe random getallen lijst genereren. De praktijk leert dat de simpele methode van randomisatie alleen bij een beoogde steekproef van pakweg meer dan 200 toepasbaar is <cite>[pocock1979]</cite>.

===Blok randomisatie===

Het nadeel van simpele randomisatie is de kans op een ongelijke verdeling van het aantal patiënten over de studiearmen . Door te randomiseren in blokken kun je dit vermijden. Een blok krijgt een bepaalde grootte, bijvoorbeeld 4, 6 of 8 waarin beide studiearmen evenredig verdeeld zijn (voorbeeld ABAB of BAAB etc.). Na ieder blok heb je dus een gelijke verdeling over beide studiearmen. De blokgrootte is een veelvoud van het aantal studiearmen in de studie.

Als blokken niet helemaal gebruikt worden kan er alsnog een ongelijke verdeling tussen studiearmen ontstaan. Bijvoorbeeld, als een studie met een blokgrootte van 8 halverwege stopt is de maximale ongelijkheid 4 patiënten.

Kritiek op het gebruik van kleine blokken is dat de randomisatie voor een deel voorspelbaar kan worden. Daarom worden er het liefst grote en blokken van random wisselende grootte gebruikt.

Voorbeeld van randomisatie met blokgrootte van 4 ( therapie = A, controle = B) R → ABAB BABA AABB ABBA ABBA ABAB BABA AABB ABBA etc. <br/>

===Gestratificeerde randomisatie===

Bij simpele of blok randomisatie is het niet gegarandeerd dat bekende prognostische factoren gelijk verdeeld worden over de studiearmen. De kans dat prognostische factoren ongelijk verdeeld worden is bij een kleine steekproef groter dan bij een grote steekproef. Een methode om een ongelijke verdeling van bekende prognostische factoren te voorkomen is gestratificeerde randomisatie. Stratificatie betekent dat voor iedere combinatie van prognostische factoren (voor ieder stratum) een aparte randomisatielijst wordt gebruikt. Gestratificeerde randomisatie wordt vaak gebruikt in combinatie met het blok design om de interventie evenredig over beide studiearmen te verdelen.

Voorbeeld van een gestratificeerde blok randomisatie waarin gestratificeerd wordt voor geslacht en leeftijdsgroep ( therapie = A, controle = B)

{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="70"|
|width="160" colspan="2"|Patienteigenschappen
|width="200"|Randomisatievolgorde
|-
|width="70"|Lijst1
|width="50"|man
|width="110"|mediane leeftijd-
|width="200"|ABAB AABB ABBA BABA
|-
|width="70"|Lijst2
|width="50"|man
|width="110"|mediane leeftijd+
|width="200"|BAAB BBAA ABAB AABB
|-
|width="70"|Lijst3
|width="50"|vrouw
|width="110"|mediane leeftijd-
|width="200"|AABB ABBA BAAB BBAA
|-
|width="70"|Lijst4
|width="50"|vrouw
|width="110"|mediane leeftijd+
|width="200"|ABBA BABA ABAB AABB
|}

Op basis van de eigenschappen van een patient wordt de juiste lijst gekozen, een man die ouder is dan de mediane leeftijd wordt gerandomiseerd vanuit lijst 2.
Het stratificeren wordt belangrijker naarmate de steekproef kleiner is omdat het risico op een onevenredige verdeling van de prognostische factoren dan groter is. Echter, het aantal randomisatielijsten dat je moet hanteren groeit snel naarmate je met meer prognostische factoren rekening wil houden. Voor je het weet heb je evenveel strata als patiënten in je steekproef. Bij deze methode is evenzogoed een onevenredige verdeling van patiënten aantallen tussen de studiearmen mogelijk (zie blok randomisatie). Hierbij speelt de blokgrootte en het aantal strata een rol. Als in het bovenstaande voorbeeld toevalligerwijs in alle strata de laatste blokken AABB zouden zijn en de studie stopt nadat alleen de AA's zijn gebruikt is de maximale (erg theoretische) scheefheid 8 patiënten.
Als je met meerdere prognostische factoren rekening wilt houden kun je meerdere factoren combineren in een index waarna je de index gebruikt om de strata te definiëren.
Let op: wanneer er gestratificeerd gerandomiseerd wordt, dan moet ook de analyse corrigeren voor de stratificatiefactoren. Zie bijvoorbeeld dit [http://onlinelibrary.wiley.com/doi/10.1002/sim.4431/pdf artikel] en de [http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2013/06/WC500144946.pdf EMA guideline on adjustment for baseline covariates (draft)].

===Minimisatie===

Met minimisatie wordt ook gestreefd naar een gelijke verdeling van patiënten en hun prognostische factoren onder de studiearmen. Het verschil met gestratificeerde blok randomisatie is dat er bij minimisatie geen strata (subgroepen) vooraf worden gedefinieerd van waaruit gerandomiseerd wordt. De minimisatie methode beoordeelt alvorens een nieuwe patient wordt gerandomiseerd hoe zijn of haar verdeling van de prognostische factoren is bij de tot dan toe gerandomiseerde patiënten. Als deze verdeling in balans is wordt de patient gewoon (kop of munt) gerandomiseerd. Als er een onbalans bestaat zal de trekking bewust worden beïnvloed ten gunste van de groep die de onbalans doet verminderen.

''Voorbeeld van een randomisatie met de minimisatie methode. ''<br/>
{|border="1" style="text-align:center" cellpadding="3" cellspacing="0"
|width="200" colspan="3"| Overzicht eerder gerandomiseerde patienten
|-
|width="120"|Prognostische factor
|width="40"|Interventie
|width="40"|Controle
|-
|width="120"|Mannen
|width="40"|3
|width="40"|5
|-
|width="120"|Vrouwen
|width="40"|5
|width="40"|3
|-
|width="120"|Leeftijd 21-30
|width="40"|4
|width="40"|4
|-
|width="120"|Leeftijd 31-40
|width="40"|2
|width="40"|3
|-
|width="120"|Leeftijd 41-50
|width="40"|2
|width="40"|1
|-
|width="120"|Risico hoog
|width="40"|4
|width="40"|5
|-
|width="120"|Risico laag
|width="40"|4
|width="40"|3
|}

Stel de eerst volgende patient is een man, tussen de 31 en 40 jaar oud met een hoog risico.<br/>
In de interventie groep zijn tot nu toe 3 mannen gerandomiseerd, hebben 2 patienten een leeftijd tussen de 31-40 en hebben 4 patienten een hoog risico.<br/>
In de controle groep zijn 5 mannen gerandomiseerd, hebben 3 patienten een leeftijd tussen de 31-40 en hebben 5 patienten een hoog risico.<br/>
De onbalans die nu zou ontstaan bij randomizatie naar de interventiearm is voor mannen 5 - 4 = 1, voor de leeftijdscategorie 3 - 3 = 0 en voor hoog risico 5 - 5 = 0, totaal 1 (1+0+0). Bij randomizatie naar de controlearm ontstaat er een onbalans van 6 - 3 = 3 (mannen), 4 - 2 = 2 (leeftijd 31-40) en 6 - 4 = 2 (hoog risico), een totale onbalans van 7 (3+2+2). Nu zijn er verschillende opties om de patiënt toe te wijzen. Bij een strikte minimisatie wordt de patiënt toegewezen aan de interventie groep omdat 1 < 7. Het nadeel van deze methode is de voorspelbaarheid. Een andere optie is het aanpassen van de kansverhouding op toewijzing, bijvoorbeeld 80:20. De kansverhouding kan je laten bepalen door de mate van onbalans (gebruikelijk). Als groepen in balans zijn vindt de toewijzing plaats op basis van een fifty-fifty kans.

==Vragen over randomisatie==

=== Kan ik op volgorde van aanmelding randomiseren ? ===

''Wij gaan een dubbelblinde crossover studie doen. Een groep volwassen patiënten gaat gedurende 2 perioden van 4 weken een extra supplement krijgen wat we ene periode een mogelijk werkzame stof en de andere periode placebo bevat. Het doel is 20 patiënten te includeren. Graag willen we uw advies over hoe te randomiseren. Er zal een groep 1 zijn, die eerst het blauwe supplement en in de tweede periode het groene supplement krijgt, en er is een groep 2 die eerst het groene supplement en in de tweede periode het blauwe supplement krijgt. Mijn voorstel zou zijn om te randomiseren in volgorde van aanmelding waarbij de oneven nummers (1e, 3e, 5e aanmelding etc) in groep 1 gaan en de even nummers (2e 4e 6e etc) aanmelding in groep 2. Is dit een juiste methode of zijn er valkuilen?

Om en om randomiseren is gevaarlijk omdat dan makkelijk de blindering doorbroken kan worden (als je eenmaal weet dat nr 5 groen heeft gekregen weet je alle opeenvolgende toewijzingen ook gelijk!). Er worden in [[meta-analyse|meta-analyses]] zelfs studies geexludeerd die gerandomiseerd hebben op bijvoorbeeld dag van de week. Het handigst om de te randomiseren mbv een randomisatieprogramma. Degene die het middel moet gaan geven, mag niet weten of dit groen of blauw is. Bij de tweede (cross-over) periode moet de 'randomisator' alle groene op blauw overzetten en vice versa. Wederom blijft de behandelaar blind.

=== Kan het bij gestratificeerde randomisatie voorkomen dat bepaalde patienten niet meer geincludeerd kunnen worden? ===

''Ik wil binnenkort starten met een RCT waarin ik 100 patiënten in de interventie wil hebben en 100 in de controle groep. Stratificatie zal zijn voor geslacht (man/vrouw), leeftijd(50-70/70-90) en uitvoerend chirurg. Mijn vraag is nu: kan het zijn dat (vooral later in het randomisatieproces) er patiënten NIET worden geincludeerd omdat een randomisatie stratum al vol is en de patiënt niet voldoet aan de eisen die gesteld zijn door de stratificatieprocedure (bv. niet de goede leeftijd, geslacht, arts zit al vol etc etc.) Ik vraag dit, daar de patiënten die ik wil includeren moeilijk te vinden zijn en elke patiënt eigenlijk telt.

Doorgaans wordt er bij gebruik van gestratificeerde randomisatie geen grens gezet op bijv het 'absolute' aantal mannen of vrouwen dat geincludeerd wordt. Stel dat er maar 10% vrouwen instroomt, dan tracht de stratificatie in beide behandelgroepen die 10% vrouwen te krijgen. Het is niet zo dat er op een gegeven moment 'geen vrouw meer geincludeerd mag worden' oid. Waar wel rekening mee moet worden gehouden is dat bij het gebruik van (meerdere) stratificatiefactoren het lastiger is om die balans te verkrijgen en het ook lastiger kan worden om de totale balans (100 vs 100) te verzekeren. Het kan dan bijv ook 95-105 worden, of 5% vrouwen in de ene arm en 15% in de andere. Er moet van te voren gekeken worden hoeveel stratificatiefactoren meekunnen om een redelijke balans te kunnen verzekeren. Maar het is dus niet zo dat er patienten 'niet mee kunnen doen'.

=== Een van onze trialpatienten is uitgevallen, is het verstandig om de randomisatieplek weer vrij te maken en te vergeven aan een nieuwe patient? ===

''Op dit moment zijn er een aantal patienten gerandomiseerd, maar nu valt er middenin de lijst een patient uit. Deze patient is onterecht geincludeerd. Wij zouden deze plek het liefst opnieuw vergeven aan een nieuwe patient. Mag dat of zijn er methodologische bezwaren? In principe is de randomisatielijst overigens lang genoeg om de plek leeg te laten.

De aanpak bij 'uitval' van gerandomiseerde patienten hangt van een aantal zaken af:

1. intention to treat principe:
Volgens het 'intention to treat' principe zou iedereen die ooit in een studie geincludeerd is mee moeten blijven doen tot het einde volgens de gerandomiseerde allocatie. Ook als er protocol violations zijn zoals het switchen van behandeling, niet houden aan voorgeschreven behandeling of het achteraf niet volledig blijken te voldoen aan inclusiecriteria. Idee hierachter is dat wanneer de behandeling aangeraden gaat worden (bijv in guidelines) voor patienten met bepaalde criteria er soortgelijke 'inschattingsfouten'/ protocol violations kunnen optreden en dat een vergelijking van de effectiviteit binnen een studiepopulaties inclusief deze violators de beste inschatting van het effect in de werkelijkheid / praktijk geeft. Indien jullie in de trial het intention to treat principe willen aanhouden, dan zou deze patient niet geexcludeerd moeten worden.

2. sample size berekening:
De [[poweranalyse|sample size berekening]] kan op verschillende wijze rekening houden met uitval. Vaak is er bij de sample size berekening rekening gehouden met een bepaalde mate van uitval. Bijv er zijn 100 patienten nodig in de analyze, er worden er 110 geincludeerd omdat enkelen waarschijnlijk zullen uitvallen/niet mee kunnen in de analyse. In dit geval zou je 110 patienten randomiseren (randomisatielijst van 110). Er zullen uiteindelijk 10 hiervan niet mee doen in de analyse, dat is ingecalculeerd en een uitgevallen plek hoeft dus niet opgevuld te worden. Heel soms is de sample size berekening zo opgesteld dat er bijv 10 mannen en 10 vrouwen nodig zijn die het hele protocol strict moeten hebben gevolgd (powerberekening gebaseerd op de per-protocol analyse). Dit is vaak het geval in heel vroeg fase, experimentele studies. In zo'n geval kan er bij uitval een plek worden opgevuld door een nieuwe patient. In sommige situatie is het raadzaam om daarbij de vrijgevallen randomisatieplaatsen weer op te vullen (zie punt 3 hieronder).

3. balans in randomisatielijst:
Wanneer er een kleine sample size is en daarbij wellciht ook nog een stratificatie in de randomisatie (bijv 10 mannen in 1 stratum en 10 vrouwen in ander stratum) dan kan uitval van een van de patienten en toevoegen van een nieuwe patient met nieuwe randomisatieuitslag een ongewenst scheve allocatie opleveren (bijv mannen 4:6 ipv gewenste 5:5). In dat soort gevallen kan er voor gekozen worden een vrijgevallen randomisatieplek op te laten vullen door de nieuwe 'vervangende' patient. Nadeel hiervan is wel dat (bij niet geblindeerde studies) de randomisatieuitslag van de vervanger al bekend is voor inclusie. Wanneer er een grotere sample size is, dan is iha een kleine disbalans in allocatie niet storend. Bijv een trial met 47:53 allocatie is prima en heeft evenveel power als een 50:50 allocatie. Ervan uitgaande dat uitval van patienten niet slechts in 1 van de twee armen voorkomt (dat zou op hele andere problemen duiden) is er in het algemeen geen probleem met allocatiebalans te verwachten en wordt aangeraden om gewoon een volgende positie van de randomisatielijst te gebruiken na uitval van een patient.

Samenvattend is het in het algemeen af te raden om randomisatieposites 'vrij te maken en opnieuw te vullen'. Uitzondering hierop zijn vroeg fase experimentele studies met sterke wens voor gebalanceerde allocaties. Ook is een uitzondering als er ten onrechte gerandomiseerd is door bijv een technische fout zoals 'twee keer op de randomisatieknop drukken'.

== Referenties ==
<biblio>
#kernan1999 Kernan WN, Viscoli CM, Makuch RW, Brass LM, Horwitz RI. Stratified randomization for clinical trials. J Clin Epidemiol. 1999 Jan;52(1):19-26. [http://dx.doi.org/10.1016/S0895-4356(98)00138-3 DOI 10.1016/S0895-4356(98)00138-3]

#altman2005 DG Altman, JM Bland. Treatment allocation by minimization. BMJ. 2005 April 9; 330(7495): 843. [http://dx.doi.org/10.1136/bmj.330.7495.843 DOI 10.1136/bmj.330.7495.843]

#scott2002 Scott NW, McPherson GC, Ramsay CR, Campbell MK. The method of minimization for allocation to clinical trials. a review. Control Clin Trials. 2002 Dec;23(6):662-74. [http://dx.doi.org/10.1016/S0197-2456(02)00242-8 DOI 10.1016/S0197-2456(02)00242-8]

#schulz2002 Schulz KF, Grimes DA. Generation of allocation sequences in randomised trials: chance, not choice. Lancet. 2002 Feb 9;359(9305):515-9. [http://dx.doi.org/10.1016/S0140-6736(02)07683-3 DOI 10.1016/S0140-6736(02)07683-3]

#kang2008 Kang M, Ragan BG, Park JH. Issues in outcomes research: an overview of randomization techniques for clinical trials. J Athl Train. 2008 Apr-Jun;43(2):215-21. [http://dx.doi.org/10.4085/1062-6050-43.2.215 DOI 10.4085/1062-6050-43.2.215.]

#pocock1979 Pocock SJ. Allocation of patients to treatment in clinical trials. Biometrics 1979; 35: 183-197 [http://dx.doi.org/10.2307/2529944 DOI 10.2307/2529944]

#Kahan2012 Kahan BC, Morris TP. Reporting and analysis of trials using stratified randomisation in leading medical journals: review and reanalysis. BMJ 2012; 345 :e5840 [http://dx.doi.org/10.1136/bmj.e5840 DOI 10.1136/bmj.e5840]

#Kahan2011 Kahan, B. C. and Morris, T. P. (2012), Improper analysis of trials randomised using stratified blocks or minimisation. Statist. Med., 31: 328–340 [http://dx.doi.org/10.1002/sim.4431 DOI: 10.1002/sim.4431]

</biblio>

{{onderschrift}}

Missing values

2016-03-23T14:57:02Z

Nan van Geloven: /* Referenties */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}

==Welke soorten missing values zijn er? ==

In het algemeen worden er drie typen missing values onderscheiden:
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

==Kan een GLM missende waarden aan? ==

''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data niet compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).

==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==

''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren

==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.

Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.

== Referenties ==

*[http://www.nap.edu/catalog/12955/the-prevention-and-treatment-of-missing-data-in-clinical-trials The Prevention and Treatment of Missing Data in Clinical Trials (2010). Panel on Handling Missing Data in Clinical Trials; Committee on National Statistics; Division of Behavioral and Social Sciences and Education; National Research Council]

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.

*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]

*[http://www.mendeley.com/research/review-a-gentle-introduction-to-imputation-of-missing-values/# Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]

*[http://www.ncbi.nlm.nih.gov/pubmed/12589867 Clark T.A. et al. Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Journal of Clinical Epidemiology 56 (2003) 28–37]

*[http://multiple-imputation.com http://multiple-imputation.com] Uitleg over wat multiple imputation inhoudt.

*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].

*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].

*[http://www.bmj.com/content/338/bmj.b2393 Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. JAC Sterne, IR White, JB Carlin, M Spratt, P Royston, MG Kenward, AM Wood, JR Carpenter. BMJ. 2009; 338: b2393.]

*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14. doi: 10.1016/j.jclinepi.2009.03.017.]

*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]

{{onderschrift}}

Missing values

2016-03-23T13:12:43Z

Nan van Geloven: /* Kan een GLM missende waarden aan? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}

==Welke soorten missing values zijn er? ==

In het algemeen worden er drie typen missing values onderscheiden:
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

==Kan een GLM missende waarden aan? ==

''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data niet compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).

==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==

''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren

==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.

Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.

== Referenties ==

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) new guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.

*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]

*[http://www.mendeley.com/research/review-a-gentle-introduction-to-imputation-of-missing-values/# Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]

*[http://www.ncbi.nlm.nih.gov/pubmed/12589867 Clark T.A. et al. Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Journal of Clinical Epidemiology 56 (2003) 28–37]

*[http://multiple-imputation.com http://multiple-imputation.com] Uitleg over wat multiple imputation inhoudt.

*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].

*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].

*[http://www.bmj.com/content/338/bmj.b2393 Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. JAC Sterne, IR White, JB Carlin, M Spratt, P Royston, MG Kenward, AM Wood, JR Carpenter. BMJ. 2009; 338: b2393.]

*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14. doi: 10.1016/j.jclinepi.2009.03.017.]

*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]

{{onderschrift}}

Missing values

2016-03-23T13:12:07Z

Nan van Geloven: /* Kan een GLM missende waarden aan? */

{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr. ir. N van Geloven]]
|coauthor=
}}

==Welke soorten missing values zijn er? ==

In het algemeen worden er drie typen missing values onderscheiden:
*MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patient zijn follow-up visite had.
*MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patient-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patienten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patienten met goede uitkomst in eerdere visites.
*Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patienten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

==Kan een GLM missende waarden aan? ==

''Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patienten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patienten de data compleet zijn. Als dit een zeer klein deel is en de patienten met missende waardes zijn naar verwachting volledig vergelijkbaar met patienten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een [[herhaalde metingen#linear mixed model| mixed model in geval van herhaalde metingen]]).

==Hoe houdt een [[herhaalde metingen#linear mixed model| mixed model]] en een [[GEE]] analyse rekening met missende waarden?==

''Ik heb vernomen dat een mixed model en een GEE analyse al automatisch om te kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

==Van hoeveel % van mijn patienten moet de data compleet zijn om imputeren te rechtvaardigen?==
Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de referenties onder aan deze pagina voor informatie over de (on)mogelijkheden van imputeren

==Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?==
In [[statistische software#SPSS|SPSS]] is er mogelijkheid voor het gebruiken van simple en multiple imputation methodes (ga naar Analyze -> Muliple imputation) (va versie 17). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij simple imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation imputeer je meerdere malen en hou je rekening met de onzekerheid in de geimputeerde waardes.

Verder hebben pakketten als [[statistische software#Stata|Stata]], [[statistische software#s-plus|S-Plus]], [[statistische software#SAS|SAS]] en [[statistische software#R|R]] (bijvoorbeeld aregImpute package Hmisc) allen routines voor multiple imputatie.

== Referenties ==

*[http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/09/WC500096793.pdf The European Medicines Agency’s (EMA’s) new guideline on missing data in confirmatory clinical trials] came into force on 1 January 2011.

*[http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Missing_Data/Missing.html Treatment of missing data, website van David C. Howell]

*[http://www.mendeley.com/research/review-a-gentle-introduction-to-imputation-of-missing-values/# Review: A gentle introduction to imputation of missing values, Donders A. Rogier T. et al., Journal of Clinical Epidemiology 59 (2006) 1087-1091]

*[http://www.ncbi.nlm.nih.gov/pubmed/12589867 Clark T.A. et al. Developing a prognostic model in the presence of missing data: an ovarian cancer case study, Journal of Clinical Epidemiology 56 (2003) 28–37]

*[http://multiple-imputation.com http://multiple-imputation.com] Uitleg over wat multiple imputation inhoudt.

*[http://www.theanalysisfactor.com/multiple-imputation-5-recent-findings-that-change-how-to-use-it/ Multiple Imputation: 5 Recent Findings that Change How to Use It - article from The Analysis Factor].

*[http://www.ntvg.nl/publicatie/rekenen-met-ontbrekende-gegevens/volledig Rekenen met ontbrekende gegevens. RCA Rippe, M den Heijer, S le Cessie. Ned Tijdschr Geneeskd. 2013;157:A5539].

*[http://www.bmj.com/content/338/bmj.b2393 Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. JAC Sterne, IR White, JB Carlin, M Spratt, P Royston, MG Kenward, AM Wood, JR Carpenter. BMJ. 2009; 338: b2393.]

*[http://www.ncbi.nlm.nih.gov/pubmed/19596181 Vergouwe Y, Royston P, Moons KG, Altman DG. Development and validation of a prediction model with missing predictor data: a practical approach. J Clin Epidemiol. 2010 Feb;63(2):205-14. doi: 10.1016/j.jclinepi.2009.03.017.]

*[http://www.ncbi.nlm.nih.gov/pubmed/16980150 Moons KG, Donders RA, Stijnen T, Harrell FE Jr. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol. 2006 Oct;59(10):1092-101]

{{onderschrift}}

Meta-analyse

2016-01-28T16:20:37Z

Nan van Geloven: /* Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren? */

In een meta-analyse worden resultaten of data van verschillende studies samengevoegd om tot een meer betrouwbare uitspraak te komen <cite>[field2010]</cite>. Als je overweegt om een meta-analyse uit te voeren, is het belangrijk om te beseffen dat je geavanceerd statistische technieken nodig hebt. Het is aan te raden om hiervoor ten minste een [[Cursusmateriaal | inleidende cursus statistiek]] en het liefst ook een geavanceerde cursus of een cursus specifiek gericht op meta-analyse te volgen.

== Wat is het verschil tussen een meta-analyse en een systematic review? ==

De term 'systematic review' heeft vooral van doen met het systematisch literatuur zoeken, beoordelen en beschrijven. Een meta-analyse is een statistische analyse waarbij de, meestal samengevatte, resultaten van verschillende studies gecombineerd worden tot een 'overall' resultaat. Dit heeft dus meer te maken met het doen van bepaalde berekeningen waarbij de resultaten van ieder van de gevonden studies input is. Soms worden de studieresultaten van verschillende studies gecombineerd waarbij er van iedere studie niet de samengevatte resultaten als input dienen, maar waarbij er van iedere studie van iedere patiënt informatie is. Het poolen van dergelijke per-patiënt data wordt aangeduid als een 'individual patient data' meta-analyse. Het tutorial artikel ''How to do a meta-analysis'' <cite>[field2010]</cite> geeft stap voor stap aan hoe je een meta-analyse uitvoert.

== Welke software kan ik gebruiken om een meta-analyse uit te voeren? ==
Er zijn [[Statistische_software#Meta-analyses | opties in diverse softwarepakketten]] om de berekeningen uit te voeren.

== Ik wil de prevalentie (1 arm) over verschillende studies poolen, welke software is hiervoor beschikbaar?==

Je kunt deze analyse uitvoeren in [[Statistische software|R]] gebruik makend van de ''metaprop'' functie uit de package ''meta''.

== Hoe kan ik de gemiddelde en standaard deviatie van een behandel- en een controlegroep poolen om de gemiddelde en standaard deviatie van beide groepen samen te krijgen?==

''Voor een review wil ik voor een overzicht van de geconcludeerde artikelen de gemiddelde en standaard deviatie van de gehele studie populatie beschrijven. In de artikelen staat echter vaak een aparte gemiddelde en standaard deviatie voor de behandel- en een voor de controlegroep. Hoe kan ik hiermee een gemiddelde en standaard deviatie van de gehele studiepopulatie berekenen?

Stel we noemen de gemiddelde en standaard deviatie van de controlegroep <math>m_1</math> en <math>s_1</math> en de mean en standaard deviatie van de behandelgroep <math>m_2</math> en <math>s_2</math>. Zeg dat de controle groep <math>n_1</math> patiënten bevat en de behandelgroep <math>n_2</math>. De gemiddelde van de twee groepen samen <math>m</math> is dan simpel een gewogen gemiddelde van de twee gemiddelden:

<center>
<math>m = \frac{(n_1*m_1+n_2*m_2)}{(n_1+n_2)}</math>
</center>

Voor het berekenen van de gepoolde standaarddeviatie is meer nodig. Hiervoor kun je de volgende formules aanhouden. Het is hierbij belangrijk om te weten dat de variantie gelijk is aan de standaard deviatie in het kwadraat, oftwel <math>\operatorname{Var}_{1}=s_{1}^{2}</math> en <math>\operatorname{Var}_{2}=s_{2}^{2}</math>. Dan is

<center>
<math>
\operatorname{Var} = \frac{(n_{1}*\operatorname{Var}_{1}+n_{2}*\operatorname{Var}_{2}+n_{1}*(m_{1}-m)^{2}+n_{2}*(m_{2}-m)^{2})}{(n_{1}+n_{2})}
</math>
</center>

Tenslotte kan je de standard deviatie van beide groepen samen, <math>s</math> krijgen door de wortel te nemen: <math>s = \sqrt{\operatorname{Var}}</math>.

== Hoe kan ik twee gepaarde gemiddeldes beschreven in verschillende studies vergelijken? ==

''Voor een systematic review over een bepaalde chirurgische ingreep heb ik data verzameld uit 5 publicaties. Door deze ingreep neemt de hypertrofie, uitgedrukt in gram, een continue variabele af. In deze 5 studies is de gemiddeld preoperatieve hypertrofie bekend met een standaard deviatie. Ook de gemiddelde hypertrofie na follow-up is bekend, ook met standaard deviatie. Alle studies laten een afname in de gemiddelde hypertrofie zien na de ingreep. Nu vragen wij ons af of het mogelijk is om aan te geven of de afname significant is. Ik denk dat ik de ruwe data zou moeten hebben zodat ik een [[T-toets#gepaarde_t-toets|paired t-test]] kan doen. De ruwe data heb ik echter niet. Hoe kan ik de afname gerapporteerd in de verschillende studies testen?

Om hier een formele toets op te kunnen doen, is er naast de gemiddelde + sd preoperatief en na follow up inderdaad nog extra informatie nodig. Door het gepaarde design heb je gegevens nodig over de mate van correlatie tussen de voor en de nameting. Je zou dat af kunnen leiden als de artikelen bovenop de genoemde mean en sd’s nog een van de volgende zaken vermelden:

- gemiddeld verschil tussen voor en na + sd of se

- of: toetsresultaat, bijv een [[T-toets#gepaarde_t-toets|paired t-test]]: t-statistic of p-waarde is voldoende

Zie ook [http://handbook.cochrane.org/chapter_16/16_1_3_2_imputing_standard_deviations_for_changes_from_baseline.htm Deel 16.1.3.2 van het Cochrane handboek] voor verdere uitleg. De [[T-toets#ongepaarde_t-toets|paired t-test]] kan inderdaad niet. Een mogelijke analyse zou een meta-analyse zijn op basis van changes + sd’s (die je dus eventueel kunt afleiden uit se’s of gepaarde test statistics).

==Kan ik p-waardes in plaats van betrouwbaarheidsintervallen vermelden? ==

''Ik ben bezig met een systematic review over het effect van een interventie op een dichotome uitkomst. Ik wil in mijn artikel graag een tabel met odds ratio's van univariate analyses weergeven, maar deze staan niet in alle artikelen van de geïncludeerde studies. De p-waardes staan er wel in. We hebben met de informatie in de artikelen wel de Odd's ratio berekend, maar we missen dan de betrouwbaarheidsintervallen. Is het aan te raden om de p-waarde in plaats van het betrouwbaarheidsinterval weer te geven?''

Het is beter om een uniforme weergave in een artikel na te streven en dus voor alle studies de betrouwbaarheidsintervallen te vermelden. Als het lukt om de odds ratio’s te berekenen, heb je waarschijnlijk ook voldoende informatie om de betrouwbaarheidsintervallen zelf te berekenen, zie bijvoorbeeld <cite>[morris1988]</cite>.

==Kan ik medianen poolen? ==
''Voor een review wil ik graag waarden voor mediaan overlevingsduur uit de literatuur poolen. Welke mogelijkheden zijn er hiervoor? Hazard ratio’s worden meestal niet gerapporteerd en een individuele patiënt data meta-analyse is niet mogelijk. Is het omrekenen van de mediaan naar gemiddelde en vervolgens te poolen statistisch correct in deze situatie? Is er een mogelijkheid om de mediaan van de medianen te berekenen?''

Onderzoekers hebben methoden ontwikkeld om de gemiddelde en standaard deviatie op basis van de mediaan, range en steekproefgrootte te berekenen <cite>[huzo2005]</cite>. Echter in het algemeen wordt de mediaan en interkwartiele range (in plaats van de gemiddelde en standaard deviatie) juist gerapporteerd omdat de uitkomst (hier overlevingsduur) geen normale verdeling volgt. De gemiddelde en standaard deviatie geven dus geen goede weergave van de verdeling. Andere onderzoekers zeggen wel een verbetering hierin te hebben bereikt <cite>[wan2014]</cite>. De kwaliteit van de schattingen lijkt echter ook niet optimaal te zijn bij een niet-normale verdeling.

Er zijn wel methoden ontwikkeld om gepoolde schatters van medianen te krijgen, maar er wordt ook meteen aangegeven dat ze niet helemaal goed zijn <cite>[michiels2005]</cite>. De technische details zijn in een paper (ref 22 van <cite>[michiels2005]</cite>) dat niet makkelijk verkrijgbaar is. Andere onderzoekers stellen een andere methode voor, maar geven helaas weinig technische details <cite>[zang2013]</cite>. Er is helaas geen eenvoudige manier om op een goede manier hierover een meta-analyse uit te voeren. De eenvoudige optie is om de uitkomsten van de verschillende studies te beschrijven.

==Hoe kan ik een meta-analyse op kwaliteit van leven uitvoeren?==

''Ik ben bezig met een systematic review waarbij een van de uitkomsten kwaliteit van leven is. In vijf artikelen wordt kwaliteit van leven als uitkomstmaat beschreven. Het lastige is dat ze hiervoor verschillende algemene en ziektespecifieke vragenlijsten gebruiken. Kan ik deze op de een of andere manier aan elkaar gelijk stellen en hier toch een meta-analyse van maken?''

In deze situatie kiest men er vaak voor om de uitkomsten van de verschillende studies om te zetten naar een maat voor effectgrootte, zoals bijvoorbeeld de standardized mean difference (gemiddelde verschil tussen twee groepen gedeeld door de standaard deviatie van dit verschil). Het kan echter moeilijk zijn om een klinische betekenis aan deze maat te geven. Onderzoekers hebben verschillende oplossingen hiervoor gevonden <cite>[thorland2011]</cite>.

== Hoe kan ik de resultaten van verschillende studies in mijn scriptie samenvatten? ==

'''Let op! er wordt nog aan dit onderdeel gewerkt.'''

''Ik schrijf een scriptie en heb al een systematische review uitgevoerd. Ik wil nu de resultaten uit de verschillende studies samenvatten, maar ik heb onvoldoende statistische kennis om een meta-analyse uit te voeren. Wat kan ik doen en wat moet ik vooral niet doen?''

Veel studenten moeten in de loop van hun studie een of meer systematische reviews schrijven. Vaak lopen ze ertegenaan dat ze de resultaten van de verschillende studies willen samenvatten, maar dat hun kennis van de statistiek nog niet voldoende is om een meta-analyse op de juiste manier uit te voeren. Er zijn mogelijkheden, maar ook valkuilen.

* Je kunt de resultaten van de verschillende studies in de tekst van je scriptie samenvatten. Bij een kleine aantal studies kan dit al voldoende zijn. Bij een grotere aantal studies, kan je naast het beschrijven van alle studies bij elkaar, subgroepen van studies beschrijven. Mogelijk is het voor jouw vraagstelling interessant om de studies op "gezonde" en "zieke" mensen apart te beschrijven. Of geeft het meer inzicht als je de methodologisch gezien "goede" studies apart toelicht.

* Het kan goed zijn om je resultaten steeds op basis van dezelfde eenheden en aantal cijfers achter de komma te rapporteren. Dit maakt het eenvoudiger voor de lezer om alle informatie te vergelijken. Het is goed mogelijk dat je de resultaten uit sommige studies in andere eenheden zal moeten omzetten. Denk bijvoorbeeld om het omzetten van serum glucose van mg/dL in mmol/L. Gebruik hiervoor een standaard waarde uit het vakgebied en vermeld ook in je methoden hoe je dit hebt gedaan.

* Vaak vermelden niet alle studies alle informatie die je zoekt. Het is niet erg om aan te geven dat een bepaalde stuk informatie niet beschikbaar is. Maar het is goed om na te gaan of je deze informatie kan achterhalen. Soms wordt meer informatie in supplementary tables bij het betreffende publicatie gepresenteerd of wordt een groep patiënten in een andere publicatie uitgebreider beschreven. Maar het kan ook mogelijk zijn om een waarde, zoals een [[Standaardfout/standard_error | standaard deviatie]] of [[Betrouwbaarheidsinterval | betrouwbaarheidsinterval]], te herleiden uit [[Meta-analyse#Kan_ik_p-waardes_in_plaats_van_betrouwbaarheidsintervallen_vermelden.3F | andere waarden]] in een publicatie.

* Bij een grotere aantal studies kan een tabel meer inzicht in de resultaten van de verschillende studies geven. Hieronder zie je een voorbeeld van een tabel waarbij de uitkomst van interesse is de serum glucose bij opname in het ziekenhuis. In dit voorbeeld zijn de studies gerangschikt op het aantal patiënten. Maar het kan ook inzichtelijk zijn om de studies op een andere kenmerk te rangschikken. Je kunt denken aan jaar van publicatie, de score op een instrument om de kwaliteit van de studie in kaart te brengen of een patiëntkenmerk, zoals de proportie patiënten met diabetes of de patiënten wel of niet nuchter bij opname waren.

{| border ="1" style="text-align:center" cellpadding="3" cellspacing="0"
|-
!colspan="5" align="center"|
!colspan="3" align="center"| Serum glucose (mmol/L) on hospital admission
|-
|width="120"| '''First author and year of publication'''
|width="120"| '''Total number of patients'''
|width="120"| '''Number of patients with diabetes'''
|width="120"| '''Proportion of patients with diabetes'''
|width="120"| '''Fasting on admission'''
|width="120"| '''Mean'''
|width="120"| '''Standard deviation'''
|width="120"| '''95% Confidence interval for the mean'''
|-
|align="left" |Koopman, 2013
|align="right"| 1096
|align="right"| 94
|align="right"| 0.09
|align="left" | Yes
|align="right"| 4.6
|align="right"| 2.1
|-
|align="left" |Buurman, 2011
|align="right"| 532
|align="right"| 0
|align="right"| 0.00
|align="left" | Yes
|align="right"| 5.5
|align="right"| 3.0
|-
|align="left" |Smit, 2011
|align="right"| 789
|align="right"| 562
|align="right"| 0.71
|align="left" | Yes
|align="right"| 7.5
|align="right"| 5.9
|-
|align="left" |Jansen, 2015
|align="right"| 372
|align="right"| 102
|align="right"| 0.27
|align="left" | No
|align="right"| 8.3
|align="right"| 5.1
|-
|align="left" |van de Berg, 2009
|align="right"| 104
|align="right"| Unknown
|align="right"| Unknown
|align="left" | Unknown
|align="right"| 6.7
|align="right"| 3.7
|-
|align="left" |Bakker, 1996
|align="right"| 57
|align="right"| 57
|align="right"| 1.00
|align="left" | No
|align="right"| 16.3
|align="right"| 10.1
|-
|align="left" |Meijer, 1973
|align="right"| 45
|align="right"| Unknown
|align="right"| Unknown
|align="left" | Yes
|align="right"| 4.8
|align="right"| 1.7
|-
|align="left" |Visser, 1981
|align="right"| 30
|align="right"| 10
|align="right"| 0.33
|align="left" | Unknown
|align="right"| 10.4
|align="right"| 5.1
|-
|}

* Een forest plot kan nog inzichtelijker zijn dan een tabel <cite>[lewis2001]</cite>. Als je geen meta-analyse uitvoert, kan je onderaan geen samenvattende maat geven, maar je kunt wel de betrouwbaarheidsintervallen voor alle studies onder elkaar zetten. Ook hier kan het informatief zijn om de studies op een bepaalde manier in groepen te presenteren.
* Als je geïnteresseerd bent in een associatie tussen twee uitkomsten, bijvoorbeeld de proportie patiënten met diabetes en de gemiddelde bloed glucose bij ziekenhuisopname, overweeg een [https://en.wikipedia.org/wiki/Bubble_chart bubble chart] te maken.

== Referenties ==
<biblio>
#field2010 Field AP, Gillett R. How to do a meta-analysis. Br J Math Stat Psychol. 2010 Nov;63(Pt 3):665-94. [http://dx.doi.org/10.1348/000711010X502733 DOI 10.1348/000711010X502733]

#morris1988 Morris JA, Gardner MJ. Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates. Br Med J (Clin Res Ed). 1988 May 7;296(6632):1313-6. [http://www.ncbi.nlm.nih.gov/pubmed/3133061]

#huzo2005 Hozo SP, Djulbegovic B, Hozo I. Estimating the mean and variance from the median, range, and the size of a sample. BMC Med Res Methodol. 2005 Apr 20;5:13. [http://dx.doi.org/10.1186/1471-2288-5-13 DOI 10.1186/1471-2288-5-13]

#wan2014 Wan X, Wang W, Liu J, Tong T. Estimating the sample mean and standard deviation from the sample size, median, range and/or interquartile range. BMC Med Res Methodol. 2014 Dec 19;14:135. [http://dx.doi.org/10.1186/1471-2288-14-135 DOI 10.1186/1471-2288-14-135]

#michiels2005 Michiels S, Piedbois P, Burdett S, Syz N, Stewart L, Pignon JP. Meta-analysis when only the median survival times are known: a comparison with individual patient data results. Int J Technol Assess Health Care. 2005 Winter;21(1):119-25. [http://www.ncbi.nlm.nih.gov/pubmed/15736523]

#zang2013 Zang J, Xiang C, He J. Synthesis of median survival time in meta-analysis. Epidemiology. 2013 Mar;24(2):337-8. [http://dx.doi.org/10.1097/EDE.0b013e318282a66c DOI 10.1097/EDE.0b013e318282a66c]

#thompson2002 Thompson SG, Higgins JPT. How should meta-regression analyses be undertaken and interpreted? Stat Med. 2002 Jun 15;21(11):1559-73. [http://dx.doi.org/10.1002/sim.1187 DOI 10.1002/sim.1187]

#thorland2011 Thorlund K, Walter SD, Johnston BC, Furukawa TA, Guyatt GH. Pooling health-related quality of life outcomes in meta-analysis—a tutorial and review of methods for enhancing interpretability. Research Synthesis Methods. 2011; 2(3): 188–203. [http://dx.doi.org/10.1002/jrsm.46 DOI 10.1002/jrsm.46]

#lewis2001 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ 2001;322:1479. [http://dx.doi.org/10.1136/bmj.322.7300.1479 DOI 10.1136/bmj.322.7300.1479]
</biblio>

== Informatie op andere websites ==

* De [http://www.prisma-statement.org/ PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) statement] geeft aan wat je minimaal in een systematische review of meta-analyse moet opnemen. Er zijn een aantal extensies van de PRISMA statement. Deze kunnen nuttig zijn bij sommige studies.
* De [http://handbook.cochrane.org/ Cochrane Handbook for Systematic Reviews of Interventions] geeft uitgebreide informatie over het uitvoeren van een meta-analyse.
* [http://netherlands.cochrane.org/ Cochrane Netherlands] ondersteunt auteurs van Cochrane reviews, maakt systematische reviews in opdracht, geeft methodologisch advies, verzorgt scholing en doet wetenschappelijk onderzoek naar de methoden van evidence based medicine en systematische reviews. Ook geeft deze organisatie overzichten van [http://netherlands.cochrane.org/beoordelingsformulieren-en-andere-downloads beoordelingsformulieren voor verschillende typen studies] en van [http://netherlands.cochrane.org/veelgestelde-vragen veelgestelde vragen].
* [https://en.wikipedia.org/wiki/Meta-analysis Wikipedia] en [http://www.psychwiki.com/wiki/Meta-analysis Psychwiki] hebben uitgebreide artikelen over meta-analyses.

{{onderschrift}}