Multiple testing: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
No edit summary
(17 intermediate revisions by the same user not shown)
Line 1: Line 1:
{{auteurs|
|mainauthor= [[user:Nan van Geloven|dr.ir. N van Geloven]]
|coauthor= 
}}
De term multiple testing wordt gebruikt voor het uitvoeren van meerdere statistische toetsen op dezelfde dataset. Gevaar van multiple testing is dat je bij het doen van veel toetsen vaker op basis van toeval een verschil zult vinden. Je kunt corrigeren voor multiple testing door een strenger significantieniveau aan te houden (<0.05).  
De term multiple testing wordt gebruikt voor het uitvoeren van meerdere statistische toetsen op dezelfde dataset. Gevaar van multiple testing is dat je bij het doen van veel toetsen vaker op basis van toeval een verschil zult vinden. Je kunt corrigeren voor multiple testing door een strenger significantieniveau aan te houden (<0.05).  


== Wanneer moet ik corrigeren voor multiple testing? ==
== Wanneer moet ik corrigeren voor multiple testing? ==


Er zijn geen vaste regels voor wanneer je wel of niet moet corrigeren. Corrigeren is verstandig, omdat je daarmee te kans kleiner maakt dat je ten onrechte de nulhypothese verwerpt en daarmee ten onrechte een effect aanwijst. Bij 20 vergelijkingen tussen groepen verwacht je bij een significatieniveau van 0.05 op basis van puur toeval 1 significant verschil te vinden.  
Er zijn geen vaste regels voor wanneer je wel of niet moet corrigeren. Corrigeren is verstandig, omdat je daarmee te kans kleiner maakt dat je ten onrechte de nulhypothese verwerpt en daarmee ten onrechte een effect aanwijst (type I fout). Bij 20 vergelijkingen tussen groepen verwacht je bij een significatieniveau van 0.05 op basis van puur toeval 1 significant verschil te vinden.  


Criteria om wel of niet te corrigeren kunnen zijn:
Criteria om wel of niet te corrigeren kunnen zijn:
Line 10: Line 14:
*Het aantal testen dat je uitvoert. Bij het vergelijken van bijvoorbeeld 3 groepen zal er niet gecorrigeerd hoeven worden. In de genetica waar duizenden mogelijke mutaties getest worden wel.
*Het aantal testen dat je uitvoert. Bij het vergelijken van bijvoorbeeld 3 groepen zal er niet gecorrigeerd hoeven worden. In de genetica waar duizenden mogelijke mutaties getest worden wel.
*In hoeverre was het geobserveerde effect van te voren verwacht? Indien een duidelijk gehypothetiseerde vraagstelling getest wordt, zal er minder snel gewezen worden op de fout positieve kans dan wanneer er lukraak alles wat voorhanden is getest wordt.
*In hoeverre was het geobserveerde effect van te voren verwacht? Indien een duidelijk gehypothetiseerde vraagstelling getest wordt, zal er minder snel gewezen worden op de fout positieve kans dan wanneer er lukraak alles wat voorhanden is getest wordt.
== Hoe kan ik corrigeren met de Bonferroni methode? ==
''Voor een onderzoek naar de betrouwbaarheid van het endoscopisch meten van een Barrett slokdarm heb ik multiple testen gedaan waarbij ik bijv de absolute overeenstemming tussen 2 endoscopisten van korte Barrett slokdarmen met lange Barrett slokdarmen vergelijk, expert endoscopisten met non-expert endoscopisten, enz. Allemaal verschillende vergelijkingen als secundaire eindpunten. In totaal gaat het om 24 vergelijkingen. Ik zou graag willen corrigeren voor het feit dat ik multiple testen doe met de Bonferroni methode. Klopt het (voor dit geval dan) dat ik na de Bonferroni correctie een alfa van 0.05/24=0.002 moet aanhouden? En dat ik dus alle p waarden boven de 0.002 als niet significant moet beschouwen?
Dit klopt.
== Mag ik een Bonferroni correctie toepassen als ik een non-parametrische test hebt gedaan? ==
''Mijn analyse heeft betrekking op de vergelijking van plasmawaarden van gezonde vrijwilligers en patienten. In mijn congres-abstract heb ik het nu als volgt verwoord: "Plasma concentrations are provided as median (95% CI). Statistical analysis was done by Mann-Whitney U. p < 0.05 was considered significant (p < 0.0029 after Bonferroni correction)."
De bonferroni correctie is niet specifiek voor een parametrische test. Je kunt deze dus gebruiken.
== Hoe kan ik corrigeren met minder strenge methoden dan de Bonferroni aanpassing? ==
''Ik heb een vraag over corrigeren voor multiple testing. Ik heb hiervoor in een artikel de Bonferronimethode gebruikt, significantie level gedeeld door aantal testen. De reviewer van dit artikel vindt dat iets te drastisch en stelt de Holm's or Hochberg's methode voor (mij onbekend). Hoe kan ik deze correctiemethodes uitvoeren?
De Holm's methode is simpel met de hand (of in excel oid) te doen. Het komt erop neer dat je de laagste p-waarde vermenigvuldigt met het aantal testen, de een na laagste met het aantal testen min een, twee na laagste p-waarde met aantal testen min twee etc. Equivalent kun je ook zeggen dat je het gehanteerde significantieniveau alpha voor de laagste p-waarde deelt door het aantal testen, voor de een na laagste p-waarde deelt door het aantal testen min een etc. Je ziet het ook [http://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method hier] uitgelegd.
Een voorbeeld van een meer geavanceerde methode is de methode van Benjamini en Hochberg. Deze methode probeert het aandeel van vals positieven onder controle te houden. Deze (en een boel andere) aangepaste p-waardes zijn redelijk makkelijk te verkrijgen via de mt.rawp2adjp functie in de [[statistische software#R|R]] package multtest. Aan deze functie geef je de ruwe p-waardes en krijg je de gecorrigeerde terug. Zie ook de [http://www.bioconductor.org/packages/release/bioc/manuals/multtest/man/multtest.pdf multtest manual].


== Referenties ==
== Referenties ==
* Rothman, K. (1990), No adjustments are needed for multiple comparisons. Epidemiology, volume 1, number 1, 43-46.
* [http://www.jstor.org/stable/20065622 No adjustments are needed for multiple comparisons. Epidemiology, Rothman, K.,  Vol. 1, No. 1 (1990), pp. 43-46]
 
* [http://www.biomedcentral.com/content/pdf/1471-2288-2-8.pdf Do multiple outcome measures require p-value adjustment? Feise, R.J., BMC Medical Research Methodology 2002, 2:8]
<div style="background-color:#e8f1ff; margin:0.5em; padding:1em; border:1px solid #C8D0DC;">
* [http://www.unc.edu/courses/2007spring/enst/562/001/docs/lectures/lecture32.htm Lecture notes multiple testing] Jack Weiss, University of North Carolina. Lectures 32, 33 en 34 geven moderne inzichten over en oplossingen voor multiple testing
Terug naar [[OVERZICHT]] voor een overzicht van alle statistische onderwerpen op deze wiki.
* [http://www.stat.purdue.edu/~doerge/BIOINFORM.D/FALL06/Benjamini%20and%20Y%20FDR.pdf Controlling the false discovery rate: a practical and powerful approach to multiple testing, Benjamini Y, Hochberg Y, Journal of the Royal Statistical Society, Series B (Methodological), Vol.57, No 1.(1995), 289-300.]


Terug naar [[KEUZE TOETS]] voor hulp bij het uitzoeken van een geschikte toets of analyse.
{{onderschrift}}
<div>

Revision as of 20:28, 4 October 2019

Auteur dr.ir. N van Geloven
Co-Auteur
auteurschap op deze site

De term multiple testing wordt gebruikt voor het uitvoeren van meerdere statistische toetsen op dezelfde dataset. Gevaar van multiple testing is dat je bij het doen van veel toetsen vaker op basis van toeval een verschil zult vinden. Je kunt corrigeren voor multiple testing door een strenger significantieniveau aan te houden (<0.05).

Wanneer moet ik corrigeren voor multiple testing?

Er zijn geen vaste regels voor wanneer je wel of niet moet corrigeren. Corrigeren is verstandig, omdat je daarmee te kans kleiner maakt dat je ten onrechte de nulhypothese verwerpt en daarmee ten onrechte een effect aanwijst (type I fout). Bij 20 vergelijkingen tussen groepen verwacht je bij een significatieniveau van 0.05 op basis van puur toeval 1 significant verschil te vinden.

Criteria om wel of niet te corrigeren kunnen zijn:

  • De fase van het onderzoek. Er wordt wel eens geargumenteerd dat meer hypothetiserend onderzoek niet hoeft te corrigeren, terwijl bijvoorbeeld fase 3 onderzoek dat zeker moet doen. Wanneer het onderzoek nog explorerend is zal het onterecht aanwijzen van een effect leiden tot het uitvoeren van meer onderzoek hiernaar. Dit is een minder ernstig gevolg dan het op de markt brengen van een ten onrechte als effectief bestempeld middel.
  • Het aantal testen dat je uitvoert. Bij het vergelijken van bijvoorbeeld 3 groepen zal er niet gecorrigeerd hoeven worden. In de genetica waar duizenden mogelijke mutaties getest worden wel.
  • In hoeverre was het geobserveerde effect van te voren verwacht? Indien een duidelijk gehypothetiseerde vraagstelling getest wordt, zal er minder snel gewezen worden op de fout positieve kans dan wanneer er lukraak alles wat voorhanden is getest wordt.

Hoe kan ik corrigeren met de Bonferroni methode?

Voor een onderzoek naar de betrouwbaarheid van het endoscopisch meten van een Barrett slokdarm heb ik multiple testen gedaan waarbij ik bijv de absolute overeenstemming tussen 2 endoscopisten van korte Barrett slokdarmen met lange Barrett slokdarmen vergelijk, expert endoscopisten met non-expert endoscopisten, enz. Allemaal verschillende vergelijkingen als secundaire eindpunten. In totaal gaat het om 24 vergelijkingen. Ik zou graag willen corrigeren voor het feit dat ik multiple testen doe met de Bonferroni methode. Klopt het (voor dit geval dan) dat ik na de Bonferroni correctie een alfa van 0.05/24=0.002 moet aanhouden? En dat ik dus alle p waarden boven de 0.002 als niet significant moet beschouwen?

Dit klopt.

Mag ik een Bonferroni correctie toepassen als ik een non-parametrische test hebt gedaan?

Mijn analyse heeft betrekking op de vergelijking van plasmawaarden van gezonde vrijwilligers en patienten. In mijn congres-abstract heb ik het nu als volgt verwoord: "Plasma concentrations are provided as median (95% CI). Statistical analysis was done by Mann-Whitney U. p < 0.05 was considered significant (p < 0.0029 after Bonferroni correction)."

De bonferroni correctie is niet specifiek voor een parametrische test. Je kunt deze dus gebruiken.

Hoe kan ik corrigeren met minder strenge methoden dan de Bonferroni aanpassing?

Ik heb een vraag over corrigeren voor multiple testing. Ik heb hiervoor in een artikel de Bonferronimethode gebruikt, significantie level gedeeld door aantal testen. De reviewer van dit artikel vindt dat iets te drastisch en stelt de Holm's or Hochberg's methode voor (mij onbekend). Hoe kan ik deze correctiemethodes uitvoeren?

De Holm's methode is simpel met de hand (of in excel oid) te doen. Het komt erop neer dat je de laagste p-waarde vermenigvuldigt met het aantal testen, de een na laagste met het aantal testen min een, twee na laagste p-waarde met aantal testen min twee etc. Equivalent kun je ook zeggen dat je het gehanteerde significantieniveau alpha voor de laagste p-waarde deelt door het aantal testen, voor de een na laagste p-waarde deelt door het aantal testen min een etc. Je ziet het ook hier uitgelegd.

Een voorbeeld van een meer geavanceerde methode is de methode van Benjamini en Hochberg. Deze methode probeert het aandeel van vals positieven onder controle te houden. Deze (en een boel andere) aangepaste p-waardes zijn redelijk makkelijk te verkrijgen via de mt.rawp2adjp functie in de R package multtest. Aan deze functie geef je de ruwe p-waardes en krijg je de gecorrigeerde terug. Zie ook de multtest manual.

Referenties

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC, locatie AMC kunnen via intranet ondersteuning aanvragen. Ondersteuning aan studenten of derden is niet mogelijk.