KEUZE TOETS: Difference between revisions

From Wikistatistiek
Jump to navigation Jump to search
No edit summary
Line 106: Line 106:
|}
|}


= FAQ nav de twee schema's =
= Van welk type is mijn uitkomstmaat?=


== Van welk type is mijn uitkomstmaat?==
==Continu variabelen==
 
===Continu variabelen===
Het belangrijkste onderscheid naar type is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Bijvoorbeeld: lengte en gewicht zijn continue variabelen.
Het belangrijkste onderscheid naar type is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Bijvoorbeeld: lengte en gewicht zijn continue variabelen.


===Discrete variabelen===
==Discrete variabelen==
Een discrete variabele heeft slechts gehele getallen of klassen als mogelijke uitkomsten. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een discrete variabele evenals de bepaling van de bloedgroepen A, B, AB en 0.
Een discrete variabele heeft slechts gehele getallen of klassen als mogelijke uitkomsten. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een discrete variabele evenals de bepaling van de bloedgroepen A, B, AB en 0.


Voor discrete variabelen wordt verder het onderscheid gemaakt tussen kwalitatieve en kwantitatieve discrete variabelen (continue variabelen zijn altijd kwantitatief). De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen of klasse-variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen, maar het omgekeerde is niet waar, aantallen zijn bijvoorbeeld geen kwalitatieve, maar kwantitatieve variabelen. Als kwantitatieve discrete variabelen op een grote range gemeten zijn (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen. Zijn er daarentegen maar een bepaald aantal uitkomstwaarden en/of is er sprake van kwalitatieve data, dan zijn andere analysetechnieken vereist. We maken in dat geval onderscheid tussen binaire, nominale en ordinale discrete variabelen.
Voor discrete variabelen wordt verder het onderscheid gemaakt tussen kwalitatieve en kwantitatieve discrete variabelen (continue variabelen zijn altijd kwantitatief). De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen of klasse-variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen, maar het omgekeerde is niet waar, aantallen zijn bijvoorbeeld geen kwalitatieve, maar kwantitatieve variabelen. Als kwantitatieve discrete variabelen op een grote range gemeten zijn (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen. Zijn er daarentegen maar een bepaald aantal uitkomstwaarden en/of is er sprake van kwalitatieve data, dan zijn andere analysetechnieken vereist. We maken in dat geval onderscheid tussen binaire, nominale en ordinale discrete variabelen.


====Binaire variabelen====
===Binaire variabelen===
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).
Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).


====Nominale variabelen====
===Nominale variabelen===
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden 'LAD', 'LM', 'RCA' en 'RCx'.
Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden 'LAD', 'LM', 'RCA' en 'RCx'.


====Ordinale variabelen====
===Ordinale variabelen===
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. De uitkomsten worden vaak scores genoemd.
Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. De uitkomsten worden vaak scores genoemd.


== Heb ik gepaarde of ongepaarde data?==
= Heb ik gepaarde of ongepaarde data?=


Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld:  
Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld:  
Line 135: Line 133:
In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.
In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.


== Hoe beoordeel ik de normaliteit van mijn data?==
= Hoe beoordeel ik de normaliteit van mijn data?=
===Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?===
==Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?==


''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?
''Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Revision as of 12:02, 28 April 2009

Schema welke toets bij welke vergelijking

type vergelijking
1 groep 2 groepen >2 groepen
vs. referentie gepaard ongepaard gepaard ongepaard
type

uit- komst- maat

(semi-)

continu

normaal 1 sample t-toets gepaarde t-toets

ongepaarde t-toets

linear mixed models One-way ANOVA
niet normaal sign toets Wilcoxon signed rank toets Mann-Whitney U toets Friedman toets Kruskal Wallis
discreet binair (proportie) z-test voor proporties McNemars test Chi-kwadraat toets /

Fisher's exact toets

GLMM / GEE Chi-kwadraat toets /

Fisher's exact toets

nominaal / ordinaal x McNemars toets /

Wilcoxon signed rank toets

Chi-kwadraat toets (trend) /

Fisher's exact toets

GLMM / GEE Chi-kwadraat toets /

Fisher's exact toets

Schema welke analyse bij welke associatie

type associatie
crosssectioneel longitudinaal
2 variabelen meer variabelen 2 variabelen meer variabelen
type

uit- komst- maat

(semi-)

continu

normaal Pearson's rho Lineaire regressie Herhaalde metingen
niet

normaal

Spearman's rho /

Kendall's tau

Niet lineaire regressie
discreet binair

(proporties)

odds ratio/ risk ratio/

risk difference

Logistische regressie Survival analyse Cox regressie
nominaal

/ordinaal

x multinomiale logistische regressie

/ordinale logistische regressie

x x

Van welk type is mijn uitkomstmaat?

Continu variabelen

Het belangrijkste onderscheid naar type is dat tussen continue en discrete variabelen. Een continue variabele kan in een bepaald interval iedere waarde aannemen. Bijvoorbeeld: lengte en gewicht zijn continue variabelen.

Discrete variabelen

Een discrete variabele heeft slechts gehele getallen of klassen als mogelijke uitkomsten. Een telling van het aantal polibezoeken van een patient is bijvoorbeeld een discrete variabele evenals de bepaling van de bloedgroepen A, B, AB en 0.

Voor discrete variabelen wordt verder het onderscheid gemaakt tussen kwalitatieve en kwantitatieve discrete variabelen (continue variabelen zijn altijd kwantitatief). De waarden die kwalitatieve variabelen kunnen aannemen zijn geen getallen, maar kenmerken. We spreken ook wel van categorische variabelen of klasse-variabelen. Kwalitatieve variabelen zijn per definitie discrete variabelen, maar het omgekeerde is niet waar, aantallen zijn bijvoorbeeld geen kwalitatieve, maar kwantitatieve variabelen. Als kwantitatieve discrete variabelen op een grote range gemeten zijn (bijvoorbeeld het aantal CD4+ T cellen), worden ze vaak geanalyseerd als continue variabelen. Zijn er daarentegen maar een bepaald aantal uitkomstwaarden en/of is er sprake van kwalitatieve data, dan zijn andere analysetechnieken vereist. We maken in dat geval onderscheid tussen binaire, nominale en ordinale discrete variabelen.

Binaire variabelen

Een binaire (of dichotome) uitkomstmaat heeft slechts 2 mogelijke uitkomsten of waarden. Voorbeelden zijn geslacht (man of vrouw), overleving (dood of levend) of hersteld (wel of niet).

Nominale variabelen

Op nominaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën niet in een vaste of zinvolle volgorde zijn te plaatsen. Voorbeeld. 'Bloedgroep' met als waarden A, B, AB en O of 'Behandeld vat' met als waarden 'LAD', 'LM', 'RCA' en 'RCx'.

Ordinale variabelen

Op ordinaal niveau gemeten variabelen zijn kwalitatieve variabelen, waarvan de categorieën wel in een vaste en zinvolle volgorde zijn te plaatsen. Bijvoorbeeld een stelling in een vragenlijst, zoals 'ik heb de laatste tijd vaak sombere gedachtes', met als antwoordcategorieen: 'geheel mee eens', 'mee eens', 'geen mening', 'niet mee eens' en 'geheel niet mee eens'. De uitkomsten worden vaak scores genoemd.

Heb ik gepaarde of ongepaarde data?

Data zijn gepaard als er twee (of meer) maal bij dezelfde personen een meting gedaan is. Als er sprake is van aparte, onafhankelijke groepen, dan zijn data ongepaard. Bijvoorbeeld:

Wij hebben bij een groep varkens een ziekte opgewekt. Daarna hebben bij de ene groep VROEG een interventie gedaan, en bij een andere groep LAAT een interventie gedaan. Welke statistische test moet ik gebruiken als ik: 1. Binnen een groep het verschil van VOOR en NA de interventie wil testen? 2. Het verschil tussen de 2 groepen (na de interventie) wil testen?

In het eerste geval zal er een gepaarde toets gedaan moeten worden, in het tweede geval een ongepaarde toets.

Hoe beoordeel ik de normaliteit van mijn data?

Wanneer concludeert de Shapiro Wilk test dat data niet normaal verdeeld is?

Ik dacht dat een Shapiro-Wilk test met p<0.05 betekende dat de data niet normaal verdeeld zijn. Nu heb ik van een collega een syntax ingekeken waar een grens van 0.9 wordt aangehouden. Wat is nou waar?

Formeel gezien, moet je bij een p<0.05 de nul hypothese verwerpen. In jouw geval, zou je dus op basis van de p-waarde moeten besluiten om de data als niet normaal te zien. Echter, wanneer je voldoende data hebt, kun je zelfs een irrelevant, maar statistisch significante afwijking van de normale verdeling vinden. De test statistic W van de Shapiro-Wilk test loopt van 0 tot 1, waarbij 1 betekent, dat de data perfect normaal verdeeld zijn. Vaak wordt meer naar deze waarde gekeken, dan naar de p-waarde, waarbij voor de W een ondergrens van 0.90 gehanteerd wordt. Als de test-stastistic W groter is dan 0.90 kan de data als normaal verdeeld beschouwd worden. (Er zijn veel voorbeelden waarbij de W > 0.99 is, terwijl de p < 0.05 is.)

Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.