Gemiddelde en mediaan

From Wikistatistiek
Revision as of 11:08, 6 October 2010 by Nan van Geloven (talk | contribs)
Jump to navigation Jump to search
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Moet ik de gemiddelden of de medianen van mijn data weergeven?

We hebben gekeken naar het verschil in doorlooptijden van de polikliniek in twee centra. Deze tijden waren niet normaal verdeeld, dus hebben we de waarden als mediaan [25ste–75ste percentiel] vermeld en de Mann-Whitney test gedaan om de verschillen tussen de centra te testen. Een reviewer vraagt nu echter om weergave van de gemiddelde doorlooptijden. Is het zinvol de waarden om te zetten naar mean?

Met niet-normaal verdeelde data is het inderdaad gebruikelijk om medianen te geven en niet-parametrische toetsen te gebruiken, dus dat hebben jullie prima gedaan. Volgens de reviewer is het duidelijker wanneer jullie gemiddelden geven en de data transformeren. Transformeren is mijns inziens niet wenselijk. Dit doe je eigenlijk alleen maar om in staat te zijn om parametriche testen uit te voeren (zoals regressie of t-test). De data die je krijgt na transformern zijn ook moeilijk om te interpreteren (wat moet je voorstellen van een gemiddelde van de logaritme van de tijd?). Om aan de reviewer's wensen toe te komen, kun je naast de mediane waarden ook de gemiddelden weergeven.

Hoe bereken ik de standard error van de mediaan?

Als je (vanwege niet normale verdeling) data weergeeft als median, en je wil daar een SE bijzetten, is dat dan de SE van de mean of moet dat dan altijd van de median zijn? Indien het dan de SE van de median moet zijn, hoe kan je dat bepalen? Welke handelingen in SPSS moet ik dan doen om deze data te verkrijgen (by explore namelijk alleen SE van mean weergegeven)?


Als de data weergegeven wordt mbv medianen, dan zou het vreemd zijn daar een se van de mean bij te zetten. Vaak zie je bij beschrijvingen van data de volgende notaties:

mean +/- SD median [rangelower,rangeupper] median [Q1,Q3]

Als je liever de SE rapporteert (en dus niet zo zeer de data beschrijft, maar een kwantificering geeft van de nauwkeurigheid van de schatting van de betreffende parameter), dan heb je in geval van de median dus de SE van de median nodig. SPSS geeft deze niet, omdat deze het best met behulp van bootstrapping berekend kan worden. Voor grote samples die normaal verdeeld zijn, kan de volgende approximatie gebruikt worden: SEmedian = 1.25 * SEmean. Maar in jouw geval zal dit niet passend zijn, vanwege ontbrekende normale verdeling.

Een andere aanpak is het noteren van een 95% betrouwbaarheidsinterval rondom de median. Volgens boek van Altman (Statistics with confidence) kan dan met de volgende formules:

r: n/2 - 1.96 * wortel(n)/2 s: 1+n/2 + 1.96 * wortel(n)/2

Rond r en s af naar de meest dichtbijzijnde gehele getallen. Nu zijn de r-de en s-de observatie van de gerankte dataset de grenzen van het 95% betrouwbaarheidsinterval.

Je kunt dus of kiezen voor een van bovenstaande alternatieve beschrijvingen, of mbv boorstrapping een schatting van de se van de median krijgen.


Referenties

Terug naar OVERZICHT voor een overzicht van alle statistische onderwerpen op deze wiki.

Terug naar KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse.