Missing values

From Wikistatistiek
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search
Auteur dr. ir. N van Geloven
Co-Auteur
auteurschap op deze site

Welke soorten missing values zijn er?

In het algemeen worden er drie typen missing values onderscheiden:

  • MCAR-missing completely at random: Hierbij wordt aangenomen dat de missings totaal willekeurig zijn en er dus geen reden is om aan te nemen dat hoge dan wel lagere waardes vaker ontbreken dan andere waardes. Met andere woorden: het missing proces is onafhankelijk van de uitkomst en van alle andere geobserveerde dan wel niet geobserveerde patiëntkarakteristieken. Er is bijvoorbeeld sprake van MCAR wanneer er follow-up data mist vanwege het onbeschikbaar zijn van het meetapparaat op de dag dat de betreffende patiënt zijn follow-up visite had.
  • MAR-missing at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn, maar af kunnen hangen van bijvoorbeeld het niveau van de vorige waarnemingen of van andere bekende (patiënt-)karakteristieken. Met andere woorden: het missing proces is afhankelijk van geobserveerde eerdere metingen of bekende patiëntkarakteristieken. Bijvoorbeeld wanneer patiënten met slechte uitkomst in de eerste follow up visites eerder geneigd zijn met de studie op te houden dan patiënten met goede uitkomst in eerdere visites.
  • Informative dropout / missing not at random: Hierbij wordt aangenomen dat de missings niet willekeurig zijn en beïnvloed worden door processen die niet geobserveerd zijn. Met andere woorden: het missing proces is afhankelijk van (nog) niet geobserveerde metingen of onbekende patiëntkarakteristieken. Bijvoorbeeld in een diagnostische setting waarbij patiënten die na het uitvoeren van de index test spontaan opknappen niet meer op komen dagen voor het uitvoeren van de gouden standaard test en waarbij de uiteindelijke ziektestatus dus onbekend blijft.

Kan een GLM missende waarden aan?

Ik wil een general linear model (GLM) gebruiken op een database. Ik heb begrepen dat als je missing values hebt, je deze analyse niet kan uitvoeren en je daarom de data moet imputeren. Klopt dit?

Een GLM kan je wel uitvoeren wanneer je missende waarden hebt, maar hij neemt daarbij alleen de patiënten mee die geen missende waarden hebben. Het is dus belangrijk om te weten in hoeveel % van je patiënten de data niet compleet zijn. Als dit een zeer klein deel is en de patiënten met missende waardes zijn naar verwachting volledig vergelijkbaar met patiënten zonder missende waarden (MCAR), kun je gewoon een GLM toepassen. Zo niet, dan kun je de data wellicht imputeren of uitwijken naar een ander model die beter om kan gaan met missende waardes (bijvoorbeeld een mixed model in geval van herhaalde metingen).

Hoe houden een mixed model en een GEE-analyse rekening met missende waarden?

Ik heb vernomen dat een mixed model en een GEE-analyse al automatisch om kunnen gaan met missings/drop out. Welke methode wordt hier dan precies toegepast en wordt hierin dan ook ‘gecorrigeerd’ voor selectieve uitval (missings at random (MAR))?

Bij een verondersteld missing at random mechanisme, zeg je dat er -geobserveerde- variabelen zijn die voorspellend zijn voor het missend zijn. Indien deze variabelen toegevoegd zijn aan een mixed model / GEE, dan wordt er inderdaad rekening mee gehouden. Het is dus wel van belang dat de betreffende variabelen in het model zijn opgenomen. Soms is het eenvoudig: wanneer de aanname is dat de metingen op T1 het missend zijn van metingen op T2 voorspelt, dan zit de voorspellende variabele T1 zowiso in het model en wordt er dus inderdaad 'automatisch' rekening gehouden. Als er echter ook andere voorspellers zijn, bijvoorbeeld vrouwen vallen vaker uit dan mannen, dan moet de variabele gender wel als voorspeller aan het model toegevoegd worden om hier rekening mee te houden. Ter info: als de (niet geobserveerde, maar wel bestaande) waarde op T2 zelf voorspelt voor het missend zijn op T2, dan is er sprake van missing 'not at random' en daar kan een dergelijk model niet voor corrigeren.

Van hoeveel % van mijn patiënten moet de data compleet zijn om imputeren te rechtvaardigen?

Helaas is er niet direct een percentage te noemen dat imputeren nog valide maakt. Zie de lijst met aanvullende bronnen onder aan deze pagina voor informatie over de (on)mogelijkheden van (meervoudig) imputeren.

Welk programma kan ik het beste gebruiken om mijn missende data te imputeren?

In SPSS is er de mogelijkheid voor het gebruiken van multiple imputation methodes (ga naar Analyze -> Multiple Imputation). De aanvulling 'SPSS Missing Values add-on' biedt ook multiple imputation aan bij gebruik van eerdere versies. Het verschil tussen simple en multiple imputation is kortweg: bij "simple" imputeer je de data 1 maal op 1 manier en gebruik je de verkregen dataset in je analyse. Bij multiple imputation-methodes imputeer je meerdere malen en hou je rekening met de onzekerheid in de geïmputeerde waardes.

Verder hebben pakketten als Stata, S-Plus, SAS en R (bijvoorbeeld mice of Hmisc) allen routines voor multiple imputatie.

Referenties

  1. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Statist. Med., 30: 377–399. DOI:10.1002/sim.4067

    [White2010]

Aanvullende bronnen

Klaar met lezen? Je kunt naar het OVERZICHT van alle statistische onderwerpen op deze wiki gaan of naar de pagina KEUZE TOETS voor hulp bij het uitzoeken van een geschikte toets of analyse. Wil je meer leren over biostatistiek? Volg dan de AMC e-learning Practical Biostatistics. Vind je op deze pagina's iets dat niet klopt? Werkt een link niet? Of wil je bijdragen aan de wiki? Neem dan contact met ons op.

De wiki biostatistiek is een initiatief van de voormalige helpdesk statistiek van Amsterdam UMC, locatie AMC. Medewerkers van Amsterdam UMC kunnen via intranet ondersteuning aanvragen.