Anbefalede løsninger på manglende data

Der er to metoder til at håndtere manglende data, der er blevet tilgængelige i mainstream statistisk software i de sidste par år. Disse to metoder er store forbedringer i forhold til de traditionelle metoder, som er beskrevet i Begrænsninger til fælles tilgange til manglende data. Denne artikel beskriver disse to metoder.

Begge metoder diskuteret her kræver, at manglende data mekanisme er ignorable, det er, ikke er relateret til de manglende værdier (se manglende data Mechanisms). Hvis mekanismen er ignorable vil resulterer skøn (dvs. regression parametre og standard fejl) være fordomsfri uden tab af magt.

Den første metode er Multipel Imputation (MI). Ligesom godtgørelsesordninger metoder diskuteret i Begrænsninger i fælles tilgange til manglende data, Flere Imputation udfylder estimater for de manglende data. Men for at fange usikkerheden i disse skøn, MI tilregner værdierne flere gange. Fordi den bruger en godtgørelsesordning metode med fejl indbygget, skal de mange skøn være ens, men ikke identiske. Resultatet er multiple datasæt med identiske værdier for alle de ikke-manglende værdier og lidt forskellige værdier for de imputerede værdier i hvert datasæt. Den statistiske analyse af interesse, såsom ANOVA eller logistisk regression, udføres separat på hver datasæt, og resultaterne er derefter kombineret. På grund af variationen i de imputerede værdier, bør der også være variation i parameterestimaterne, hvilket fører til passende estimater af standardfejl og passende p-værdier.

Flere Imputation er tilgængelig i SAS, S-Plus, og Solas. I SAS, PROC MI skaber flere datasæt, som derefter kan let analyseres separat under anvendelse af standard statistiske procedurer. PROC MIANALYZE vil derefter kombinere resultaterne af disse separate analyser. Joe Schafer på Penn State har udviklet fire S-Plus biblioteker til flere tilregne normale, kategorisk, blandet, og paneldata. Han har gjort biblioteket for normale data som en gratis stand-alone pakke kaldet NORM. Multipel Imputering er også tilgængelig i Solas, men dens algoritmer er blevet afhørt som upassende, og vi kan ikke anbefale brugen på dette tidspunkt.

Den anden metode er at analysere den fulde, ufuldstændige datasæt ved hjælp af maksimal sandsynlighed skøn. Denne metode ikke pålægge nogen data, men snarere bruger alle data observeret for hver enkelt sag at beregne maksimale likelihood estimater. Den maksimale sandsynlighed estimat af en parameter er værdien af ​​den parameter, som er mest tilbøjelige til at have resulteret i de observerede data. Når data mangler, kan vi faktor sandsynligheden funktionen. Sandsynligheden beregnes særskilt for disse sager med fuldstændige data om nogle variabler og dem med fuldstændige data om alle variabler. Disse to sandsynligheder derefter maksimeret sammen for at finde estimaterne. Ligesom flere imputering, giver denne metode upartiske parameterestimater og standardfejl. En fordel er, at det ikke kræver omhyggelig udvælgelse af variabler, der bruges til at pålægge værdier, Multiple Imputation kræver. Det er dog begrænset til lineære modeller.

Analyse af den fulde, ufuldstændige datasæt ved hjælp af maksimal sandsynlighed estimering er tilgængelig i AMOS. AMOS er en strukturel ligningsmodeller pakke, men det kan køre flere lineære regressionsmodeller. AMOS er let at bruge og er nu integreret i SPSS, men det vil ikke producere resterende parceller, indflydelse statistik og andre typiske output fra regression pakker. Den manglende værdianalyse pakke i SPSS vil gøre nogle meget begrænsede maksimale likelihood estimater for midler og korrelationer kun

Referencer:.
Schafer, J. Software til Multiple Imputation
Hox, JJ (1999) En gennemgang af aktuelle Software til håndtering manglende data Kwantitatieve Methoden, 62, 123-138.
Allison, P. (2000). Flere Imputering for manglende data: en advarsel, Sociologiske metoder og forskning, 28, 301-309
. .

business consulting

  1. Termisk og fordøjelse Waste-to-Energy Technologies Worldwide
  2. Fem spørgsmål til Spørg før Opsætning dine mål
  3. Hvor Moderne Gastronomi er blevet påvirket af kommercialisering af det gamle Krydderier
  4. Fordele ved give nogen en Trophy eller Plaque
  5. Upping din Supply Chain Synlighed burde være en topprioritet for Reverse af Base Chain Leverandøre…
  6. Top Syv Ideer til at vokse din virksomhed gennem dit websted
  7. Du differentierer om Google steder
  8. Passende Merchant konto Betød For Small Business
  9. Obstetrisk ultralyd Scannere Forklaret
  10. Burberry Outlet Hvis din inde i almindelighed til at være det ligetil
  11. Jeg anbefaler dette selskab for certifikat oversættelse i Singapore
  12. Cricket Forudsigelse
  13. 10 centrale elementer i en stærk Marketing Plan Format
  14. Going Green på Home: Simple Ideer til at reducere energiforbruget Omkostninger
  15. Måder at håndtere it-ressourcekrav ud Outsourcing
  16. DETECH Fire Alarmer Er hele pakken
  17. Betydningen af ​​Miljømæssig bæredygtighed
  18. Master Keys: Enkel Sikkerhed med nem adgang
  19. Karriererådgivning Astrologi
  20. Undgå medarbejder retssager: 5 lektioner fra retten