Manglende data Mekanismer

Som næsten enhver forsker kan bevidne, manglende data er et udbredt problem. Data fra undersøgelser, eksperimenter og sekundære kilder er ofte mangler nogle data. Virkningen af ​​de manglende data om resultaterne af statistiske analyser afhænger af den mekanisme, som forårsagede de data, der mangler, og den måde, hvorpå data analytiker behandler det. Dette er den første i en serie af tre artikler, der diskuterer spørgsmål omkring manglende data. Denne artikel beskriver de mekanismer manglende data og nogle af deres virkninger. Efterfølgende artikler vil forklare fælles, men problematiske løsninger på manglende data, nye og bedre løsninger, og software til rådighed for gennemførelsen af ​​disse løsninger.

Data mangler for mange grunde. Emner i longitudinelle studier ofte dropper ud før undersøgelsen er afsluttet, fordi de har flyttet ud af området, døde, ikke længere se personlig fordel at deltage, eller ikke kan lide effekten af ​​behandlingen. Undersøgelser lider manglende data, når deltagerne afvise, eller ikke kender svaret på eller ved et uheld springe et element. Nogle undersøgelsens forskere endda designe studiet, så nogle spørgsmål bliver bedt om kun en delmængde af deltagere. Eksperimentelle undersøgelser har manglende data, når en forsker er simpelthen ude af stand til at indsamle en observation. Dårlige vejrforhold kan gøre observation umuligt i markforsøg. En forsker bliver syge eller udstyr svigter. Data kan mangle i enhver form for undersøgelsen på grund af utilsigtet eller indtastning af data fejl. En forsker dråber en bakke med reagensglas. En datafil bliver beskadiget. De fleste forskere er meget fortrolig med en (eller flere) af disse situationer.

Manglende data er problematiske, fordi de fleste statistiske procedurer kræver en værdi for hver variabel. Når et datasæt er ufuldstændig, data analytiker har at beslutte, hvordan man skal håndtere det. Den mest almindelige beslutning er at bruge komplet case analyse (også kaldet listwise tekst udgår) - at analysere kun de sager med fuldstændige data. Personer med manglende data om eventuelle variable er faldet fra analysen. Det har fordele - det er let at bruge, er meget enkel, og er standard i de fleste statistiske pakker. Men det har begrænsninger. Det kan væsentligt lavere stikprøvestørrelsen, hvilket fører til en alvorlig mangel på magt. Dette gælder især, hvis der er mange variabler involveret i analysen, hver med manglende data for nogle få tilfælde. Det kan også føre til tendentiøse resultater, afhængigt af, hvorfor der mangler data.

Alle årsagerne til manglende data passer i fire klasser, som er baseret på forholdet mellem den manglende data mekanismen og savnede og observerede værdier. Disse klasser er vigtigt at forstå, fordi de problemer, som manglende data og løsninger på disse problemer er forskellige for de fire klasser.

Den første er Savnet Helt på Random (MCAR). MCAR betyder, at manglende data mekanisme er relateret til værdierne af eventuelle variable, uanset om manglende eller observeret. Data, der mangler, fordi en forsker faldt reagensglassene eller deltagerne i undersøgelsen uheld sprunget spørgsmål vil sandsynligvis være MCAR. Hvis de observerede værdier er hovedsagelig en stikprøve af det fulde datasæt, komplet case analyse giver de samme resultater som det fulde datasæt ville have. Desværre er de fleste manglende data er ikke MCAR.

I den modsatte ende af spektret er et Ikke-ignorable (NI). NI betyder, at manglende data mekanisme er relateret til de manglende værdier. Det almindeligvis opstår, når folk ikke ønsker at afsløre noget meget personligt eller upopulær om sig selv. For eksempel, hvis personer med højere indkomster er mindre tilbøjelige til at afsløre dem på en undersøgelse, end er individer med lavere indkomster, mekanismen for indkomst manglende data er ikke-ignorable. Hvorvidt indkomst mangler eller observeres er relateret til dets værdi. Komplet case analyse kan give meget partiske resultater for NI manglende data. Hvis forholdsmæssigt mere lave og moderate indkomst enkeltpersoner er tilbage i prøven, fordi højindkomstlande folk mangler et skøn over den gennemsnitlige indkomst vil være lavere end den faktiske befolkning betyder.

I mellem disse to yderpunkter mangler på Random (MAR) og kovariat Afhængig (CD). Begge disse klasser kræver, at årsagen til den manglende data ikke er relateret til de manglende værdier, men kan være relateret til de observerede værdier af andre variable. MAR betyder, at de manglende værdier er relateret til enten observerede kovariater eller responsvariabler, mens cd betyder, at de manglende værdier kun vedrører kovariater. Som et eksempel på cd manglende data, kan manglende data indkomst være relateret til den faktiske indtægt værdier, men er relateret til uddannelse. Måske folk med mere uddannelse er mindre tilbøjelige til at afsløre deres indkomst end dem med mindre uddannelse.

En vigtig forskel er, om mekanismen er ignorable (dvs. MCAR, CD eller MAR) eller ikke-ignorable. Der er gode teknikker til håndtering ignorable manglende data. Ikke-ignorable manglende data er mere udfordrende og kræver en anden tilgang
.

business consulting

  1. Få Industrielle lysarmaturer Kun fra autoriserede forhandler
  2. En simpel 20-Step test, der bekræfter, hvorvidt en Produktudvikling projekt Marked-Ready
  3. Funky prototype kommer vores måde
  4. SMS white label mobile marketing
  5. Belysning din vej - Sådan oprettes det liv du ønsker
  6. Betydning og anvendelser af Microsoft Dynamics AX CRM til virksomheder
  7. Lawn sprinkler system
  8. Afskærmning: God eller dårlig
  9. Opmærksomhed alle aktiehandel Entusiaster: Stop Dreaming-Get Real !!!
  10. Call Recorder: Hvorfor rekord opkald
  11. Sådan køber du en Franchise den smarte måde
  12. Alt om Singapores Corporate Beskatning
  13. Ough.Ring. Beskyttet Strategisk planlægning /Et telefonopkald på grund af modernisering
  14. Hvilken skal du bruge: Business Plan, forslag eller Marketing strategi
  15. Otte Årsager en Business sælger ikke
  16. Vigtigheden af ​​personlige møder i Business
  17. Nøjagtige testresultater med QBC stjerne hæmatologianalysator
  18. KODER FOR POPULARITET OG BEDRE Buisness
  19. B2B business platform software butik
  20. Sådan Opnå Troværdighed mens møde Udsigterne