Анализ полных наблюдений (Gugln[ hklud] ugQlZ;yunw)

Пример анализа полных наблюдений. В ходе построения регрессии $Y$ на $X_{1},X_{2},X_{2}$ анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных^[1].

Оценка регрессий при анализе полных наблюдений

Представим линейную регрессионную модель вида $\mathbf {Y} =\mathbf {X\beta } +\mathbf {\epsilon }$ , где $\mathbf {Y}$ — вектор целевых значений, $\mathbf {X}$ — матрица значений независимых переменных, $\mathbf {\beta }$ — вектор регрессионных коэффициентов, $\mathbf {\epsilon }$ — вектор регрессионных остатков.

Пусть $O_{i}=1$ , если i-е наблюдение имеет полное признаковое описание и $O_{i}=0$ в противном случае — то есть $\mathbf {O} =\mathrm {diag} (O_{1},...,O_{n})$ . Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: $\mathbf {OY=OX\theta +O\varepsilon }$ , где $\theta$ и $\varepsilon$ — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК-оценка вектора $\theta$ в таком случае выглядит следующим образом^[2]: $\mathbf {{\hat {\theta }}=\beta +(X'OX)^{-1}X'\epsilon }$ .

Ограничения метода

Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения ( $P(O_{i}=0)$ ) зависит от независимых переменных ( $\mathbf {X}$ ), а не регрессионных остатков ( $\mathbf {\epsilon }$ )^[2]. Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, англ. Missing not at random). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типа^[3]. Данное условие может не выполняться в двух случаях:

Невключение какой-то значимой переменной (omitted variable).
Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную»)^[2].

Кроме того, вероятность пропуска может быть связана и с откликом ( $\mathbf {Y}$ )^[4]. Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках: верная спецификация моделей и точная функциональная форма редко бывают доподлинно известны^[5].

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данных^[6]^[3]. Кроме того, метод может привести к получению неэффективных оценок, если удаление наблюдений значительно сократит объясняемую дисперсию^[5].

Сравнение с другими методами

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место быть, рекомендуется прибегать к альтернативным, более сложным методам обработки пропущенных данных: попарное удаление пропущенных наблюдений (англ. pairwise deletion), введение дамми на пропуск, а также множественная импутация (англ. multiple imputation)^[5]. Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение среднего значения), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значений^[7].

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативами^[8].

Анализ полных наблюдений широко используется в анализе «intent-to-treat^[англ.]», широко распространённом в экономике образования, где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниями^[9].

В статистических пакетах

В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции^[10].
В Stata^[англ.] при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями^[11].
В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit(), complete.cases() и параметр na.rm = TRUE, «механически» удаляющие наблюдения с пропущенными значениями переменных^[12], а также функция ld() для матричных объектов из пакета (библиотеки) ForImp^[13].

Примечания

↑ Samii, 2011, p. 518.
↑ ¹ ² ³ Jones, 1996, p. 223.
↑ ¹ ² Olinsky et al., 2003.
↑ Тем не менее, показывается (Jones, 1996, p. 228), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (англ. Missing completely at random).
↑ ¹ ² ³ Samii, 2011, pp. 518-519.
↑ Roth, 1994.
↑ Little, Rubin, 2002, pp. 43-44.
↑ Allison, 2001, pp. 6-7.
↑ Peugh, Enders, 2004.
↑ Pairwise vs. Listwise deletion: What are they and when should I use them? (англ.). IBM Support. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
↑ Missing Values | Stata Learning Modules (англ.). UCLA Institute for Digital Research and Education. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
↑ Missing Data (англ.). Quick-R. Дата обращения: 24 августа 2017. Архивировано 27 августа 2017 года.
↑ R: Listwise Deletion (англ.). R Documentation. Дата обращения: 24 августа 2017. Архивировано из оригинала 24 декабря 2014 года.

Литература

Allison P. D. Missing Data. — Thousand Oaks, CA: Sage, 2001. — (Sage University Papers Series on Quantitative Applications in the Social Sciences).
Jones M. P. Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression // Journal of the American Statistical Association. — 1996. — Т. 91, № 433. — P. 222—230.
Little R.J.A., Rubin D.B. Statistical Analysis with Missing Data. — Wiley, 2002. — 408 p. — ISBN 978-0-471-18386-0.
Olinsky A., Chen S., Harlow L. The comparative efficacy of imputations methods for missing data in structural equation modeling // European Journal of Operational Research. — 2003. — Т. 151, № 1. — P. 53–79. — doi:10.1016/S0377-2217(02)00578-7.
Peugh J. L., Enders C. K. Missing data in educational research: A review of reporting practices and suggestions for improvement. // Review of Educational Research. — 2004. — № 74. — P. 525—556.
Roth P. L. Missing data: A conceptual review for applied psychologists // Personnel Psychology. — 1994. — Т. 47, № 3. — P. 537–559. — doi:10.1111/j.1744-6570.1994.tb01736.x.
Samii C. Data, Missing // International Encyclopedia of Political Science / Badie B., Berg-Schlosser D., Morlino L. — Sage, 2011. — Т. 2. — P. 518—520.

Ссылки

Missing Data: Listwise vs. Pairwise. Statistics Solutions.

[_4328960736c05138-1] Samii, 2011, p. 518.

[_6c735ba5bbc27f5e-2] ¹ ² ³ Jones, 1996, p. 223.

[_4e307059bba37a4b-3] ¹ ² Olinsky et al., 2003.

[4] Тем не менее, показывается (Jones, 1996, p. 228), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (англ. Missing completely at random).

[_2971432432d9f7c4-5] ¹ ² ³ Samii, 2011, pp. 518-519.

[_8fce17597f74650b-6] Roth, 1994.

[_85ac8501c024fec3-7] Little, Rubin, 2002, pp. 43-44.

[_3a2b35a9e67952d4-8] Allison, 2001, pp. 6-7.

[_84226672afd6249b-9] Peugh, Enders, 2004.

[10] Pairwise vs. Listwise deletion: What are they and when should I use them? (англ.). IBM Support. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.

[11] Missing Values | Stata Learning Modules (англ.). UCLA Institute for Digital Research and Education. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.

[12] Missing Data (англ.). Quick-R. Дата обращения: 24 августа 2017. Архивировано 27 августа 2017 года.

[13] R: Listwise Deletion (англ.). R Documentation. Дата обращения: 24 августа 2017. Архивировано из оригинала 24 декабря 2014 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]