Статистика оценки (Vmgmnvmntg keyutn)
Статистика оценки (оценочная статистика, англ. Estimation statistics) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов.[1] Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным.[2][3] Статистика оценки, или просто оценка, также известная как новая статистика,[3] используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом,[4] несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.[5][6]
Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки.[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости[8] и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.[9]
История
[править | править код]В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.[10]
История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах.[11] С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.[4]
В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.[12]
В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.[13]
В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез.[14] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».[15]
В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.[16]
Методология
[править | править код]У многих тестов значимости есть аналог в статистике оценки.[17] Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R2) и уравнение модели вместо p-значения модели.
Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам.[2][6][7] Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп.[18] В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.[19]
График Гарднера — Альтмана
[править | править код]График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г.[18] Этот статистический график отображает данные из двух независимых групп.[6] Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности.[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.
График Камминга
[править | править код]Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений[3]: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.
Другие методологии
[править | править код]Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R2) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.
Недостатки в проверке гипотез
[править | править код]При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез[3][7] по следующим причинам:
- P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна»[20].
- Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный.[21]
- Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине эффекта.[22]
- Любое конкретное p-значение возникает в результате взаимодействия размера эффекта, размера выборки (при прочих равных, больший размер выборки дает меньшее p-значение) и ошибки выборки.[23]
- При низкой мощности симуляция данных показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными.[24]
Преимущества статистики оценки
[править | править код]Преимущества доверительных интервалов
[править | править код]Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента.[3] Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.
Доказательная статистика
[править | править код]Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.[25]
Планирование точности (Precision planning)
[править | править код]Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.[3]
Примечания
[править | править код]- ↑ Ellis, Paul Effect size FAQ . Дата обращения: 20 января 2021. Архивировано 26 января 2021 года.
- ↑ 1 2 Cohen, Jacob The earth is round (p<.05) . Дата обращения: 20 января 2021. Архивировано 11 октября 2017 года.
- ↑ 1 2 3 4 5 6 7 Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. — New York : Routledge, 2012.
- ↑ Altman, Douglas. Practical Statistics For Medical Research. — London : Chapman and Hall, 1991.
- ↑ 1 2 3 Statistics with Confidence / Douglas Altman. — London : Wiley-Blackwell, 2000.
- ↑ 1 2 3 Cohen, Jacob (1990). "What I have Learned (So Far)". American Psychologist. 45 (12): 1304. doi:10.1037/0003-066x.45.12.1304. Архивировано 21 января 2021. Дата обращения: 20 января 2021.
- ↑ Ellis, Paul Why can't I just judge my result by looking at the p value? (31 мая 2010). Дата обращения: 5 июня 2013. Архивировано 28 января 2021 года.
- ↑ Claridge-Chang, Adam; Assam, Pryseley N (2016). "Estimation statistics should replace significance testing". Nature Methods. 13 (2): 108—109. doi:10.1038/nmeth.3729. PMID 26820542. S2CID 205424566. Архивировано 22 января 2021. Дата обращения: 20 января 2021.
- ↑ Hedges, Larry (1987). "How hard is hard science, how soft is soft science". American Psychologist. 42 (5): 443. CiteSeerX 10.1.1.408.2317. doi:10.1037/0003-066x.42.5.443.
- ↑ Hunt, Morton. How science takes stock: the story of meta-analysis. — New York : The Russell Sage Foundation, 1997. — ISBN 978-0-87154-398-1.
- ↑ Fidler, Fiona (2004). "Editors Can Lead Researchers to Confidence Intervals, but Can't Make Them Think". Psychological Science. 15 (2): 119—126. doi:10.1111/j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.
- ↑ Cumming, Geoff ESCI (Exploratory Software for Confidence Intervals) . Дата обращения: 20 января 2021. Архивировано 29 декабря 2013 года.
- ↑ Publication Manual of the American Psychological Association, Sixth Edition . Дата обращения: 17 мая 2013. Архивировано 5 марта 2013 года.
- ↑ Uniform Requirements for Manuscripts Submitted to Biomedical Journals . Дата обращения: 17 мая 2013. Архивировано из оригинала 15 мая 2013 года.
- ↑ Changing the Way We Report, Interpret, and Discuss Our Results to Rebuild Trust in Our Research . Дата обращения: 20 января 2021. Архивировано 22 января 2021 года.
- ↑ Cumming, Geoff. Introduction to the New Statistics: Estimation, Open Science, and Beyond / Geoff Cumming, Robert Calin-Jageman. — Routledge, 2016. — ISBN 978-1138825529.
- ↑ 1 2 Gardner, M. J.; Altman, D. G. (1986-03-15). "Confidence intervals rather than P values: estimation rather than hypothesis testing". British Medical Journal (Clinical Research Ed.). 292 (6522): 746—750. doi:10.1136/bmj.292.6522.746. ISSN 0267-0623. PMC 1339793. PMID 3082422.
- ↑ Ho, Joses; Tumkaya; Aryal; Choi; Claridge-Chang (2018). "Moving beyond P values: Everyday data analysis with estimation plots". bioRxiv: 377978. doi:10.1101/377978. Архивировано 28 июля 2018. Дата обращения: 20 января 2021.
- ↑ Baril G. L., Cannon J. T. What is the probability that null hypothesis testing is meaningless? (англ.). — 1995.
- ↑ Cohen, Jacob (1994). "The earth is round (p < .05)". American Psychologist. 49 (12): 997—1003. doi:10.1037/0003-066X.49.12.997.
- ↑ Ellis, Paul. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. — Cambridge : Cambridge University Press, 2010.
- ↑ The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. — Aldine Transaction, 2006. — ISBN 978-0202308791.
- ↑ Cumming, Geoff Dance of the p values . Дата обращения: 20 января 2021. Архивировано 13 февраля 2021 года.
- ↑ Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). "Statistical cognition: Towards evidence-based practice in statistics and statistics education". Statistics Education Research Journal. 7: 20—39.