?

Log in

No account? Create an account
Записи Френдолента Календарь Инфо Назад Назад Вперёд Вперёд
Статистическая значимость - ДНЕВНИК ЭКОНОМИСТА
ksonin
ksonin
Статистическая значимость
К этом давно шло в науках, в которых есть статистическая работа с данными. Группа учёных (среди них выдающиеся экономисты, работающие с экспериментальными данными Джон Лист, Эрнст Фер и Колин Каммерер) предлагают считать "статистически доказанными" гипотезы, p-значение у которых меньше 0,005. Сейчас стандартно считать, что "статистически значимы" те результаты, у которых это значение 0,05, то есть в десять раз больше.  В статье, выложенной на сайте Nature, подробно объясняется, почему стоит стандарт поменять.

P-значение - это мера "ошибки первого рода", вероятность того, что результат эксперимента (тестирования какой-то гипотезы) случайно оказался правильным. Ошибка первого рода это, например, если вы сдаёте анализ на допинг, ошибочный позитивный результат. То есть тест показал, что допинг есть, а его на самом деле нет. Когда учёный "проводит эксперимент" (любая статистическая проверка гипотезы с помощью данных это "эксперимент"), он смотрит на то, насколько результат эксперимента отклонился от того, что должно было бы произойти, если бы исходная гипотеза была верна. Чем больше отклонение, тем маловероятнее, что исходная гипотеза верна. P-значение показывает как раз эту вероятность. Если она очень маленькая, то, значит исходная гипотеза, скорее всего, неверна, и, значит, "статистически доказано" утверждение, противоположное исходной гипотезе.

Важно, что "статистическая доказанность" требует выбора конкретного значения, при котором мы будем считать, что она есть. Сейчас, уже почти сто лет, все используют 0,05, но настало время менять стандарт на более строгий - с современным стандартом слишком малое число исследований, особенно в физике и медицине, удаётся реплицировать. 
114 мнений // Ваше мнение?
Comments
Страница 1 из 2
[1] [2]
thrasymedes From: thrasymedes Date: Сентябрь, 6, 2017 19:11 (UTC) (Ссылка)
Насколько я понимаю, эти цифры - 0.05 и 0.005 - взяты просто с потолка.
А нельзя как-то найти правильную ( естественную, научно обоснованную...) цифру ?
From: yaceya Date: Сентябрь, 7, 2017 13:34 (UTC) (Ссылка)
Нет. Никакое p-value не будет универсальным поскольку оно не учитывает априорное распределение, плюс в разных случаях модели имеют разную степень устойчивости(? robustness).
При любом p-value открытие можно считать открытым когда его многократно подтвердили разными методами. А иначе нужно осуществлять закрытие открытия.
From: affidavid Date: Сентябрь, 6, 2017 19:17 (UTC) (Ссылка)
Что значит "особенно в физике"? Как раз в физике и physical science s воспроизводимостью все обстоить намного лучше life science, не говоря уже о психологии.
volxb From: volxb Date: Сентябрь, 6, 2017 19:22 (UTC) (Ссылка)
Остается только вероятность (фаллибилизм), что с течением времени полученные результаты будут опровергнуты или истолкованы по иному другой теорией. Статистическая доказанность - это банальный конвенционализм в действии (по Т.Куну) Ну или построение очередных догм)
tatiana_mikhail From: tatiana_mikhail Date: Сентябрь, 6, 2017 19:32 (UTC) (Ссылка)
А зачем вообще "стандартно считать" что-либо? Получил p-value/s.e. ну и сообщи их как есть.
yozhig From: yozhig Date: Сентябрь, 6, 2017 20:00 (UTC) (Ссылка)

Да ктож осудит, действительно? А тут вот явно предлагается рецензентам использовать "учет и контроль" не только логический, но и в привязке к реальности. Социалисты, млин :)

ecostudent From: ecostudent Date: Сентябрь, 6, 2017 19:47 (UTC) (Ссылка)
Вот главная цитата из этой статьи:
"Changing the significance threshold is a distraction from the real solution, which is to replace null hypothesis significance testing (and bright-line thresholds) with more focus on effect sizes and confidence intervals, treating the P-value as a continuous measure, and/or a Bayesian method."

Edited at 2017-09-06 19:48 (UTC)
dvv7 From: dvv7 Date: Сентябрь, 7, 2017 02:59 (UTC) (Ссылка)
Давно пора.

Хотя бы действительно малый шаг сделать, потому что результаты тестов подразумеваются постоянными (константами), а пользователи уже ссылаются на результат как на доказанное.
yozhig From: yozhig Date: Сентябрь, 6, 2017 19:49 (UTC) (Ссылка)

Открытием в естественных науках считается 6-сигма, для принятия долгосрочных решений в медицине в качестве статистического обычно использовался тот же критерий. Могу только поздравить с инициативой приближения к этому уровню социальную науку экономику: http://rpsychologist.com/the-higgs-boson-sigma-5-and-the-concept-of-p-values

ksonin From: ksonin Date: Сентябрь, 7, 2017 20:24 (UTC) (Ссылка)
Если бы ты прочёл хотя бы полстранички по ссылке, ты бы увидел, что авторам статьи, большинство из которых как раз специалисты по медицинской статистике, это хорошо известно :)
From: sasha_br Date: Сентябрь, 6, 2017 20:08 (UTC) (Ссылка)
Я вот 3 недели назад ходил на маленький курс для детей про big data, который читал (в детском лагере) мой друг Лёня Мирный (http://imes.mit.edu/people/faculty/mirny-leonid/).
Oн там в частности объяснял, что унифицированное P-значение - это зло (в частности, приводил несколько анекдотических (но реальных) примеров, как люди разного рода обманами сводили ошибку с 5.1% до 4.9% - лишь бы вписаться в канон).
ksonin From: ksonin Date: Сентябрь, 7, 2017 20:27 (UTC) (Ссылка)
Они это и объясняют. Проблема же в том, что это "унифицированное зло" не кем-то конкретным унифицировано. Редактор журнала может принимать статью с 5,1 или 5,3 или 0,49 - и тысячи редакторов это делают самостоятельно. (В журналах нет формальных критериев, это всегда решение редактора.) Нет же никакого органа, которые заставлял бы пользоваться 5 процентами. Коллеги пытаются обратить внимание всех людей на то, что эта "унификация" произвольна и, если уж всем удобно пользоваться одной цифрой, то лучше другой.

Edited at 2017-09-07 21:11 (UTC)
edroovna From: edroovna Date: Сентябрь, 6, 2017 20:22 (UTC) (Ссылка)
Звучит красиво, но без указания типа распределения не имеет смысла. Но звучит красиво. Видимо, только для этого, да. Поздравим математика.
filin From: filin Date: Сентябрь, 6, 2017 20:46 (UTC) (Ссылка)
Короче, всех задолбали мусорные статьи, где p искусственно дотянуто до 0.05 :-)
From: yaceya Date: Сентябрь, 7, 2017 13:41 (UTC) (Ссылка)
и предлагают перейти к написанию статей где p будет искусственно дотягиваться до 0.005
p.s. кстати, по факту они собираются просто переименовать 0.005-0.05 из "significant" в "suggestive". Напоминает долгую войну на вбивание в употребление формулировок что "мы обнаружили корреляцию" с очевидным следствием при котором даже в случаях когда стоит заявить что эта корреляция видимо отражает причинно-следственную связь продолжают говорить "ассоциация". А чё? Всё равно результат публикуется, а дальше в разной степени он преобразуется в головах в причинно-следственную связь.

Edited at 2017-09-07 13:44 (UTC)
vit_r From: vit_r Date: Сентябрь, 6, 2017 20:50 (UTC) (Ссылка)
В медицине деление на десять отправит стоимость проектов в космические высоты.
oude_rus From: oude_rus Date: Сентябрь, 6, 2017 21:22 (UTC) (Ссылка)
Прошу прощения, но в физике p-value не используется.
roman_elvin From: roman_elvin Date: Сентябрь, 7, 2017 05:17 (UTC) (Ссылка)
А в журнале Nature пишут, что in high-energy physics, the tradition has long been to define significance by a ‘5-sigma’ rule (roughly a P value threshold of 3 × 10–7), кому верить? :)
mi_b From: mi_b Date: Сентябрь, 7, 2017 08:06 (UTC) (Ссылка)
"статистическая доказанность" требует выбора конкретного значения, при котором мы будем считать, что она есть

не, не требует :) Более того, вера в то, что p должно быть одним и тем же независимо от дизайна эксперимента и разных обстоятельств, влияющих на selection bias - это одна из главных причин потока мусорных статей и их низкой реплицикации


и, кстати, исходная статья этой глупости про "требует выбора" не говорит, а, наоборот, вполне вменяемо пишет про байесовские подходы и интервалы.

Edited at 2017-09-07 08:11 (UTC)
oude_rus From: oude_rus Date: Сентябрь, 7, 2017 08:38 (UTC) (Ссылка)
вот!
zlata_gl From: zlata_gl Date: Сентябрь, 7, 2017 10:59 (UTC) (Ссылка)
Читали ль Вы прекрасную книгу
Джордан Элленберг. "Как не ошибаться. Сила математического мышления"
?
Как раз на эту тему.
И про эти 0,05 - он объясняет, как их обходят при помощи "множественных гипотез".
Всем рекомендую !
(Удалённый комментарий)
ksonin From: ksonin Date: Сентябрь, 7, 2017 20:21 (UTC) (Ссылка)

Re: Наблюдения и эксперименты

Слово "эксперимент" в современной науке (последние сто лет) используется так, как я сказал (https://en.wikipedia.org/wiki/Experiment). Вы описываете "контролируемые эксперименты", подраздел всех возможных экспериментов.
(Удалённый комментарий)
(Удалённый комментарий)
(Удалённый комментарий)
(Удалённый комментарий)
(Удалённый комментарий)
From: natvasmil Date: Сентябрь, 8, 2017 03:07 (UTC) (Ссылка)
Прошу не обобщать данные, приведенные в статье, предназначенной для психологов, с данными, экспериментами, моделями, которые обрабатывают физики, биологи. А то получается бред сивой кобылы (БСК).
zlata_gl From: zlata_gl Date: Сентябрь, 8, 2017 18:30 (UTC) (Ссылка)
Мне почему-то тааак кааажется, что у психологов и социологов проблема вовсе не с Р=0,05.
А с конкретными интересантами-спонсорами, собственными политическими взглядами, а также - неумением/нежеланием работать "двойным слепцм методом".

А недавно я прочла в книге Джареда Даймонда "Мир позавчера" очень интересную вещь:
"Среди участников опросов, результаты которых были опубликованы в ведущих психологических журналах в течение 2008 года, 96% составляли жители развитых стран западного типа (Северной Америки, Европы, Австралии, Новой Зеландии, Израиля); в частности, 68% из них приходилось на Соединенные Штаты и 80% были студентами психологических факультетов, так что они являлись не вполне типичными представителями даже своих собственных народов. Таким образом, как говорят социальные психологи Джозеф Генрих, Стивен Гейне и Ара Норензаян, наше понимание человеческой психологии в значительной мере основывается на данных, которые могут быть описаны аббревиатурой WEIRD

(WEIRD — сокращение от англ, слов western, educated, industrial, rich, democratic (западное, образованное, индустриальное, богатое, демократическое [общество]). Кроме того, weird (англ.) — “странный” (прим. перев.).) "


Разве студентов психологических факультетов (с уже промытыми мозгами) можно считать репрезентативной выборкой ?
114 мнений // Ваше мнение?
Страница 1 из 2
[1] [2]