Наука о данных: о чем может говорить корреляция?
На модерации
Отложенный
При анализе данных самое простое – это обнаружить корреляцию между двумя случайными величинами. Но для полноценного анализа нужно еще уметь правильно интерпретировать эту корреляцию, т.е. понять и объяснить, каким образом эти величины взаимосвязаны друг с другом. В этом и состоит искусство аналитика.
Само по себе наличие положительной корреляции еще не означает, что мы обнаружили причинно-следственную связь. Корреляция двух величин может свидетельствовать о наличии ОБЩЕЙ ПРИЧИНЫ, хотя сами эти величины напрямую не взаимосвязаны.
«Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад». (Елисеева, Юзбашев, Общая теория статистики, 2002, с. 229.)
В данном примере общая причина – это пожар, а величины, которые коррелируют между собой – количество пожарных и размер ущерба.
Но если общая причина не является такой же очевидной, как пожар в приведенном примере, то очень легко сделать ложные выводы о наличии причинно-следственной связи там, где её нет на самом деле.
В предыдущей статье я приводила пример одного такого исследования. Напомню, речь шла о том, чтобы подтвердить или опровергнуть утверждение медиков о вреде бега для здоровья. Бег – это мощная нагрузка на сердце и сосуды, утверждали медики, опираясь на данные своих статистических исследований. Подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников.
Аналитики пошли другим путем: они не стали исследовать данные о состоянии сердца и других органов бегунов, а просто сравнили время, которое те тратят на бег, и среднюю ожидаемую продолжительность жизни.
В итоге была обнаружена явная положительная корреляция между продолжительностью занятий бегом до 4 часов в неделю и средней продолжительностью жизни. Но следует ли из этого вывод, что бег не вреден, а полезен для здоровья? Вопрос-то состоял в этом!
Я думаю, корреляция в данном случае означает наличие некой общей причины, но не прямую взаимосвязь величин. И эта общая причина, скорее всего, связана с характером человека, с его образом жизни.
Те, кто бегают, занимаются спортом, склонны к саморазвитию, здоровому образу жизни, они больше заботятся о себе, вовремя лечатся, поэтому нет ничего удивительного в том, что в среднем они живут дольше, чем те, кто живут как попало. Хотя непосредственно сам бег мог им только вредить, как это показали данные медицинских исследований.
Задача аналитика заключается в том, чтобы обнаружить и сформулировать искомую общую закономерность, зная которую можно гарантировано получить желаемый результат, в данном случае – хорошее здоровье и высокую продолжительность жизни.
Желая узнать, в чем секрет долголетия, люди спрашивают: «Что вы для этого сделали?» Один ответит: «Я всю жизнь пил вино, любил женщин и много трудился», другой скажет: «Я не пил, не курил и не ел мясо», третий назовет какие-то свои «причины» успеха. Но в этом ли секрет, в этом ли причины?
Люди часто подражают тем, кого, считают в чем-то успешными, достойными подражания, копируя какие-то внешние атрибуты, действия, превращая их в ритуалы, культы, не понимая, что суть-то не в этом.
Они говорят: «Вот это полезно, а это вредно, это хорошо, а это плохо», но так ли это на самом деле? Не идет ли речь о какой-то искусственно созданной корреляции, которая только вводит в заблуждение, превращаясь в очередной стереотип? Например, все, кто занимаются йогой - просветленные и гармоничные, или все, кто носят военную форму – мужественные, и т.д.
Именно поэтому необходимо научиться находить истинную общую причину, а не усиливать случайные корреляции.
Комментарии
люди, с детства парализованные, вообще не бегают, хотя и следят за здоровьем. Скорее всего, бегают те, кто от рождения имеет достаточно здоровья.
Достаточно здоровья для занятий спортом
"Давайте выпьем, чтобы всегда «находить истинную общую причину, а не усиливать случайные корреляции»". Горько.
Но хлопоты автор (-ши) напрасны и оторваны от жизни. Все нынешние "корреляции" спускаются сверху в виде результатов безымянных соц-опросов от непонятных субъектов, без возможности аппелировать и перепроверить. Что позволило обойтии все неприятности от использования точной науки мат.статистики и назойливых сомневающихся. Причем в услуги сервиса таких соц-опросчиков уже включены все правильные интерпретации и толкования.
И очень правильно заметили, что статистику как инструмент анализа заменила статистическая служба, как государственный орган.