Наука о данных: о чем может говорить корреляция?

На модерации Отложенный

При анализе данных самое простое – это обнаружить корреляцию между двумя случайными величинами. Но для полноценного анализа нужно еще уметь правильно интерпретировать эту корреляцию, т.е. понять и объяснить, каким образом эти величины взаимосвязаны друг с другом. В этом и состоит искусство аналитика.

Само по себе наличие положительной корреляции еще не означает, что мы обнаружили причинно-следственную связь. Корреляция двух величин может свидетельствовать о наличии ОБЩЕЙ ПРИЧИНЫ, хотя сами эти величины напрямую не взаимосвязаны.

«Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад». (Елисеева, Юзбашев, Общая теория статистики, 2002, с. 229.)

В данном примере общая причина – это пожар, а величины, которые коррелируют между собой – количество пожарных и размер ущерба.

Но если общая причина не является такой же очевидной, как пожар в приведенном примере, то очень легко сделать ложные выводы о наличии причинно-следственной связи там, где её нет на самом деле.

В предыдущей статье я приводила пример одного такого исследования. Напомню, речь шла о том, чтобы подтвердить или опровергнуть утверждение медиков о вреде бега для здоровья. Бег – это мощная нагрузка на сердце и сосуды, утверждали медики, опираясь на данные своих статистических исследований. Подсчеты числа бляшек в сердцах мужчин-марафонцев показали, что их заметно больше, чем у небегающих сверстников.

Аналитики пошли другим путем: они не стали исследовать данные о состоянии сердца и других органов бегунов, а просто сравнили время, которое те тратят на бег, и среднюю ожидаемую продолжительность жизни.

В итоге была обнаружена явная положительная корреляция между продолжительностью занятий бегом до 4 часов в неделю и средней продолжительностью жизни. Но следует ли из этого вывод, что бег не вреден, а полезен для здоровья? Вопрос-то состоял в этом!

Я думаю, корреляция в данном случае означает наличие некой общей причины, но не прямую взаимосвязь величин. И эта общая причина, скорее всего, связана с характером человека, с его образом жизни.

Те, кто бегают, занимаются спортом, склонны к саморазвитию, здоровому образу жизни, они больше заботятся о себе, вовремя лечатся, поэтому нет ничего удивительного в том, что в среднем они живут дольше, чем те, кто живут как попало. Хотя непосредственно сам бег мог им только вредить, как это показали данные медицинских исследований.

Задача аналитика заключается в том, чтобы обнаружить и сформулировать искомую общую закономерность, зная которую можно гарантировано получить желаемый результат, в данном случае – хорошее здоровье и высокую продолжительность жизни.

Желая узнать, в чем секрет долголетия, люди спрашивают: «Что вы для этого сделали?» Один ответит: «Я всю жизнь пил вино, любил женщин и много трудился», другой скажет: «Я не пил, не курил и не ел мясо», третий назовет какие-то свои «причины» успеха. Но в этом ли секрет, в этом ли причины?

Люди часто подражают тем, кого, считают в чем-то успешными, достойными подражания, копируя какие-то внешние атрибуты, действия, превращая их в ритуалы, культы, не понимая, что суть-то не в этом.

Они говорят: «Вот это полезно, а это вредно, это хорошо, а это плохо», но так ли это на самом деле? Не идет ли речь о какой-то искусственно созданной корреляции, которая только вводит в заблуждение, превращаясь в очередной стереотип? Например, все, кто занимаются йогой - просветленные и гармоничные, или все, кто носят военную форму – мужественные, и т.д.

Именно поэтому необходимо научиться находить истинную общую причину, а не усиливать случайные корреляции.