Методика прогнозирования эпидемии через интернет

На модерации Отложенный

Три года назад канадский исследователь Гунтер Эйзенбах купил у Google контекстную рекламу. Она появлялась на экранах пользователей из Канады, которые вводили запросы «грипп» и «симптомы гриппа». Кликнув на баннер, они попадали на страничку ученого. Эйзенбах узнал, когда и откуда поступали запросы, и сопоставил свои результаты с данными эпидемиологических сводок. Обнаружилась взаимосвязь: число посетителей сайта Эйзенбаха из какого-то конкретного региона было пропорционально числу тех, кто спустя неделю заболел в этом регионе гриппом.                                                                                                                                        \"

Тут Эйзенбах понял, что изобрел новую методику прогнозирования эпидемий. Он отправил письмо Ларри Бриллианту, главе только что созданного Google.org, подразделения Google, которое занимается глобальными исследовательскими проектами. Эйзенбах надеялся, что компания поддержит его разработку, но в Google не проявили к ней интереса. Прошло несколько лет, и Эйзенбах с удивлением узнал, что интерес у Google все-таки есть. 

В конце 2008 г. две научные группы независимо друг от друга подтвердили: вспышки гриппа можно предсказывать, анализируя запросы в поисковиках. Одна группа работала с материалами Yahoo!, а в другую вошли специалисты того самого Google.org. В ноябре Google даже запустил новый сервис Flu Trends, который дает эпидемиологический прогноз по США с точностью до штата. Гунтера Эйзенбаха к работе над проектом не привлекли, и это его сильно возмущает. «Я даже придумал термин - “инфодемиология”», - негодует Эйзенбах. Google, правда, этот термин не использует. 

ИНФОДЕМИОЛОГИЯ

Современные методы наблюдения за эпидемиями - это кусочки пазла, которые дают полную картину, только когда их друг с другом соединяют. Идея нового метода очень проста: чтобы понять, чем болеют люди, надо посмотреть, что они ищут в интернете. Ведь когда какое-то событие волнует людей, они пытаются найти о нем информацию самым доступным путем. Эта простая догадка и воодушевила ученых. 

Дело было так. В 2008 г. ученые из Гарварда и Университета Айовы скооперировались с компанией Yahoo! и стали изучать статистику запросов, которые пользователи вводили в популярный поисковик с 2004-го по 2008 г. Исследователи пришли к выводу, что частота запросов с такими словами, как «грипп», значительно повышается в период эпидемии и - что особенно важно - незадолго до нее. Когда появляются первые заболевшие, но эпидемии еще нет, люди уже садятся за компьютеры и начинают выяснять, действительно ли их симптомы свидетельствуют о гриппе, где искать лекарства и так далее. Это отражается в статистике поисковых систем, а по IP-адресу пользователя легко определить, где он живет. 

Пройдет немного времени, и вирус станет распространяться от этих людей дальше. Тогда и начнется эпидемия. Из этого следует важный вывод: если ученые увидят всплеск запросов со словом «грипп» в поисковиках, то они смогут заранее понять, в каких местах надо ожидать эпидемий. Авторы исследования утверждают, что массовые вспышки гриппа начинаются через 1–3 недели после того, как возрастает частота соответствующих запросов. 

А другая группа ученых тем временем не только построила теоретическую модель, но и воплотила ее в жизнь. В ноябре Джереми Гинзберг, Ларри Бриллиант и их коллеги опубликовали в Nature статью о новой методике прогнозирования гриппа, и тогда же был запущен Google Flu Trends. Один из важных параметров при исследовании гриппа - доля людей с симптомами гриппа среди всех обращающихся к врачу. Этот показатель обычно находится в пределах 1% летом, но возрастает в зимний период. Flu Trends предсказывает именно это значение. 

Чтобы настроить автоматический предсказатель гриппа, ученые проанализировали 50 млн самых популярных поисковых запросов, сделанных за последние годы. А также проверили, кто, где и когда болел. Списки запросов наложили на эту медицинскую статистику и расположили запросы в порядке убывания: чем лучше частота встречаемости запроса соотносилась с числом заболевших гриппом по официальным данным, тем более высокое место он занимал в списке. Оказалось, что первые 53 запроса из списка действительно имеют непосредственное отношение к гриппу. А 54-е место занял запрос «университетский баскетбол»: баскетбольный сезон в США как раз совпадает с сезоном активности гриппа. 

В результате первые 53 результата и составили корзину запросов, на которую и «ловят» грипп.

В их число входит не только слово «грипп», но и описание симптомов («боль в мышцах») и предметов, так или иначе связанных с гриппом («термометр»). Полный набор ключевых слов не разглашается, потому что в Google считают, что пользователи начнут вводить их из любопытства, а это серьезно исказит картину. Полученные с помощью мониторинга запросов оценки сопоставляются с данными эпидемиологов. Если же цифра получается выше, чем в среднем бывает в это время года, то это немедленно отражается на карте Flu Trends. Это сигнал, что пора принимать меры. 

Данные на сайте обновляются ежедневно, и в этом проект Google выигрывает у официальных сводок, которые обычно запаздывают на неделю-две. Да и с экономической точки зрения этот метод выгоднее всех традиционных: теперь, когда методика уже разработана и реализована, расходы на проект близки к нулю. Но уже ясно, что Flu Trends никогда не заменит живых эпидемиологов. Машина все-таки разбирается в болезнях хуже, чем врач: компьютер не умеет отличать грипп от других респираторных заболеваний. 

Google Flu Trends пока что предоставляет статистику отдельно для каждого американского штата, а также для крупных частей страны и для США в целом. Но ясно, что эту методику можно применить и в других точках планеты. Здесь, правда, возникают некоторые сложности: не во всех странах статистику поисковых запросов можно сопоставить с реальными эпидемиологическими данными. «Хотелось бы, чтобы в будущем информация из разных стран о количестве людей, госпитализированных с гриппом, оперативно появлялась в публичном доступе», - говорит Лоне Симонсен, эпидемиолог из Вашингтонского университета. В России подробной статистики в открытом доступе вообще нет. К тому же наблюдение за гриппом ведется далеко не везде: сеть опорных баз Федерального центра по надзору за гриппом не охватывает даже половины регионов страны. 

СТАТИСТИКА СТРАХА

Чтобы оценить, работают ли в России американские методики, Newsweek провел предварительный анализ. Материалом для исследования послужила статистика запросов в поисковой системе «Яндекс». Оказалось, что интерес пользователей «Яндекса» к гриппу вполне адекватно отражает распространенность заболевания: в феврале, во время пика эпидемии, запросов «грипп» бывает больше всего. А месяц спустя достигает максимума число запросов «грипп осложнения»: люди уже успели заразиться гриппом и не долечились, и их начинают мучить последствия. Вакциной от гриппа особенно активно интересуются в октябре-ноябре, а потом интерес идет на спад. 

\" 

Статистика поисковых запросов совпадает и с данными эпидемиологов. НИИ гриппа сообщает, что в начале декабря эпидемические пороги у дошкольников были превышены в 13 крупных городах России. А «Яндекс» называет 6 городов, в которых в этот период времени интерес к гриппу был выше, чем в среднем по России. И эти два списка заметно пересекаются: и там и там отметились Красноярск, Нижний Новгород, Екатеринбург и Новосибирск. 

Особенно сильный интерес к гриппу проявляют красноярцы - на 34% больше, чем россияне в среднем. А по запросу «грипп лекарства» в числе лидеров оказался Барнаул, также попавший в список городов, по которым вовсю гуляет вирус. Жители Иркутска, где тоже свирепствует грипп, в 2 раза чаще среднего россиянина вводят в «Яндекс» запрос «термометр». Но особенно живо интересуются своим здоровьем пермяки: «грипп», «лечение гриппа» и «простуда» они ищут на 50% чаще остальных, а «кашель» - на 30%. При этом НИИ гриппа не отмечает в Перми высокой вирусной активности. Может быть, в этом случае поиск в «Яндексе» и дает тот самый прогноз, который станет реальностью через несколько недель. 

Впрочем, чтобы эта методика применялась и в России, открытых эпидемиологических баз недостаточно. Российские медики ее пока просто не признают. Директор НИИ гриппа Олег Киселев называет этот метод наивным, а его заместитель Людмила Цыбалова считает, что «может быть эффективным только при локальных вспышках, но не подходит для прогноза на большой территории». Лоне Симонсен из Вашингтонского университета объясняет, в чем одна из проблем: «Стоит людям из Нью-Йорка или Москвы услышать, что в Азии начала свирепствовать болезнь, они наверняка бросятся искать сведения о гриппе в интернете». И тогда статистика запросов будет отражать не уровень заболеваемости, а уровень страха.

Александр Пиперски