SpyLOG: стоит ли верить?

На модерации Отложенный

В Рунете не так много сервисов статистики. При этом каждый из них обладает своими особенностями, достойными изучения. Так, например, существует мнение, что статистика SpyLOG’a в той своей части, которая касается частоты поисковых запросов, недостаточно точна.

Прежде всего, следует отметить, что статистика запросов, например, за октябрь выглядит более чем экстравагантно: на первом месте с почти полуторакратным отрывом от ближайшего преследователя находится запрос «переводчик». Еще в сентябре он был пятьдесят вторым по популярности — в октябре, если верить трендам Спайлога, он стал первым. Понятно, что такие данные не вызывают доверия.

Репрезентативность без порно падает

Посчитать частоту поисковых запросов действительно сложно, равно как и количество пользователей, сделавших эти запросы. Борис Овчинников, Business Intelligence Director компании SUP, отмечает, что хотя из-за смещения и неслучайности выборки никакая система веб-статистики не является репрезентативной, в действительности приходится говорить о том, что разные системы репрезентативны в разной степени. Более того, различные статистики одной и той же системы могут обладать разным качеством и надежностью. По утверждению Бориса Овчинникова, есть статистики, где присутствие или отсутствие пусть даже и очень крупного сайта на результат влияет несущественно. К таким относится, например, статистика по времени суток, распределение аудитории по городам, статистика по браузерам. А, например, на статистику поисковых запросов даже один сайт может повлиять очень сильно. Соответственно, причиной проблем SpyLOG’a может являться недостаточный охват Рунета, следовательно, увеличенный вес отдельного сайта, «тянущего» вслед за собой соответствующий запрос.

Помимо малого охвата, некоторые дополнительные проблемы SpyLOG создает себе сам. Как признался аналитик компании Игорь Селицкий, отфильтровываются названия сайтов, являющиеся брендами (за исключением омонимичных нарицательным), а также порносайты и сайты с пиратским ПО.
Фильтр всегда привносит искажение в смежную статистику, например, в статистику поисковых систем. Так, например, в Google порнографию ищут относительно чаще, чем в «Яндексе», значит, отбрасывая порнографию, SpyLOG отнимает у Google непропорционально больше, чем у «Яндекса». Однако фильтрация — лишь частичное объяснение. Нефильтрованый TOP-50, хоть и отличается от фильтрованного, однако «порно» в нем в два раза проигрывает слову «переводчик» — сомнительное распределение интересов. Зато после дефильтрации в TOP-5 попали запросы «связной», «МТС», «евросеть». Нетрудно понять, на каких сайтах установлены счетчики SpyLOG’a, а на каких — нет.

Информационные запросы — спасение SpyLOG’a?

При всей плачевности ситуации у SpyLOG’a есть шансы ее выровнять. Во-первых, основные проколы касаются навигационных запросов, а не информационных. Навигационные запросы считать объективно труднее, чем информационные, потому что тут эффект каждого тематического сайта слишком велик. Соответственно, составляя рейтинг количества запросов по малому числу данных, возможно, имеет смысл говорить только об информационных. Нефильтрованный TOP-50, если оставить в нем только информационные запросы, не слишком плох. Кроме того, для увеличения репрезентативности так или иначе следует прекратить фильтровать запросы. Хотим мы того или нет — порнография в Интернете была, есть, скорее всего будет, причем на ведущих по популярности позиция — непонятно зачем закрывать на это глаза. В-третьих, выборку сайтов надо увеличивать, и бесплатность — шаг в этом направлении. И, наконец, хотя это и сложно — возможно, для коррекции всех вышеприведенных эффектов имеет смысл производить взвешивание выборки. Правда, вопрос выбора весовых коэффициентов — очень тонкий, и неверно выбранный вес может сыграть еще худшую роль, чем фильтрация.

Николай Двас