StupidFilter поборется с англоязычными \"падонками\"

На модерации Отложенный Продолжающаяся уже в течение многих лет борьба со спамом пока, к сожалению, так и не принесла сколько-нибудь значительных результатов. Тем не менее, авторы проекта с говорящим названием StupidFilter отважились замахнуться на гораздо более крутую высоту: их цель – научиться самим и научить пользователей отфильтровывать откровенно глупые, бессмысленные и коверкающие (английский) язык комментарии на сайтах и форумах, в блогах и социальных сетях, в общем, во всем Интернете.

На официальном сайте проекта его авторы говорят о том, что им было просто необходимо реализовать свою идею: "Слишком долго мы тихо терпели этот царящий идиотизм. На заре своего существования Сеть была местом для грамотного общения образованных людей. Потом грянул "Вечный сентябрь", и все мы затерялись в шуме. Появление user-generated content еще сильнее усугубило эту проблему, постепенно лишая нас терпения. Пришло время дать отпор".

На первый взгляд, решение кажется довольно простым – это специальное ПО с открытым кодом, представляющее собой фильтр, который должен обеспечить выявление на технологическом уровне намеренно искаженных слов и выражений английского языка. Разработка StupidFilter основана на байесовском анализе и других специальным образом настроенных инструментах, аналогичных различным средствам для обнаружения спама. Отвечая на просьбы рассказать о принципе работы StupidFilter, создатели сервиса отсылают всех интересующихся к "наивному байесовскому классификатору".

\"

Они подчеркивают, что всячески пытаются избежать двойных стандартов, а это довольно непросто при разграничении "грамотного" и "неграмотного" языков. Для этих целей авторы проекта занялись сбором "глупых" комментариев с различных сайтов, блогов и социальных сетей – для того, чтобы впоследствии оценить бессмысленность и неграмотность каждого из них по пятибалльной шкале (в зависимости от того, насколько часто встречается то или иное "глупое" выражение или комментарий). Когда это своеобразное исследование будет завершено, планируется предложить готовый продукт (вернее, его исходный код) пользователям для его интеграции в системы управления контентом, блоги, порталы, посвященные онлайновому видео, социальные сети и т.д.

На данный момент "обработано" 225 тыс. комментариев, большая часть которых, по признанию создателей StupidFilter, была взята с YouTube как самого "вдохновляющего на глупости" сайта.

Разработчики StupidFilter понимают, что полностью отфильтровать весь сетевой бред, при этом не допустив ни одной ошибки и никого не обидев, - задача невыполнимая, и поэтому рассчитывают на избавление грамотных пользователей хотя бы от наиболее вопиющих ситуаций, когда комментарии слишком глупы и бессмысленны: с подозрительно частым использованием заглавных букв, сокращений и аббревиатур (например, LOL), восклицательных знаков и т.п. При разработке новой технологии и составлении базы данных "неугодных" комментариев они, по их собственным словам, руководствуются следующим принципом: "Даже не нужно понимать, о чем тот или иной комментарий, чтобы понять что он "тупой"".

Также будут выпущены специальные плагины для Firefox и WordPress.

Альфа-релиз StupidFilter намечен на декабрь этого года. Пока же на главной странице проекта пользователи могут проверить, какие комментарии его создателями оцениваются как бесполезные – для этих целей создан раздел "randomized stupidity". Авторы сервиса не стесняются просить пользователей о помощи, призывая их внести свой вклад в героическую борьбу с "идиотизмом" в Сети посредством отправки содержательных электронных писем по указанной теме или перечисления произвольной суммы денег через PayPal.

Конечно, пока StupidFilter больше смахивает на шутку – очередную забаву интернет-сообщества, которое забудет о ней, как только появится что-нибудь более новое и интересное. На вопросы о том, как сервис будет отличать намеренно используемый сетевой сленг от безобидных сообщений, по упущению пользователя содержащих орфографические ошибки, как отличить "нормальные" аббревиатуры от "неприемлемых" "LOL" и прочих "OMG" и как не превратить использование StupidFilter в банальную цензуру, еще только предстоит получить ответы – будем надеяться, что сделать это получится уже в декабре.