Войти в аккаунт
Хотите наслаждаться полной версией, а также получить неограниченный доступ ко всем материалам?

Американские учёные разрабатывают «фильтр глупости»

Американские учёные разрабатывают «фильтр глупости»

Команда американских учёных занимается разработкой программы под названием «StupidFilter» («Фильтр глупости»). «Фильтр глупости», программное обеспечением с открытым исходным кодом, будет определять «тупой» веб-контент на английском языке. Подобно тому, как антиспам фильтры отсеивают подозрительные электронные письма, «Фильтр глупости» будет распознавать слова или смысловые комбинации, имеющие определённую степень глупости. Каждому слову будет приписываться вес на основании того насколько часто это слово встречается в отобранных примерах идиотских on-line комментариях. Для эффективности распознавания глупых сообщений разработчики при создании фильтра используют анализ Bayesian наряду с обработкой данных по правилам.

Главная трудность для разработчиков заключается в разграничении глупого или непонятного контента и преднамеренного искажения фраз, что может быть средством создания сарказма или эмфазы. «Глупость - это не бинарная характеристика, а определённая степень» - говорят разработчики. Например, такой комментарий как «this video is amazingggggg» не будет отфильтрован, несмотря на неправильное написание слова (так как повторение буквы g в данном примере - средство эмфазы), но фраза типа «im firrsstt» будет помечена «Фильтром глупости», и перед тем как запостить коммент, автор получит сообщение с просьбой изменить фразу. Пилотная версия фильтра глупости будет способна отфильтровывать комментарии, характеризующиеся наличием большого количества слов, написанных с использованием заглавных букв, большого количества аббревиатур, чрезмерным употреблением «LOL», восклицательных знаков и т. д.

Проект всё ещё находится в процессе разработки. Учёные уже собрали свыше 255 000 комментариев, оставленных пользователями, в основном комментарии берутся с YourTube. Эти комментарии ранжируются по пятибальной шкале с помощью системы ранжирования, базирующийся на Интернет-технологиях; результаты «вставляются» в базу данных «Фильтра глупости». Основываясь на этой базе данных, «Фильтр глупости» будет производить анализ входящих компонентов, принимая во внимание не содержание высказываний, а исключительно формальные признаки слов. Выпуск исходного кода на альфе планируется в декабре 2008 года.

Как только исследование будет закончено, разработчики также планируют выпустить основной движок исходного кода для внедрения в системы управления контентом, блоги, электронные словари и т.п. Кроме этого девелоперы планируют разработку плагина «Фильтр глупости» для FireFox и Wordpress.

Источник: prochitano.ru

{{ rating.votes_against }} {{ rating.rating }} {{ rating.votes_for }}

Комментировать

осталось 1800 символов
Свернуть комментарии

Все комментарии (0)

×
Заявите о себе всем пользователям Макспарка!

Заказав эту услугу, Вас смогут все увидеть в блоке "Макспаркеры рекомендуют" - тем самым Вы быстро найдете новых друзей, единомышленников, читателей, партнеров.

Оплата данного размещения производится при помощи Ставок. Каждая купленная ставка позволяет на 1 час разместить рекламу в специальном блоке в правой колонке. В блок попадают три объявления с наибольшим количеством неизрасходованных ставок. По истечении периода в 1 час показа объявления, у него списывается 1 ставка.

Сейчас для мгновенного попадания в этот блок нужно купить 1 ставку.

Цена 10.00 MP
Цена 40.00 MP
Цена 70.00 MP
Цена 120.00 MP
Оплата

К оплате 10.00 MP. У вас на счете 0 MP. Пополнить счет

Войти как пользователь
email
{{ err }}
Password
{{ err }}
captcha
{{ err }}
Обычная pегистрация

Зарегистрированы в Newsland или Maxpark? Войти

email
{{ errors.email_error }}
password
{{ errors.password_error }}
password
{{ errors.confirm_password_error }}
{{ errors.first_name_error }}
{{ errors.last_name_error }}
{{ errors.sex_error }}
{{ errors.birth_date_error }}
{{ errors.agree_to_terms_error }}
Восстановление пароля
email
{{ errors.email }}
Восстановление пароля
Выбор аккаунта

Указанные регистрационные данные повторяются на сайтах Newsland.com и Maxpark.com