Автоматическая оценка качества Википедии на разных языках

На модерации Отложенный

Предлагаю Вашему вниманию обзорную статью научных работ на тему оценки качества Википедии на разных языках, в которых я являюсь непосредственным участником и автором. Свои научные публикации на эту тему я пишу в основном на английском и польском языке. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии. Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей, охватывающих различные темы. С каждым днем количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации. Несмотря на это в Википедии можно иногда встретить ценную информацию - в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существуют возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).

Автоматическая оценка качества статей Википедии

Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии - английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др. С момента основания и с ростом популярности Википедии появляется все больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень "зрелости" статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий). Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи. Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом - получают специальный "значoк". В русской Википедии такие статьи зазываются "Избранные статьи" (ИС), в английский Википедии - "Featured Articles". Есть еще другой "значок" для статей, которые немного не "дотягивают" до избранных - "Хорошие статьи" (ХС) (в английской версии это "Good Articles"). В некоторых языковых версиях существует и другие оценки для более "слабых" статей. Например, в русской Википедии есть еще: Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить еще: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версии, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки - аналоги ИС и ХС. Поэтому часто оценки в научных работах объединяют по двум группам: [1] [2] [3] [4] [5] [6] [7]

  • "Полные" - оценки ИС и ХС,
  • "Неполные" - все остальные оценки.

Назовем этот метод "бинарным" (1 - Полные статьи, 0 - Неполные статьи). Такое разделение естественно "размывает" границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.

Data Mining

Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространных и эффективных алгоритмов - Random Forest [1] [2] [3] [4] [5] [6] [7] (случайный лес). Имеются даже исследования [4], которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессию [13]. Результаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии [1] [2] [3] [4]. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста. Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп - Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов [6], посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров [5] [7], которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели.

Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно [14] - то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.

Откуда взять эти параметры?

Источников несколько - это может быть резервные копии Википедии, сервис API, специальные инструменты и другие [12]. Для получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).

Существуют ли другие способы оценки качества статей кроме бинарного?

Да. В недавних исследованиях [8] [9] предлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк, который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематик [9].

Есть ли способы оценивания качества не всей статьи Википедии, а ее части?

Конечно. Например одним из важных элементов статьи является так называемая "карточка" (infobox). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию - достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования [2] [11]. Существуют также проекты, такие как Infoboxes, которые позволяют автоматически сравнивать карточки в разных языковых версиях.

Зачем это все?

Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий [11]. Также это позволит повысить качество других семантических баз даннных, для которых Википедия является основным источником информации. Прежде всего, это - DBpedia, Wikidata (Викиданные), YAGO2 и другие. Источник иллюстраций - [8]

Литература

  • [1] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2016). Quality and Importance of Wikipedia Articles in Different Languages. In International Conference on Information and Software Technologies (pp. 613-624). Springer International Publishing. DOI: 10.1007/978-3-319-46254-7_50
  • [2] Węcel, K., & Lewoniewski, W. (2015). Modelling the quality of attributes in Wikipedia infoboxes. In International Conference on Business Information Systems (pp. 308-320). Springer International Publishing. DOI: 10.1007/978-3-319-26762-3_27
  • [3] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2015). Analiza porównawcza modeli jakości informacji w narodowych wersjach Wikipedii. Prace Naukowe/Uniwersytet Ekonomiczny w Katowicach, 133-154.
  • [4] Lewoniewski, W., Węcel, K., Abramowicz, W. (2017), Analiza porównawcza modeli klasyfikacyjnych w kontekście oceny jakości artykułów Wikipedii, Matematyka i informatyka na usługach ekonomii, Wydawnictwo UEP Poznań, ISBN 9788374179386
  • [5] Khairova, N., Lewoniewski, W., & Węcel, K. (2017). Estimating the quality of articles in Russian Wikipedia using the logical-linguistic model of fact extraction. In International Conference on Business Information Systems (pp. 28-40). Springer, Cham. DOI: 10.1007/978-3-319-59336-4_3
  • [6] Lewoniewski, W., Khairova, N., Węcel, K., Stratiienko, N., & Abramowicz, W. (2017). Using Morphological and Semantic Features for the Quality Assessment of Russian Wikipedia. In International Conference on Information and Software Technologies (pp. 550-560). Springer, Cham. DOI: 10.1007/978-3-319-67642-5_46
  • [7] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2017). Determining Quality of Articles in Polish Wikipedia Based on Linguistic Features. DOI: 10.20944/preprints201801.0017.v1
  • [8] Lewoniewski, W., Węcel, K., & Abramowicz, W. (2017). Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles. In Informatics (Vol. 4, No. 4, p. 43). Multidisciplinary Digital Publishing Institute. DOI: 10.3390/informatics4040043
  • [9] Lewoniewski, W., & Węcel, K. (2017). Relative quality assessment of Wikipedia articles in different languages using synthetic measure. In International Conference on Business Information Systems (pp. 282-292). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_24
  • [10] Lewoniewski, W. (2017). Enrichment of Information in Multilingual Wikipedia Based on Quality Analysis. In International Conference on Business Information Systems (pp. 216-227). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_19
  • [11] Lewoniewski, W. (2017). Completeness and Reliability of Wikipedia Infoboxes in Various Languages. In International Conference on Business Information Systems (pp. 295-305). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_25
  • [12] Lewoniewski, W., Węcel, K., (2017), Cechy artykułów oraz metody ich ekstrakcji na potrzeby oceny jakości informacji w Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.7
  • [13] Lamek, A., Lewoniewski, W. (2017), Zastosowanie regresji logistycznej w ocenie jakości informacji na przykładzie Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.3
  • [14] Lewoniewski, W., Węcel, K., Abramowicz, W., (2017), Analysis of References across Wikipedia Languages. Information and Software Technologies. ICIST 2017. DOI: 10.1007/978-3-319-67642-5_47