Гайдпаркеры, поддержим русский язык !

...Он видел их семью своими глазами... И в воображении рисуется жуткий монстр, разглядывающий свои жертвы во все свои семь глаз... А на самом деле это безобидный разговор двух друзей об общем знакомом, который сходил в гости к еще одному знакомцу и видел его семью. А вот еще на ту же тему. История популярная в 18-м веке и упомянутая у Баркова

Идёт солдат. Несёт охапку дёрна.

Навстречу девушка с лукошком яиц.

Захотела поменяться с солдатом товаром и говорит

- Солдат, дай дёрну за яйца !

Наверняка ровесники вспомнят популярное в школьные годы "Наташа Ростова села в коляску с поднятым задом". Тема для приколов и анекдотов скажете ? Нет, всё куда серьёзнее. Не так давно, по работе, мне пришлось погрузиться в удивительный мир компьютерной лингвистики. Если очень кратко, это наука, пытающаяся научить компьютер понимать нашу естественную речь. Надеюсь понятно, насколько это важно. А анекдоты и истории про семиглазых чудовищ убеждают, насколько это трудно. Язык полон неоднозначностей. Человеку понимать его помогает так называемый "здравый смысл". Иными словами огромная и не осознаваемая база данных об окружающем мире, накапливаемая нами с самого рождения. Ещё пример. "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелые". Это даже не воспринимается как анекдот, настолько очевиден смысл фраз. Но попробуйте объяснить это компьютеру !

Для того чтобы объяснить ему столь элементарные истины, требуется множество примеров. Берутся подобные "трудные" фразы. И человек, безусловно понимающий свой родной язык, их специальным образом размечает. Помечает где какой падеж, какое число, единственное или множественное, где подлежащее где сказуемое и т.д. Лингвисты такой набор называют корпусом. Дальше эти примеры могут использоваться либо для машинного обучения, либо как наборы тестов для синтаксического анализатора. Казалось бы просто. Увы, если бы... Что обучение, что тестирование, требуют огромного множества примеров.

И каждый из них должен быть размечен человеком носителем языка. Это само по себе колоссальная работа, без которой получить качественный синтаксический анализатор (а следовательно и понимание речи компьютером) невозможно. Для английского языка она уже проделана. Проделана даже для такой экзотики, как польский и венгерский ! А вот с родным нашим русским - увы. Существует проект "Национальный корпус русского языка" http://www.ruscorpora.ru/ . Но собраный там корпус недоступен для разработчиков даже за деньги. Почему - совершенно непонятно.  Но это обессмысливает весь проект.

Но не всё так плохо. Не так давно появилась альтернатива - "Открытый корпус русского языка", доступный для скачивания всеми желающими. Проект развивается исключительно силами энтузиастов на некоммерческой основе. У нас в России увы, часто так... Собрано порядка 100 тысяч фраз. Но размечено чуть более 4500. А потому проекту нужна помощь. Нет, не денежная. Помощь усилиями. Заинтересовались ? Всё очень просто. Заходите на сайт http://opencorpora.org/ . Регистрируетесь. Читаете инструкцию. А потом берёте задания и их выполняете. Задания не потребуют ничего, кроме элементарного владения русским языком и компьютером. Это похоже на раскладывание пасьянсов, но куда полезнее. Денег Вам за это не заплатят. Но ведь и пасьянсы тоже штука прибыли не приносящая. А тут Вы можете поучаствовать в решении весьма нужной и важной задачи. Ведь Вы хотите, чтобы ваши дети и внуки могли общаться с копмьютером на русском языке ! Тогда поддержите проект ! Ответить предстоит на 4 с лишним миллиона вопросов. Если в проекте примут участие 100 человек, каждому достанется 40 тысяч вопросов, что непосильно. Если 1000 - то всего 4 тысячи. Тяжело, но можно. Если 10 000, то всего 400 вопросов, дел на полдня. Поэтому чем больше нас, неравнодушных, примет в этом участие, тем быстрее мы решим задачу. И тем скорее появятся качественные программы, понимающие наш родной язык. Поэтому присоединяйтесь. И приглашайте друзей.