Главная (Newsland) В И З А Н Т И Я Гайдпаркеры, поддержим русский язык !

20.04.2013 04:00

Гайдпаркеры, поддержим русский язык !

...Он видел их семью своими глазами... И в воображении рисуется жуткий монстр, разглядывающий свои жертвы во все свои семь глаз... А на самом деле это безобидный разговор двух друзей об общем знакомом, который сходил в гости к еще одному знакомцу и видел его семью. А вот еще на ту же тему. История популярная в 18-м веке и упомянутая у Баркова

Идёт солдат. Несёт охапку дёрна.

Навстречу девушка с лукошком яиц.

Захотела поменяться с солдатом товаром и говорит

- Солдат, дай дёрну за яйца !

Наверняка ровесники вспомнят популярное в школьные годы "Наташа Ростова села в коляску с поднятым задом". Тема для приколов и анекдотов скажете ? Нет, всё куда серьёзнее. Не так давно, по работе, мне пришлось погрузиться в удивительный мир компьютерной лингвистики. Если очень кратко, это наука, пытающаяся научить компьютер понимать нашу естественную речь. Надеюсь понятно, насколько это важно. А анекдоты и истории про семиглазых чудовищ убеждают, насколько это трудно. Язык полон неоднозначностей. Человеку понимать его помогает так называемый "здравый смысл". Иными словами огромная и не осознаваемая база данных об окружающем мире, накапливаемая нами с самого рождения. Ещё пример. "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелые". Это даже не воспринимается как анекдот, настолько очевиден смысл фраз. Но попробуйте объяснить это компьютеру !

Для того чтобы объяснить ему столь элементарные истины, требуется множество примеров. Берутся подобные "трудные" фразы. И человек, безусловно понимающий свой родной язык, их специальным образом размечает. Помечает где какой падеж, какое число, единственное или множественное, где подлежащее где сказуемое и т.д. Лингвисты такой набор называют корпусом. Дальше эти примеры могут использоваться либо для машинного обучения, либо как наборы тестов для синтаксического анализатора. Казалось бы просто. Увы, если бы... Что обучение, что тестирование, требуют огромного множества примеров.

И каждый из них должен быть размечен человеком носителем языка. Это само по себе колоссальная работа, без которой получить качественный синтаксический анализатор (а следовательно и понимание речи компьютером) невозможно. Для английского языка она уже проделана. Проделана даже для такой экзотики, как польский и венгерский ! А вот с родным нашим русским - увы. Существует проект "Национальный корпус русского языка" http://www.ruscorpora.ru/ . Но собраный там корпус недоступен для разработчиков даже за деньги. Почему - совершенно непонятно. Но это обессмысливает весь проект.

Но не всё так плохо. Не так давно появилась альтернатива - "Открытый корпус русского языка", доступный для скачивания всеми желающими. Проект развивается исключительно силами энтузиастов на некоммерческой основе. У нас в России увы, часто так... Собрано порядка 100 тысяч фраз. Но размечено чуть более 4500. А потому проекту нужна помощь. Нет, не денежная. Помощь усилиями. Заинтересовались ? Всё очень просто. Заходите на сайт http://opencorpora.org/ . Регистрируетесь. Читаете инструкцию. А потом берёте задания и их выполняете. Задания не потребуют ничего, кроме элементарного владения русским языком и компьютером. Это похоже на раскладывание пасьянсов, но куда полезнее. Денег Вам за это не заплатят. Но ведь и пасьянсы тоже штука прибыли не приносящая. А тут Вы можете поучаствовать в решении весьма нужной и важной задачи. Ведь Вы хотите, чтобы ваши дети и внуки могли общаться с копмьютером на русском языке ! Тогда поддержите проект ! Ответить предстоит на 4 с лишним миллиона вопросов. Если в проекте примут участие 100 человек, каждому достанется 40 тысяч вопросов, что непосильно. Если 1000 - то всего 4 тысячи. Тяжело, но можно. Если 10 000, то всего 400 вопросов, дел на полдня. Поэтому чем больше нас, неравнодушных, примет в этом участие, тем быстрее мы решим задачу. И тем скорее появятся качественные программы, понимающие наш родной язык. Поэтому присоединяйтесь. И приглашайте друзей.

11 12 453

В И З А Н Т И Я

5455 участников

Смотрите также

Ещё до всякого компьютера требуется осадить любителей экзотики. Которые не понимают значения греческих и не греческих слов, но суют их куда не надо. Один "Эпицентр событий (взрыва)" заполонил речи тысяч снобов. Слово "феодальный" приравнено к ругательству. "Фашистское" - это всё то, что мне не нравится. "Сионизм" - это вхождение евреев во власть, и многое чего ещё, но только не Сионизм. Какой компьютер способен понять и обработать эту белиберду ?

0 Экспертное мнение

Eugene Kalagin ответил Леонид Шейнин

2013-04-20

# 24923662

Ну, теоретически компьютер можно научить анализировать даже "олбанский". А засилье в языке всякого дерьма, проблема не только русского. Года 4 назад например, "ученые"-экономисты на полном серьезе, что называется, обсуждали проблему, какого типа кризис, U-образного, W-образного, V-образного или L-образного. В не столь давние времена таких "ученых" бы... Проблема мне кажется скорее в общей потере смысла. Отсюда повальное увлечение и всякими наукообразными бессмысленностями и прочим словесным поносом. Вряд ли это особо надолго. Появятся новые задачи, появятся и новые смыслы. Из тупиков человечество выходило уже не раз. Выйдет и на этот.

0 Экспертное мнение

Показать 1 ответ

Свернуть ответы

Юрочка Сколышев

2013-04-20

# 24923877

Замечательная идея, жаль подход - не верный.

А дело в том , что русский язык сохранил ОБРАЗНОСТЬ , в отличии от БЕЗ ОБРАЗНЫХ языков или фонемных.

Вот например : Слово коса , и как вы ее опишете в корпусе ?

Как девичью , или смерть или береговую линию ???

Флаг вам в руки , только транспорант уберите между ног !

Все старые русские слова являются аббравиатурами русских выражений !

Например ЛЮ-БО-ВЬ - люди богов ведают , ВЕ-РА - веданье РА и т.д

НО это только первый срез , а есть второй , третий ....

Описание корпуса заложено в 49 образной азбуке магический квадрат (7х7).

Правило пользования в магическом квадрате 3х3! Изучите азбучные истины !

Поймите круговорот образов!

Что еще нада ?

А для начала изучите хёАрийскую арифметику ...А то ведь вам хрен объяснишь , почему два ЖДЫ два не равно 4 ! Почему 5 Ю 5 не равно 25!

А ведь это арифмитические операторы!

;)))

0 Экспертное мнение

Eugene Kalagin ответил Юрочка Сколышев

2013-04-20

# 24924456

Ну положим единственное данное Вам слово "коса", Вы и будучи человеком не поймёте. Так же как слова "лук", "свод" и т.п. Кстати эта проблема имеет место быть даже в фортране. Там допускается давать переменным имена, совпадающие с ключевыми словами. И в одном случае IF это условный оператор, в другом - переменная, по умолчанию целого типа. И ничего. Справились с этим в конце 50-х, когда появились первые компиляторы фортрана. Точно так же в анализе естественных языков. Рассматриваются не отдельные слова а фразы, или более обобщенно - контексты. Слову "коса" в базе данных придается несколько разных смыслов. Их не так много. Во всяком случае ясно, что "коса" и например "утюг" не совпадают ни в каком из смыслов. Поэтому выбор вариантов толкования невелик. И задача решается за разумное время. Впрочем я только начинаю изучать этот предмет. По работе проблема попалась. Так что не успел ещё погрузиться в это дело достаточно глубоко, но уже неслабо зацепило за любопытку :)

0 Экспертное мнение

Юрочка Сколышев ответил Eugene Kalagin

2013-04-20

# 24925846

По правилам фортрана можно сокращать операторы до 4 символов!

Таких слов типо Коса - тысячи ....

Но самое интересное начнется с использованием глаголов ..

Например с окончанием СЯ - ругаться - означает Ругать себя .. и т.д.

Симантические образы - это вообще щедевры :

Вот например поймите фразу:

Едниственное днанное Вма солво ......вы с легкостью поймете , т.к язык имеет защищенность 50% !

В свое время я написал достаточно простую программы разбора симантики текста .. И использовал ее для быстрого поиска необходимой информации . Скопил около 10 000000 книг в электронном виде и написал программу.

Даже был смешной случай :Друг решил прикольнуться и задал самую сексуальную книгу ...

Ответ был - финист ясный сокол ... ;))))

Прихожу я домой расстроеный , а мать у меня спрашивает ,Чего кручинишься ? Я ей все и рассказал ... Засмеялась она да и говорит - А ты ее читал ? Нет фильм смотрел ..Иди почитай ....

Стал я значит читать эту книгу ..... ;)))

Советую и тебе прочесть !

- Русские не такие дураки были ...Вот представь себе идет с работы потный мужик, а она читает детям сказку, те засыпают , а она уже готова и радостно встречает мужа ... ;)))

0 Экспертное мнение

Юрочка Сколышев ответил Юрочка Сколышев

2013-04-20

# 24925955

В одной и той же фразе бывает МНОЖЕСТВО СМЫСЛОВ !

И вы хотите Построить такие логические деревья???

Пользуясь операторами Пирса ?Полагаешь авионосец из соломы сделать можно?

Флаг вам в руки ну а от транспоранта вижу не отказывался !!

;)))

0 Экспертное мнение

Показать 3 ответа

Свернуть ответы

Волков Виктор

2013-04-20

# 24924107

Каждое слово рождает в голове мыслеобраз, у разных наций на одинаковое слово рождаются разные мыслеобразы. Формализовать процесс формирования мыслеобразов на базе кремния..... ?

0 Экспертное мнение

Eugene Kalagin ответил Волков Виктор

2013-04-20

# 24924548

Тут вообще проблема философская. Что значит мыслеобраз ? Как объяснить слепому от рождения, что такое красный цвет ? Компьютеру с видеокамерой это объяснить как раз можно. И будет однозначно отличать крацный от зелёного. Но значит ли, что где-то в его недрах родится ощущение красноты ? Очень сомневаюсь...

0 Экспертное мнение