Гайдпаркеры, поддержим русский язык !
...Он видел их семью своими глазами... И в воображении рисуется жуткий монстр, разглядывающий свои жертвы во все свои семь глаз... А на самом деле это безобидный разговор двух друзей об общем знакомом, который сходил в гости к еще одному знакомцу и видел его семью. А вот еще на ту же тему. История популярная в 18-м веке и упомянутая у Баркова
Идёт солдат. Несёт охапку дёрна.
Навстречу девушка с лукошком яиц.
Захотела поменяться с солдатом товаром и говорит
- Солдат, дай дёрну за яйца !
Наверняка ровесники вспомнят популярное в школьные годы "Наташа Ростова села в коляску с поднятым задом". Тема для приколов и анекдотов скажете ? Нет, всё куда серьёзнее. Не так давно, по работе, мне пришлось погрузиться в удивительный мир компьютерной лингвистики. Если очень кратко, это наука, пытающаяся научить компьютер понимать нашу естественную речь. Надеюсь понятно, насколько это важно. А анекдоты и истории про семиглазых чудовищ убеждают, насколько это трудно. Язык полон неоднозначностей. Человеку понимать его помогает так называемый "здравый смысл". Иными словами огромная и не осознаваемая база данных об окружающем мире, накапливаемая нами с самого рождения. Ещё пример. "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелые". Это даже не воспринимается как анекдот, настолько очевиден смысл фраз. Но попробуйте объяснить это компьютеру !
Для того чтобы объяснить ему столь элементарные истины, требуется множество примеров. Берутся подобные "трудные" фразы. И человек, безусловно понимающий свой родной язык, их специальным образом размечает. Помечает где какой падеж, какое число, единственное или множественное, где подлежащее где сказуемое и т.д. Лингвисты такой набор называют корпусом. Дальше эти примеры могут использоваться либо для машинного обучения, либо как наборы тестов для синтаксического анализатора. Казалось бы просто. Увы, если бы... Что обучение, что тестирование, требуют огромного множества примеров.
И каждый из них должен быть размечен человеком носителем языка. Это само по себе колоссальная работа, без которой получить качественный синтаксический анализатор (а следовательно и понимание речи компьютером) невозможно. Для английского языка она уже проделана. Проделана даже для такой экзотики, как польский и венгерский ! А вот с родным нашим русским - увы. Существует проект "Национальный корпус русского языка" http://www.ruscorpora.ru/ . Но собраный там корпус недоступен для разработчиков даже за деньги. Почему - совершенно непонятно. Но это обессмысливает весь проект.
Но не всё так плохо. Не так давно появилась альтернатива - "Открытый корпус русского языка", доступный для скачивания всеми желающими. Проект развивается исключительно силами энтузиастов на некоммерческой основе. У нас в России увы, часто так... Собрано порядка 100 тысяч фраз. Но размечено чуть более 4500. А потому проекту нужна помощь. Нет, не денежная. Помощь усилиями. Заинтересовались ? Всё очень просто. Заходите на сайт http://opencorpora.org/ . Регистрируетесь. Читаете инструкцию. А потом берёте задания и их выполняете. Задания не потребуют ничего, кроме элементарного владения русским языком и компьютером. Это похоже на раскладывание пасьянсов, но куда полезнее. Денег Вам за это не заплатят. Но ведь и пасьянсы тоже штука прибыли не приносящая. А тут Вы можете поучаствовать в решении весьма нужной и важной задачи. Ведь Вы хотите, чтобы ваши дети и внуки могли общаться с копмьютером на русском языке ! Тогда поддержите проект ! Ответить предстоит на 4 с лишним миллиона вопросов. Если в проекте примут участие 100 человек, каждому достанется 40 тысяч вопросов, что непосильно. Если 1000 - то всего 4 тысячи. Тяжело, но можно. Если 10 000, то всего 400 вопросов, дел на полдня. Поэтому чем больше нас, неравнодушных, примет в этом участие, тем быстрее мы решим задачу. И тем скорее появятся качественные программы, понимающие наш родной язык. Поэтому присоединяйтесь. И приглашайте друзей.
Комментарии
А дело в том , что русский язык сохранил ОБРАЗНОСТЬ , в отличии от БЕЗ ОБРАЗНЫХ языков или фонемных.
Вот например : Слово коса , и как вы ее опишете в корпусе ?
Как девичью , или смерть или береговую линию ???
Флаг вам в руки , только транспорант уберите между ног !
Все старые русские слова являются аббравиатурами русских выражений !
Например ЛЮ-БО-ВЬ - люди богов ведают , ВЕ-РА - веданье РА и т.д
НО это только первый срез , а есть второй , третий ....
Описание корпуса заложено в 49 образной азбуке магический квадрат (7х7).
Правило пользования в магическом квадрате 3х3! Изучите азбучные истины !
Поймите круговорот образов!
Что еще нада ?
А для начала изучите хёАрийскую арифметику ...А то ведь вам хрен объяснишь , почему два ЖДЫ два не равно 4 ! Почему 5 Ю 5 не равно 25!
А ведь это арифмитические операторы!
;)))
Таких слов типо Коса - тысячи ....
Но самое интересное начнется с использованием глаголов ..
Например с окончанием СЯ - ругаться - означает Ругать себя .. и т.д.
Симантические образы - это вообще щедевры :
Вот например поймите фразу:
Едниственное днанное Вма солво ......вы с легкостью поймете , т.к язык имеет защищенность 50% !
В свое время я написал достаточно простую программы разбора симантики текста .. И использовал ее для быстрого поиска необходимой информации . Скопил около 10 000000 книг в электронном виде и написал программу.
Даже был смешной случай :Друг решил прикольнуться и задал самую сексуальную книгу ...
Ответ был - финист ясный сокол ... ;))))
Прихожу я домой расстроеный , а мать у меня спрашивает ,Чего кручинишься ? Я ей все и рассказал ... Засмеялась она да и говорит - А ты ее читал ? Нет фильм смотрел ..Иди почитай ....
Стал я значит читать эту книгу ..... ;)))
Советую и тебе прочесть !
- Русские не такие дураки были ...Вот представь себе идет с работы потный мужик, а она читает детям сказку, те засыпают , а она уже готова и радостно встречает мужа ... ;)))
И вы хотите Построить такие логические деревья???
Пользуясь операторами Пирса ?Полагаешь авионосец из соломы сделать можно?
Флаг вам в руки ну а от транспоранта вижу не отказывался !!
;)))
А без формы пидарас
В жопе вечно мыслеобраз
А во рте мыслеорАз