Александр Рылов: когда электронному разуму стоит доверять?

Почему мощные современные веб-сервисы, компьютерные программы и другие средства перевода переводят столь по-разному: иногда просто идеально, иногда выдают полный бред? Когда электронному разуму стоит доверять, а когда нет? И в каком направлении движется развитие этого разума?

Все мы постоянно сталкиваемся с необходимостью перевода текстов и отдельных слов с языка на язык – на учебе, на работе, во время интернет-серфинга и просто на улице. Мы пользуемся при этом самыми различными техническими средствами перевода – сервисами, встроенными в браузер, автономными программами-словарями, мобильными приложениями для смартфонов, переводящих снятые на камеру иностранные слова, портативными сканерами-переводчиками, умеющими читать текст с бумаги, и прочее, и прочее… Но все эти сервисы и гаджеты – конечный пользовательский продукт, а вот о том, что происходит ВНУТРИ, на «кухне», где рождаются и улучшаются электронные средства перевода, F5 рассказал непосредственный участник этого процесса Александр Рылов, директор департамента лингвистических продуктов компании ABBYY, являющейся производителем FineReader, Lingvo и множества других знаменитых в нашей стране и во всем мире программных средств.

Александр Рылов:
- Многие задаются вопросом – почему мощные современные веб-сервисы, компьютерные программы и другие средства перевода переводят столь по-разному? Иногда – просто идеально, иногда выдают полный бред, а иногда на первый взгляд хорошо и осмысленно, однако потом выясняется, что некоторые важнейшие вещи перевернуты с ног на голову и заменены на прямо противоположные?  Почему так происходит? В каких случаях электронному разуму стоит доверять, а в каких нет? И в каком направлении движется развитие этого разума?

 «Интересный факт -   разговаривая на немецком, не стоит прерывать человека на полуфразе, поскольку ее полный смысл часто становится понятен только при полном произнесении! В немецком языке у глаголов приставки могут помещаться в самый конец предложения, и таким образом полностью менять смысл всей фразы».

 Александр Рылов:
- Существуют различные технологические принципы, на которых основаны современные системы машинного перевода. Старейшей и долгое время наиболее популярной являлась технология, основанная на правилах, или  Rule Based Technology. То есть программа на основе ограниченного набора правил должна догадаться, как перевести предложение на другой язык. Для каждой пары языков (а точнее, для каждого направления, например, англо-русского) необходимо иметь (а) словари слов и словосочетаний, сопоставляющих исходные слова и их перевод, (б) набор грамматических правил исходного языка и языка перевода, и (в) набор правил, соотносящих грамматические конструкции исходного языка с грамматическими конструкциями языка перевода.

Основной барьер для этой системы - полнота описания языков в каждом из направлений. Например, если заглянуть в словарь и посмотреть, сколько значений имеет слово take, и представить, сколько подобных многозначных слов ещё существует в английском языке, становится ясен масштаб этой проблемы при переводе с английского на русский. Чем больше правил в системе, тем сложнее выбирать верные правила при переводе. Как следствие система может достигнуть в своей эволюции определённого порога качества, выше которого весьма сложно прыгнуть.  

Александр Рылов:
- Метод статистического перевода основан на использовании баз ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ, т.е. текстов, которые ранее уже были переведены человеком, и которые считаются образцами. Из переводимого текста берутся цепочки из нескольких слов  и сопоставляются с наиболее близкими по составу слов аналогичными цепочками из базы.

Как оказалось, такой подход позволил по качеству перевода довольно быстро догнать существующие системы Rule-based. Однако прорыва в переводе пока не получилось.
Фундаментальная проблема статистических систем состоит в недостатке параллельных текстов для множества предметных областей и пар языков, невозможность фиксировать реальные связи в предложении, невозможность целенаправленно исправлять ошибки.
К примеру, если взять англо-испанский электронный перевод общей тематики, то там все не плохо - существует масса качественно переведенных текстов для наполнения баз, и перевод часто будет довольно неплохим. А если взять, скажем, пару чешский и венгерский языки – то машинный перевод работать практически не будет, ибо недостаточно велика база параллельных текстов. 

Существуют и другие неприятные казусы. Например, даже в случае «гладкого» перевода, похожего на перевод человека, нельзя быть до конца уверенным, что текст был переведён правильно. Например, русская фраза «я не могу не прийти на его день рождения» может быть переведена в точности с обратным смыслом из-за двойного «не», поскольку, с точки зрения статистики, двойное «не» аналогично одинарному…

Футурыч не мог не попросить прокомментировать забавный пример машинного перевода переводчиком Google, который имел место при подготовке одного из недавних материалов F5 .В описании «Guardian Angel»  - швейцарского средства самообороны, гибрида пистолета и газового баллончика, стреляющего перцовым спреем, есть такие строки:

...The Guardian Angel contains two cylinders with powerful concentrations of high grade Oleoresin Capsicum, a devastatingly effective inflammatory agent….. 

Google Translate перевел это так:

...Ангел-хранитель содержит два цилиндра с мощной концентрацией высококачественного Oleoresin Capsicum, убийственно эффективное противовоспалительное средство…...  

 «Oleoresin Capsicum», собственно, и есть тот самый перцовый состав, но каково, а?! «Убийственно эффективное ПРОТИВОВОСПАЛИТЕЛЬНОЕ средство» ?! :) Недурно, верно? То есть, преступник, против которого применяют «Guardian Angel», не только не пострадает, но еще и здоровье поправит! В чем причина столь абсурдного перевода у слова «inflammable», которое на самом деле переводится именно, как «воспалительный», соответствуя слову «раздражающий» в описании перцового спрея?

Александр Рылов:
- Сложно сказать, что именно в данном случае повлияло на перевод. Возможно, эту злую шутку сыграла статистика употребления слов “inflammatory” и «противовоспалительный».
Бывает, казусы происходят при переводе существительных в женском роде, поскольку в интернет-текстах мужской род употребляется чаще. Например, следующая фраза про Маргарет Тэтчер недавно переводилась вот так. On 4th February Margaret Thatcher defeated Heath by 130 votes to 119 and became the first woman leader of a major political party. Перевод: 4 февраля Маргарет Тэтчер Хит победил на 130 голосами против 119 и стал первым лидером женщиной крупной политической партии. Примерно мы можем понять, о чём текст, но в других случаях такой перевод может и сильно запутать читающего.
Похожие явления происходят и с именами собственными – например, некоторое время тому назад мы наблюдали, что «Янукович» часто переводился как «Ющенко». Это демонстрировало суть самого статистического подхода: статистическая система перевода обычно в первую очередь работает с текстовыми оборотами, которые встречаются наиболее часто. Пока Янукович не стал президентом, президентом был Ющенко, и поскольку про него уже переведено достаточно большое количество статей, система выбирала  для перевода старого президента вместо нового.

При этом электронный словарь (не переводчик, а именно словарь!) – как чисто софтовый, так и интегрированный в какой-нибудь гаджет - переводит вполне корректно. К примеру, портативный сканирующий переводчик Wizcom Quicktionary TS, в котором установлен словарный пакет ABBYY Lingvo, не делает ошибок, превращающих слова в совершенно противоположные.

Александр Рылов:
- Словарь не является переводчиком. И не совсем правильно говорить, что словарь в отличие от машинного переводчика перевёл фразу корректно. Словарь лишь справочный материал, дающий информацию для тех, кто переводит сам.

В ручке-сканер находится именно словарь. Он лишь показывает возможные варианты перевода слов и словосочетаний.

Вообще, если кто-то думает, что эпоха словарей уходит с появлением эффективных, быстрых, а нередко даже бесплатных сервисов машинного перевода, то он, скорее всего, недооценивает роль надёжных и полных справочных материалов. Она неоценима для тех, кто занимается профессиональным переводом, а также тех, кто учит и постоянно совершенствует свои знания иностранных языков. Сценарий подбора наиболее подходящих слов и словосочетаний при составлении письма также часто требует умения работы со справочником. Необходимо не только посмотреть перевод, но и подобрать синонимы, которые более точно помогут отразить смысл.

Многим будет удивительно, что сегодня постоянно появляются все НОВЫЕ словари! Как учебные, так и профессиональные. А с развитием гаджетов, смартфонов, ПК и прочих ИТ-технологий у словарей появляется новая жизнь! Им находят все новые применения!  Например, вы можете сфотографировать камерой мобильного телефона вывеску в супермаркете Пекина, и программа тут же переведет ее. Другой сценарий: вы читаете новость на иностранном языке, чтобы узнать перевод незнакомого слова или словосочетания, вам достаточно всего лишь навести на него курсором мыши. 

Ещё одна важная тенденция в области накопления справочных знаний, но уже в корпоративном сегменте, это создание и поддержка своих собственных глоссариев, баз параллельных текстов, терминологии. Крупные международные компании рано или поздно приходят к выводу, что им требуются внутренние тематические отраслевые словари-справочники по тематике собственной деятельности. Этими данными должны пользоваться сотрудники, партнеры, клиенты, следовательно, появляется и задача распространения этих данных …

Однако вернемся к машинному переводу!
Все перечисленные выше попытки обучить компьютер переводу бесценны с научной точки зрения. Они наглядно демонстрируют плюсы и минусы в каждом подходе, и тем демонстрируют возможные ограничения в применении. А значит, заставляют искать новые пути решения проблемы машинного перевода, которые помогут эти ограничения снять. Одно из новых направлений – системы гибридного перевода, когда принципы Rule Based систем дополняются статистикой. Только время покажет, насколько этот подход будет эффективным. 

Александр Рылов:
- У ABBYYесть собственные идеи в этом направлении, весьма революционные, не похожие на существующие подходы среди коммерческих систем машинного перевода. Интересно, что эти идеи можно использовать не только для перевода, но и … для изменения принципа поиска и анализа информации! Технология, которую разрабатывает компания, называется ABBYY Compreno.

Интересный факт - профессиональных переводчиков в мире около 600 тысяч  человек, что совсем немного… Зато весь рынок переводов текстов в мире – 12 миллиардов долларов в год!

Александр Рылов:
- Что предлагает ABBYY?  Новый принцип. Мы его называем Model based machine translation. Эта система является воплощением мечты многих компьютерных лингвистов, работающих над задачей качественного машинного перевода последние 50 лет. Наша попытка заключается в полном формальном описании модели языка. При описании модели языка мы тоже используем статистику сочетаемости и употребления слов по корпусам текстов. Но сама статистика у нас является лишь вспомогательным инструментом при создании полного описания. Можно сказать, что мы учли опыт предыдущих систем, и теперь делаем новый шаг в развитии систем перевода. 

Мы хотим научить компьютер ПОНИМАТЬ СМЫСЛ ТЕКСТА. Многие эксперты вправе сказать, что определение «смысла» – вещь, скорее философская. Говоря более точным языком, мы хотим научить компьютер разбирать текст, выявляя значения слов и понятий в этом тексте и то, как эти понятия связаны друг с другом. Именно наличие этих понятий и связей и является тем способом «кодирования» информации, с помощью которого мы излагаем свои мысли. 

Для выявления этих понятий и связей мы создали технологию синтаксического и семантического анализа текста. Синтаксическая составляющая  описывает грамматическую роль слова в предложении и типы связей слова с другими словами. Например, мама мыла раму. Есть связь между подлежащим и сказуемым, а также между сказуемым и дополнением. Эти связи нам дают понять, что именно мама мыла, и мыла она раму. Достоинством нашей технологии является её способность разбирать также и сложные тексты с пропусками и дальними связями (например, как во фразе про Маргарет Тэтчер, где именно связи помогают установить правильный род глаголов при переводе). И именно это во многом определяет качество всех возможных решений, основанных на нашей базовой технологии. Семантическая – конкретные понятия, выраженные словами в данном предложении. Об этих понятиях скажу чуть подробнее.
Начнём издалека. Хотя люди разговаривают на разных языках и используют разные слова, они мыслят очень похожей системой понятий. Все люди едят, спят, ходят на работу, отдыхают. путешествуют. Вокруг них – здания, предметы мебели, животные, растения и т.д. В этих словах заложены понятия, в которых гораздо больше общего для всех людей в мире, чем различного. Понимая это, можно построить универсальную систему понятий в виде дерева. Именно такая универсальная семантическая иерархия (или дерево понятий) и является центральным ядром создаваемой нами технологии. Толстые ветви этого дерева являются более общими и универсальными понятиями (например, «путешествие»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «командировка»).  Слова каждого нового языка подвешиваются как листочки к ветвям этого дерева понятий.

Качественный синтактико-семантический анализ текста, фактически, позволит компьютеру понимать его структуру, или «СМЫСЛ» в том виде, как мы его здесь описали. После этого задача воспроизведения этого смысла на другом языке, т.е. задача перевода, может быть решена на качественно новом уровне.
Понимание машиной СМЫСЛА предложений открывает широчайшие возможности не только для перевода, но и интеллектуального поиска! Например, вам нужно узнать, какие европейские политики высказывались о предстоящем финансовом кризисе. Для этого сегодня вам нужно решить задачу искусственного интеллекта – подобрать ключевые слова, ввести их в поисковую систему и после перелопатить тонны полученной информации.  Если же применить технологию разбора ABBYY Compreno, задача поиска ответа на такой непраздный вопрос будет решена на существенно другом уровне. Дело в том, что в самом вопросе заложены понятия и связи между ними. При поиске информации надо не только искать все ключевые слова в документе, а оперировать понятием «политик» с его геополитическим атрибутом «Европа», понятием «высказывать» в значении «выражать мысли» (а значит нужно также искать слова «говорить», «заявлять», и др.), понятием «кризис», причем именно «финансовый», а не какой-то ещё. ABBYY Compreno призвана находить и разбирать все эти связи понятий, существенно меняя сам принцип поиска – по СМЫСЛУ, а не по словам в запросе.

У подобного интеллектуального поиска множество интереснейших направлений применения! Например, мониторинг упоминаний в прессе, анализ тональности высказываний, определение утечки конфиденциальных данных, сравнение документов, классификация и создание краткого описания содержания документов и коллекций документов по смысловому принципу, идентификация авторства, и многое другое.  Используя эту технологию, можно даже визуализировать текст. Такое решение создаётся в партнёрстве с компаний «Базелевс Инновации». На выходе получаются анимационные фильмы, созданные полностью автоматически по текстовому сценарию.
Одним словом, хотя до понимания человека машиной, или, скажем, непринужденной беседы двух разноязычных людей друг с другом при помощи смартфона-«синхрониста», пока еще далеко, но весьма значительные подвижки в этом направлении уже есть!