21.06.2014 04:00

Мы учим машину понимать, а не догадываться

На модерации Отложенный

Весной ABBYY анонсировала технологию Compreno, которая позволит машине понимать смысл текста и переводить лучше, чем Google Translate. «Воздух» расспросил основателя компании Давида Яна, каким образом программы смогут притворяться человеком.

«Мы учим машину понимать, а не догадываться»

Начнем сразу с примера, с какой-нибудь фразы, которую машина до сих пор не могла понять, а с вашей программой Compreno сможет?

Ну допустим: «Пушистик сидел на холодильнике. Он мурлыкал» — машина в таких случаях не способна определить, кто этот «он», кто из них мурлычет. Даже ребенок, не зная ничего про Пушистика, сразу скажет, что мурлычет точно не холодильник. Это понимание на уровне семантики, когда и контекст не нужен: вы просто знаете значения слов и как они сочетаются друг с другом. Примерно такие вещи Compreno понимает.

Вы работали над Compreno почти 20 лет, потратили десятки миллионов долларов. Правильно ли я понял, что все это время вы вручную прописывали всевозможные атрибуты, относящиеся к таким вот Пушистикам?

Не совсем так. Compreno не знает, кто такой Пушистик, как не знает и человек, когда слышит о нем первый раз. У нас вообще нет прагматических данных в системе: мы не знаем, когда затонул Титаник и какая высота Эйфелевой башни. Мы научили систему более фундаментальным вещам: прочитать документ, вычленить из него объекты (Пушистик, холодильник), определить характер взаимодействия между этими объектами в предложении. И все это исключительно на языковом уровне. А уже потом, если надо, можно привнести в этот языковой анализ прагматику. Например, отправить робота в «Википедию» узнать, какие бывают холодильники.

Как вы этого добились? Что главное в Compreno?

Если грубо, мы сделали две важные вещи. Первое — честный парсинг, синтаксический анализ предложений. Compreno умеет разбирать предложения, в том числе сложноподчиненные, на части: выявлять подлежащее, сказуемое, дополнения и связи между ними. Второе — универсальная семантическая иерархия, описывающая все возможные понятия и их лингвистические свойства. Это такая модель, независимая от конкретного языка, интерлингва. Затем мы перевели эту абстрактную модель на естественные языки — русский и английский. На очереди французский, немецкий, китайский.

А разве Google не работает над составлением такой же иерархии всех объектов и классов на свете? Мне казалось, что вот как раз их Knowledge Graph — это и есть такая технология понимания текстов, причем у них там все автоматизировано: связи между вещами и классами вещей формируются сами с учетом миллиарда пользовательских запросов. Вы связываете «автобус» и «наземный транспорт» руками, а у них это делает коллективный разум.

Из всех возможных результатов Google показывает 10 самых подходящих, потому что использует комбинацию самых разных методов, и ключом тут является статистика, которую они собирают на основе колоссальной массы предыдущих запросов, проиндексированных сайтов и других эвристик такого рода. Этот статистический подход означает, что машина догадывается, о чем ты ей говоришь. А семантический — что она пытается тебя понять. Это достаточно вдумчивая, почти философская работа — как построить иерархию понятий, какие должны быть связи между ними. У нас этим занимаются 300 человек. В общем, я что хочу сказать: мы учим машину понимать естественный язык, а не догадываться.

Компании Google уже стоит переживать?

Тут нет идеального решения, правда, как всегда, где-то посередине. Статистические машины о некоторых вещах догадываются быстрее, поскольку учатся на колоссальном объеме пользовательских вопросов. Но есть, например, корпоративный рынок, жизнь небольших организаций, которые накопили свои небольшие архивы и базы знаний. Шансы, что среди пятисот сотрудников хотя бы двое зададут одинаковый запрос, радикально ниже. Угадать в таком случае статистически, какой юридический документ или инструкцию разработчика человек искал, почти невозможно. В какой-то момент мы поняли, что в этом и есть наше преимущество. Семантические машины лучше работают с ограниченным материалом, когда данных мало. Представьте, у вас сто статей о развитии транспорта в Москве. Задача — понять, поддерживают ли журналисты в целом развитие наземного транспорта в городе или нет. Единственное, что вы сейчас можете сделать, — взять и прочитать все сто статей за пару дней. А Compreno попытается дать ответ за пару минут. Причем в статье может и не быть фразы «наземный транспорт». Там могут фигурировать автобусы, троллейбусы, такси, велосипеды. Никакие нынешние автоматические системы мониторинга СМИ тут не помогут. Как искать, когда не знаешь, что искать? Это даже не поиск по ключевым словам. Такие системы не знают, что понятие автобуса входит в класс «наземный транспорт», а метро — в «подземный транспорт».

То есть вы с самого начала делали корпоративный поисковик?

Нет-нет, все начиналось с исключительно научного исследования в области машинного перевода. Нам в принципе было интересно, можно ли создать семантическую иерархию, научить компьютер разбирать текст на естественном языке так, чтобы получить семантическое представление текста, не зависящее от языка.

Насколько хорошо Compreno переводит сейчас, если сравнивать с тем же Google Translate? И раз уж речь про человечность, насколько Compreno близка к прохождению теста Тьюринга?

О прохождении теста Тьюринга говорить пока преждевременно. Compreno — базовая технология, которая может решать множество задач. Возможно, в будущем научится в том числе и перефразировать тексты. Что касается сравнений переводов, мы точно знаем, что на языковой паре русский — английский наш переводчик дает наилучшие результаты. Но задача перевода для нас тоже сейчас не является основной. Мы с Compreno нацелены на корпоративный рынок. Весной мы представили первые решения в области корпоративного поиска.

В каком-то интервью вы говорили, что ABBYY предоставляет базовые технологии, которые кто-то другой упаковывает в продукты, а ваши программы FineReader и Lingvo стали скорее исключениями. У меня, наверно, немного наивный вопрос: почему, придумывая такие исключительные технологии для работы с текстом, вы не создали массовый потребительский сервис, поисковик например?

Массовый поисковик нас никогда не интересовал. Мы начинали с лингвистики и словаря Lingvo, но все же ДНК компании больше связана с исследованиями в области искусственного интеллекта, в частности с распознаванием и интерпретацией изображений. Не знаю, хорошо ли это с точки зрения бизнеса, но большинство сотрудников пришли в компанию из языкознания и технических наук. Нам просто было интереснее заниматься нерешенными научными проблемами. Наверно, поэтому мы не бросались в проекты, приносящие коммерческую выгоду здесь и сейчас.

При этом еще в 1998 году вы придумали Cybiko, чуть ли не первый смартфон. Это же совсем не научная работа?

Cybiko — это мой отдельный проект, с ABBYY не связанный. В компании, напоминающей своей атмосферой НИИ, трудно сделать устройство, которое вибрирует, если в радиусе 150 метров появляется девушка вашей мечты. Cybiko был разновидностью карманного компьютера, позволяющего знакомиться, чатиться, играть в игры с людьми поблизости. Мобильными тогда пользовались в основном люди старше 35 лет. Индустрия не добралась до подростков, и бум, соответственно, еще не начался. Как Blackberry трансформировал свои пейджеры в телефоны для деловых людей, так мы хотели сделать из наладонников развлекательные устройства для подростков. До появления айфона эта ниша пустовала. За два года мы продали 250 тысяч аппаратов. Помню, в некоторых американских школах висели плакаты «No Cybiko in school» и наблюдался интересный эффект: как только число устройств у детей переваливало за пятьдесят штук, приходить в школу без сайбико было уже не круто. Фактически в одном устройстве мы выпустили прототипы нынешних соцсетей, геолокационных приложений и мессенджеров вроде WhatsApp.

Cybiko выглядел вот так

Почему же вы не сделали телефон?

В 2000 году случился кризис доткомов, платежеспособность домохозяйств в США за год уменьшилась в разы. Мы вышли в Европе, но тут случился теракт 11 сентября, и отношение властей к коммуникационным устройствам для детей резко изменилось. Этих устройств боялись как огня. Времена в индустрии были такие тяжелые, что к нам в Москву даже приезжал СТО компании Palm Билл Мэгс и спрашивал меня, не хотим ли мы их купить. В 2003 году мы решили закрыть проект. Хотя, надо сказать, к тому моменту я уже держал в руках сайбикофон, то есть телефон с поддержкой GSM плюс локальный беспроводной чат, игры и прочее.

Как вам разделение Foursquare и их новое геолокационное приложение Swarm?

Я всегда тепло относился к Foursquare и AlterGeo, это близко к тому, что мы делали с Cybiko. У них общая идея — сделать устройство или приложение, которое было бы продолжением наших пяти чувств, и чекины — одна из проекций этой идеи. Вопрос в том, сколько это еще продлится, сколько можно играть в чекины. Foursquare хочет сделать рекомендатор и превратиться в Yelp, что логично. Yelp — честный добротный гид плюс мощная сервисная часть. Скажем, если вы ищете кинотеатр, то в приложении можно сразу заказать билет или посмотреть, что в нем сейчас идет. Это как «Афиша», но не только про развлечения, а вообще про всю сферу услуг, включая парикмахерские и заправки. Foursquare этого не хватает, и мне кажется, в идеале нужно не это разделение сервиса две части, а скорее его объединение с Yelp.

Напоследок хотел спросить о вашей системе питания. Уж простите, но мне это все напомнило Рэя Курцвейла, предпринимателя и визионера, который начинал с технологий распознавания, а сейчас отвечает за искусственный интеллект в Google. У него тоже есть своя система питания, к тому же, говорят, он съедает около двухсот пищевых добавок в день и делает себе инъекции, чтобы жить вечно. У вас какая была мотивация, когда вы писали книгу «Теперь я ем все, что хочу!»?

Увы, ничего не знаю про систему питания Рэя Курцвейла. Насчет бессмертия я как-то высказался полушутливо на «Печа-куче» в докладе «Формула счастья». А о том, что мы едим, я задумался, когда мне показалось, что мы неправильно кормим наших детей, давая им, скажем, хлеб с маслом и сыром и чай с сахаром. Я стал изучать вопрос, проблема такова: 50% смертей в мире связаны с сердечно-сосудистыми заболеваниями, онкологией и диабетом. Провоцирует эти болезни во многом неправильное питание в течение жизни. Согласно исследованиям ВОЗ, четыре продукта — соль, сахар, насыщенные жиры и мучные изделия из муки высшего сорта — вносят наиболее заметный вклад в развитие смертельных болезней.

А чему учит ваша книга? Чем заменить соль, сахар и прочее?

Их не надо ничем заменять. Скажем, ВОЗ рекомендует потреблять соли не более 5 грамм в день. А люди в среднем потребляют 8-16 грамм. По результатам исследований, если снизить этот объем на один грамм, вероятность инсульта или инфаркта снизится на 15%. Соль вообще можно не добавлять в еду: необходимое количество натрия мы получаем вместе с несоленым мясом, яйцами, фруктами, овощами, даже водой. В упомянутом примере с бутербродом и чаем вредно почти все. Сыр (в котором 50% насыщенного жира и 10% соли), масло (50% насыщенного жира), белый хлеб (с гликемическим индексом 70-85%), сахар (с гликемическим индексом 70%). Времена, когда наши прадеды и прабабки сжигали по 5000 килокалорий на сенокосе, прошли. Эти вредные продукты можно употреблять эпизодически — как пищевое развлечение, но они не должны входить в состав ежедневного завтрака, обеда или ужина ребенка и взрослого. Это все не новость. Врачи и диетологи говорят об этом во всех странах. Но люди потребляют эти продукты с большим удовольствием, потому что те в прямом или переносном смысле являются пищевыми наркотиками. Моя книга рассказывает о том, как избавиться от зависимости и не подсадить на эти наркотики детей. После этого можно жить в свое удовольствие и есть что захочется.