«Мы живем в компьютерной симуляции»
Способ, которым можно проверить, живем ли мы в реальном мире или представляем собой порождение виртуальной реальности, созданной нашими дальними потомками, предложили три физика-теоретика из США и Великобритании.
Свою работу они выложили на сайте препринтов arXiv.org. Этот портал весьма уважаем: он представляет собой сборник нереферируемых научных статей и черновиков будущих публикаций в реферируемых журналах. Свои идеи в нем может опубликовать чуть ли не каждый, поэтому там вполне можно наткнуться и на откровенную ахинею.
Но в основном на этом портале публикуются статьи, подписанные серьезными авторами, и эти статьи потом весьма живо обсуждаются в научном сообществе. Серьезные научные журналы всегда пропускают свои будущие публикации через сито экспертов, однако эксперты могут оказаться жертвами предубеждений, поэтому arXiv представляет собой способ, пусть и не слишком надежный, проломиться сквозь эту стену и заявить на весь мир что-нибудь громкое, как это было в случае со сверхсветовыми нейтрино.
Даже странно, насколько часто в последнее время перекочевывают в науку идеи, позаимствованные из научной фантастики.
Достаточно вспомнить Мультиверс — идею множества параллельных вселенных, поселившуюся в научных журналах с пятидесятых годов прошлого века; или словно бы позаимствованную из романа Стругацких «За миллиард лет до конца света» идею о том, что Вселенная следит из будущего за тем, чтобы человек не совершил каких-нибудь неугодных ей действий.
Идея получила популярность в период множественных неприятностей с Большим адронным коллайдером, порой самых причудливых, случавшихся так, как будто их кто-то нарочно подстраивал.
Датчанин Хольгер Нильсен, один из авторов этой идеи и, между прочим, один из отцов знаменитой сегодня теории струн, заявил тогда автору этих строк, что это «нормальная физическая модель, которая не противоречит ничему из того, что мы знаем о мире», и что ничего о работе братьев Стругацких он не слышал. Согласно этой модели, бозон Хиггса обнаружить можно, но природа такого шанса не даст. А поскольку бозон Хиггса вроде бы обнаружен, эта красивая модель, несмотря на всю свою нормальность, не работает.
О нашем виртуальном происхождении люди говорили давно – начал Платон, а в прошлом веке идею подхватили фантасты.
В 2003 году о ней заговорили ученые.
Тогда Ник Бостром, философ из Оксфорда, опубликовал статью, где заявил, что шансы человечества достичь технологического уровня того, что он назвал «пост-человечеством», близки к нулю, но если все-таки этот уровень будет достигнут, тогда мы почти наверняка представляем собой «компьютерную симуляцию» своих собственных потомков из далекого будущего.
Одно из положений этой статьи так и звучало: «Мы живем в компьютерной симуляции».
Профессор физики университета штата Вашингтон Мартин Сэвидж вместе со своим аспирантом Зоре Давуди и Сайласом Бином из Университета Нью-Хемпшира решили найти способ проверки этой гипотезы.
Они исходили из существующих методов компьютерного моделирования процессов, происходящих в мире элементарных частиц.
Все эти методы имеют одно общее свойство – компьютер обрабатывает четырехмерную (три пространственных измерения плюс одно временное) решетку квантовых состояний, и, по мнению авторов, вряд ли его можно заменить чем-то другим.
В ходе своих теоретических изысканий они выяснили, что на сегодня таким способом наш мир можно описать только в очень небольшом объеме, не превышающем по размеру одной сотой от одной триллионной части метра, а это чуть больше размера атомного ядра. Развитие технологий, конечно, может этот размер увеличить на многие порядки, и, действительно, в очень отдаленном будущем (если человечество до него доживет) можно будет создать компьютерную модель Вселенной.
Однако наличие этой модели, заявляют исследователи, можно обнаружить, наблюдая за космическими лучами высокой энергии.
Поскольку решетка квантовых состояний – это не континуум, элементарная частица, пробегая по диагонали квадратной ячейки этой решетки, будет проходить большее расстояние, нежели проскакивая между точками по ребру этой ячейки. Значит, в принципе пространство должно быть не изотропным, то есть на разных направлениях космические лучи должны вести себя по-разному.
И если такая неизотропность будет обнаружена, то это будет означать, что мы – плоды сложной компьютерной программы.
Джим Какалиос, профессор физики из Университета штата Миннесота, комментируя эту работу, заявляет, что этот будущий эксперимент ничего не докажет.
Если неизотропной «подписи» пространства не будет обнаружено, говорит он, это не будет значить, что мы не плоды компьютерного моделирования: потомки смогут использовать совершенно иные, чем сегодня, методы моделирования.
Если же неизотропность будет обнаружена, то это будет значить только то, что у пространства-времени есть особенности, о которых раньше мы не подозревали.
Впрочем, все ученые, кто занимается данной проблемой, отмечают, что, независимо от того, реальны мы или виртуальны, на нашу жизнь это никакого влияния не оказывает.
Комментарии
Так, по словам Клаудио Гуарниери, исследователя компании Rapid7, инфраструктура кибершпионской сети в настоящее время практически полностью демонтирована или "перенесена в другое место". С ним согласен сотрудник "Лаборатории Касперского" Костин Раю, который заявил, что сеть начала "исчезать" в ночь с 14 на 15 января.http://rg.ru/2013/01/18/set-site-anons.html
Об обнаружении кибершпионской сети "Красный октябрь" стало известно на минувшей неделе. По словам экспертов, кибершпионы охотятся за секретной информацией и геополитическими данными. Основной их целью являются дипломатические и правительственные структуры по всему миру. В список жертв попадают различные НИИ, компании, занимающиеся вопросами энергетики, космические агентства и торговые предприятия.
31-летний эксперт предлагает заранее готовиться к неизбежному, вооружившись набором недорогих подручных средств, которые позволили бы людям, не теряя в целом человеческого облика, умело скрываться от слежки. Под такими средствами он понимает головные уборы, солнечные очки, макияж, серьги и т.п. http://hitech.newsru.com/article/17jan2013/adamharvey
Тестирование предложенных шаблонов осуществлялось на популярной системе компьютерного зрения OpenCV, включающей в себя открытую библиотеку изображений человеческого лица. Желательно, говорит дизайнер, такую проверку делать прямо в салоне, потому что даже мелкие детали влияют на то, сможет компьютер распознать лицо или не сможет.
Харви также намерен показать одежду, защищающую от слежки. Набор включает в себя капюшоны против уличных видеокамер и камер на беспилотниках, а также экранирующее покрытие против излучения мобильного телефона и инфракрасных камер. Коллекция получила название Stealth Wear ("невидимая одежда").
Подробнее: http://kommersant.ru/doc/2110046
"На государство нападают — государство принимает меры,— прокомментировал "Ъ" появление указа пресс-секретарь президента Дмитрий Песков, пояснив, что за последний год интенсивность кибератак выросла.— Ресурсы главы государства и председателя правительства подвергаются кибератакам ежедневно, изощренность злоумышленников растет". Из-за этого функционирование сайтов нарушается и "наносится ущерб как моральный, так и материальный государству".
По словам источника "Ъ" в администрации президента, указ является одним из первых в целом комплексе решений по обеспечению безопасности в интернете, и "не исключено", что конечным результатом может стать создание некой стратегии кибербезопасности России. "Проблема киберпреступности остро стоит во всем мире, поэтому не обращать на нее внимания было бы даже не глупостью, а преступлением",— говорит собеседник "Ъ". Однако главный смысл президентского указа, по его словам, в том, чтобы "замкнуть вопросы кибербезопасности на одно ведомство (ФСБ.— "Ъ"), которое и будет нести персональную ответственность".
Подробнее: http://kommersant.ru/doc/2110046
Подробнее: http://kommersant.ru/doc/2110046
Подробнее: http://kommersant.ru/doc/2110046
Управляющий директор Optima Infosecurity Неманья Никитович заявил "Ъ", что "в Европе заказы на подобные системы были впервые сформированы именно правительствами": "Постепенно были сформированы правила информационной безопасности, сначала локальные, затем ставшие общеевропейскими. В результате сегодня правительства тратят бюджетные деньги на такие организации, как OLAF (Европейская комиссия по борьбе с мошенничеством) и ENISA (Европейское агентство сетевой и информационной безопасности), делегируя им часть функций по обеспечению информбезопасности".
Подробнее: http://kommersant.ru/doc/2110046
В опросе, проведенном социологами в декабре, приняли участие 1 тыс. респондентов в возрасте от 16 до 60 лет и старше, проживающих в городах с населением от 100 тыс. человек из 8 федеральных округов.
Чаще всего пользователи заходят в соцсети с домашних компьютеров (93%). Почти треть респондентов (31%) признались, что используют рабочие компьютеры для подключения к соцсетям. Мобильные устройства (телефоны, смартфоны, планшеты) для этого используют 41% опрошенных. Среди молодежной аудитории такой вариант ответа указали 74% респондентов. http://hitech.newsru.com/article/06feb2013/romirsclmedia
Согласно опросу, 60% пользователей проводят в соцсетях до часа в день, еще четверть - от часа до трех. А один из 25 пользователей (4%) находится в социальном доступе все время присутствия в Сети.
Также выяснилось, что женщины регистрируются в соцсетях активнее, чем мужчины (87% против 73%). Доля пользователей социальных медиа и сервисов в интернете сокращается и с возрастом - среди 18-24 летних их насчитали 90%, а среди россиян старше 45 лет — всего 73%.
Наиболее популярными соцсетями у россиян являются отечественные "ВКонтакте" и "Одноклассники". На третьем месте Facebook. В пятерку также вошли Twitter и "Мой круг".
"ВКонтакте", по данным опроса, больше привлекает россиян до 34 лет. Люди старше этого возраста несколько чаще пользуются "Одноклассниками". Среди тех, кто завел себе аккаунт на Facebook и Twitter, в относительном большинстве находятся мужчины.
В настоящее время список электронных устройств, стандартно присутствующих в автомобиле, не ограничен одной лишь автомагнитолой. В современном автомобиле можно найти телевизор, бортовой компьютер, навигатор, видеорегистратор, устройства помощи при парковке, сигнализацию и многое, многое другое. Такое значительное разнообразие вполне логично требует некоторой унификации – особенно с учётом развития современных технологий, позволяющих объединять функциональность нескольких гаджетов в одном.
Таким образом, в настоящее время основной технической задачей автопроизводителей и производителей электроники стало превращение всей электроники автомобиля в единый комплекс с широким разнообразием функций и включение этого комплекса в общую информационную инфраструктуру – наравне с компьютерами, «умными» телевизорами, смартфонами, ноутбуками и роботами-пылесосами. Фактически, автомобиль должен не только средством передвижения, а удобным, функциональным и эффективным гаджетом.
Самое простое решение, которое уже внедряется практически повсеместно – это возможность управления электроникой автомобиля с помощью смартфона и добавления смартфона в привычный список устройств для автомобиля.
К примеру, компания Ford разработала технологию KeyFree Bluetooth, позволяющую автономно вводить пароли через канал Bluetooth. Технологией KeyFree Bluetooth можно оснастить любое устройство – включая и автомобиль. Тогда вместо ключа и блока управления сигнализацией владельцу машины достаточно будет иметь лишь смартфон с соответствующим приложением.
Компания Nissan с 2010 года выпускающая электромобиль Leaf с самого начала озаботилась существованием приложения для iOS, позволяющего с помощью смартфона iPhone получать информацию о работе различных систем, контролировать уровень заряда, управлять климатом в салоне… В настоящее время соответствующие приложения доступны также для платформ Android и Blackberry.
Так, поддержка голосовой платформы Siri от Apple обещана в новых моделях Honda Accord, Honda Acura RDX и Honda Acura ILX. Уже в этом году Honda обещает, что владельцы смартфонов iPhone и планшетных компьютеров iPad смогут синхронизировать свои устройства с бортовым компьютером автомобиля через канал Bluetooth и общаться с Siri посредством акустики салона. Поддержка Siri станет составной частью программы Honda под названием Eyes Free. Эта программа предполагает, что внимание водителя должно быть сосредоточено только на дороге, а все функции бортового компьютера и электроники внутри автомобиля доступны в режиме голосового контроля.
Технологии, позволяющие водителю и пассажирам вести «диалог» с компьютерной частью автомобиля это, как уже было сказано выше, не только и не столько признак прогресса, сколько вопрос обеспечения безопасности езды. На безопасность работают и иные современные средства, которые внедряют или собираются внедрить в ближайшее время известные автопроизводители.
А вот сотрудники Технологического университета Анны из индийского Ченнаи разрабатывают интеллектуальную систему, помогающую водителям держать себя в рамках закона. Создаваемая учёными система позволит выборочно глушить радиосигнал внутри салона машины. Тонкость её функционирования в том, что глушение осуществляется только в отношении телефонного аппарата водителя, но не пассажиров. В новых версиях системы разработчики не исключают добавления возможности более полного контроля за действиями водителя – например, включения алгоритмов автоматического оповещения полицейских служб в случае нарушения ПДД.
Во время езды CAN-Gateway ECU собирает информацию с приёмника GPS (местоположение, скорость), педалей газа (частота, степень нажатия), руля (углы поворота, время), тормоза, коробки передач, двигателя (количество оборотов, температура). Все данные записываются на флэш-карту и передаются по Bluetooth в приложение для смартфона. В дальнейшем эта информация может быть использована водителем или экспертом для анализа стиля вождения и обучения новичков.
Понимая превосходство и многообразие форм современной мобильной электроники, автопроизводители, однако, собираются не только синхронизировать её функции с возможностями своих машин, но и конкурировать с этими функциями – делая технологическую платформу автомобиля всё более удобной, эффективной и интеллектуальной.
К примеру, компания RoadRover завершила разработку автомобильной панели, работающей под управлением операционной системы Android. Панель не только может синхронизироваться со всеми известными устройствами на Android, но и самостоятельно (то есть, автономно) работать с различными приложениями, проигрывать музыку и видео, работать как навигатор. Панель RoadRover будет устанавливаться в машины Audi A3, Nissan Altima, Peugeot 407/408, Toyota Tundra, Chevrolet Captiva, Ford Fiesta и KIA Sportage.
Компьютер будет иметь экран с размером диагонали в 7 дюймов, сможет соединяться со смартфонами водителя и пассажиров, синхронизироваться с облачными сервисами. К началу продаж первых автомобилей в ассортименте фирменных приложений для бортового планшета R-Link будет не менее 50 названий.
Переработать интерфейс бортового компьютера хотят в компании Cadillac. Информационный дисплей в их новом Cadillac ATS станет сенсорным и получит все современные функции: перелистывания скользящим движением, увеличения и уменьшения щипком, двойного и тройного касания. Чтобы во время езды водитель, внимание которого поглощено дорогой, понимал, что его команды выполняются, экран будет оснащён обратной связью в виде зональной вибрации.
Гораздо серьёзнее и значительнее планы у компании MVS их Калифорнии. Их разработка – система визуализации True3D Head-up-Display, выводящая на лобовое стекло примерную траекторию езды. Фактически, водитель видит своеобразную путеводную нить, которая особенно полезна при езде в темноте. True3D Head-up-Display подключается к любому навигатору, от которого получает информацию о пути следования.
Наконец, упомянем о революционной разработке компания Mitsubishi Electric, представившей совершенно новый тип рулевого управления автомобиля с ориентацией на современного водителя. Новый интерфейс назван EMIRAI. Он состоит из рулевого штурвала, похожего на штурвалы самолётов гражданской авиации, 18 кнопок, расположенных на верхних «шляпках» рогов штурвала и выгнутого сенсорного дисплея с технологией задней проекции изображений. Кроме того, в систему управления включены уже упоминавшиеся выше биометрические сенсоры для анализа самочувствия водителя.
Над образом Рекса трудился, в том числе, и психолог Бертольт Майер, сотрудник Цюрихского университета, который послужил прототипом для Рекса. К слову сказать, Майер родился без левой руки и пользуется бионическим протезом. У робота такое же лицо, как у Майера, и выглядит оно до невероятности живым. Так же, как и его искусственные карие глаза, получающие изображение при помощи микрокамеры и подающие электрические сигналы. Кроме того, робот наделен кохлеарными имплантами, позволяющие ему "слышать". http://rg.ru/2013/02/07/robor-rex-site-anons.html
Помимо всего прочего, Рекс наделен искусственным интеллектом и синтезатором голоса, он понимает простые фразы и способен отвечать на вопросы людей. Например, он может представиться и поддержать беседу, сообщив, что ему нравится рэп, сообщает Daily News & Analysis.
На создание чудо-робота был потрачен один миллион долларов.
Некоторые граждане в виртуальном пространстве фактически поселились. Причем вполне могут считаться старожилами: стаж присутствия в соцсетях у большинства опрошенных (свыше 70%) составляет более 3 лет. http://www.rg.ru/2013/02/06/seti.html
Считается, что соцсети - самые настоящие "пожиратели времени". Похоже, что действительно так. 60% пользователей проводят в соцсетях до часа в день, еще четверть - от часа до трех. А один из 25 пользователей (4%) находится в социальном доступе все время, которое подключен к Интернету.
При этом только 8% россиян старше 18 лет и пользующихся Интернетом никогда соцсети не использовали. 80% пользуются ими в настоящее время, а 12% когда-то в них присутствовали, но затем сумели из соцсетей "выпутаться".
Самыми популярными соцсетями в России на сегодня оказались отечественные ресурсы - ВКонтакте и Одноклассники. Почетное третье место заняла мировая сеть Facebook. Лишь каждый пятый успешно освоил Twitter, 16% зарегистрированы в "Моем круге", 15% - в Google+. Каждый десятый россиянин имеет личную страницу в Живом Журнале (Livejournal). 3% используют LinkedIn. На долю прочих соцсетей приходится 5% россиян-пользователей Интернета.
40% пользователей имеют сейчас трехлетний опыт пользования соцсетями, треть - свыше пяти лет. Причем к людям среднего и старшего возраста мода на сети пришла позже, чем к молодежи.Больше других в сетях "зависают" девушки до 25 лет. Чаще всего россияне заходят в соцсети с домашних компьютеров (93%). Почти треть (31%) использует для этого рабочую оргтехнику. С мобильных устройств попадает в сети 41% опрошенных (среди молодежи таких пользователей почти три четверти - 74%).
Многие автомобили можно «позвать», потеряв на парковке, и она, отзовется как собака, только не завиляет хвостом, а откликнется звуковым сигналом и моргнет фарами. Но Volvo, без всяких дополнительных спутниковых систем, сообщит владельцу, если его попытаются угнать или обидеть, в случае срабатывания подушек безопасности или преднатяжителей ремней при ДТП автомобиль немедленно оповестит об этом сервисный центр, откуда оператор свяжется с водителем и предложит помощь, при отсутствии ответа на место будут направлены спасательные службы. http://blogi.autonews.ru/?r=entry/view&id=502236
Связь с машиной осуществляется через встроенный сотовый модуль: с завода в автомобили Volvo, на которых предусмотрена система On call устанавливается SIM-карта. Также это дает возможность в любой момент увидеть местонахождение своей машины на карте.
Пользоваться системой не сложно: на смартфон устанавливается приложение, доступ к которому открывает номер автомобиля и личный пароль, который выдается при подключении.
Чтобы получить систему, хоть немного приближающуюся к «On call», вдобавок к webasto нужна еще спутниковая сигнализация с обратной связью. Это минимум 10 000. Так что в результате все равно выходит дороже. И при этом вы не сможете похвастаться тем, что ваш автомобиль поможет в экстренной ситуации или может пообщаться со своим владельцем по смартфону
Отношение в России к таким нововведениям пока неоднозначное. Кто-то восторгается, как забавной безделушкой, кто-то всерьез опасается восстания машин, кто-то относится с недоверием: «А сосед мою машину с телефона не заведет?»
— В компьютерную лингвистику я пришел из области, которая называется «искусственный интеллект», работая в конце 80-х в лаборатории Евгении Тихоновны Семеновой и Дмитрия Александровича Поспелова. Группа Семеновой занималась языками представления знаний, делала, в частности, первые в СССР трансляторы с языков LISP и FRL для ЕС ЭВМ — тогда это был, что называется, передний край программирования. Например, некоторые ее студенты с помощью FRL и замечательной книги Проппа «Морфология волшебной сказки», где вычленялись базовые риторические структуры этого жанра, пробовали генерировать сказки на компьютере.
— Сейчас студенту говорят «думай сразу, как будешь зарабатывать». И магистры, в том же физтехе, сильно ориентированы на работу в конкретных проектах компаний. С одной стороны, это замечательно: получается на выходе ремесленник, знающий, как делать востребованный продукт. С другой — студенты слишком профориентированы, от них отсекаются целые интереснейшие пласты знания и опыта! На кафедрах компьютерной лингвистики, которые созданы с участием нашей компании в физтехе и РГГУ, мы пытаемся отыскать баланс — давать ясные карьерные перспективы и при этом вовлекать студентов в сугубо научные проекты. В РГГУ, например, один из учебных проектов, которым руководит Елена Соколова, посвящен генерации текстов по фотографиям Прокудина-Горского (пионер цветной фотографии в России, создатель «Коллекции достопримечательностей Российской империи». — «Газета.Ru»). Студенты пытаются разобраться, каким способом можно описать, что на них изображено.
— Вы правильно ставите вопрос, какой именно язык имеется в виду. Прежде чем перейти к естественному языку, нужно создать некую формальную модель для описания изображений. И лишь потом происходит конвертация формального описания картинки в линейную последовательность элементов языка. Это серьезная и сложная задача, подразумевающая планирование текста: выбор последовательности описания, описывающих глаголов, активных участников действия и т. д.
— Сколково для меня проект пока не до конца понятный. Например, в основе создаваемого Сколковского университета лежит идея взаимодействия российских и западных ученых. Причем разработчиком и куратором этого процесса является знаменитый MIT. Это попытка создать нечто, очень далеко отстоящее от российской традиции организации фундаментальной и прикладной науки. Но будет ли она удачной, пока неясно. Очевидно, что есть желание создать нечто действительно современное и эффективное, есть финансирование, есть сколковский комитет как венчурный инвестор, решения которого достаточно прозрачны.
— Технологии современных поисковых систем с точки зрения лингвистики довольно примитивны. Поясню. В области поиска сейчас господствуют статистические методы, которые позволяют добиться быстрых и полезных результатов без глубинного лингвистического анализа, за счет сопоставления больших объемов текстовых данных, находящихся в распоряжении системы, и истории запросов к ним. Применяются современные математические методы машинного обучения, но об анализе смысла поискового запроса речи не идет. То есть задача поиска ответа сводится к поверхностному сопоставлению запроса с огромным массивом потенциальных ответов.
— Любой язык обладает высокой степенью вариативности, способностью к перефразированию. Охватить с помощью чисто статистического обучения все возможные способы перефразирования очень сложно, или даже невозможно. Тем не менее статистические методы работают и дают интересные результаты — например, вопросно-ответная система IBM Watson умеет играть в Jeopardy (американский аналог «Своей игры») лучше человека. Наш подход альтернативный: мы стремимся выявлять смысловую близость вопроса и текста, основываясь на семантическом анализе. Это более рискованно и дорого, поэтому таким «наукоемким» путем мало кто идет. Соответствующие разработки есть у Google и Microsoft Research, которые могут себе позволить заниматься подобного рода проблематикой.
— Мы пытаемся выделить семантическую структуру сообщения и соотнести ее с семантической структурой текста. Мы сравниваем не поверхностные цепочки языка, не просто последовательности слов, а их глубинные представления, которые могут быть ассоциированы со «смыслом». IBM Watson работает на уровне поверхностных структур, обучаясь на огромном количестве образцов, пытаясь выделить автоматически те факторы, которые позволят оценить вероятность того, что некоторая фраза является ответом на запрос.
— Любое практическое решение задачи всегда что-то «упускает». В коммерческих системах ограничения, накладываемые на язык, могут быть очень сильными. В этом смысле у коммерческой компании положение, конечно, не такое выгодное, как у академического заведения: если выбран неверный путь и это выяснится через 5—10 лет, потраченные деньги никто вам не вернет.
— В том подходе, который мы избрали, изначально была важна фундаментальность. Мы сразу приняли довольно дорогое и затратное решение строить универсальные лингвистические модели, что обязало нас соблюдать определенную последовательность, так как при работе с языком вы не можете перескочить через какие-то стадии – у вас должна быть полноценная морфология, синтаксис, семантика, грамматическая семантика и т. д. Мы довольно долго занимались созданием компьютерной модели, в которую можно вкладывать описание любого языка, и мы ее создали: модель доказала свою работоспособность, мы смогли ее проверить на пяти языках — русском, английском, немецком, французском и китайском.
— Мы подошли к рубежу, когда получены, наконец, четкие гарантии, что никакой новый язык не породит для нас новых больших проблем. Как мы и предполагали, у универсальной лингвистической модели имеется огромный потенциал масштабирования: наши технологии анализа языка можно применять для самых разных практических задач. Поначалу мы ориентировались на машинный перевод, но сегодня возник и структурировался колоссальный рынок информационного поиска, где также требуются новые лингвистические технологии. Актуальны и задачи, связанные с классификацией документов, извлечением фактов и связей, сравнением и поиском различий в документах, анализом тональности.
— Строго говоря, уже нет. В задаче описания пространства никакого языка может и не быть — например, если вы создаете модель компьютерной игры, в которой нужно моделировать объекты. Есть также и временная онтология, системы причинно-следственных связей и прочие системы описаний, нетривиально отражающиеся в языке, но существующие и сами по себе.
— Смотря какую задачу вы решаете. Если вы решаете задачу, где можно обойтись без языка, то да.
— А существуют такие задачи?
— Возьмем случай виртуальной реальности, где вы должны чувствовать себя игроком, который бежит по футбольному полю, бьет по мячу и т. д. Здесь нет никакого языка, но есть система знаний о мире, которые нужно смоделировать, чтобы игра получилась натуральной.
— Здесь вы используете слово «язык» уже в математическом смысле. То есть понятно, что язык программирования — это тоже язык. Но мы сейчас говорим о естественном языке как средстве коммуникации. Мы, лингвисты, занимаемся естественным языком как средством передачи информации, эмоций, чего угодно. Допустим, вам нужно моделировать игру «футбол» — направление и силу удара, траекторию мяча и другую «физику». Здесь пока нет никакой языковой коммуникации, это просто детальное описание всех аспектов игры. Ну а теперь представим несколько иную задачу. Например, на последней конференции EACL (европейского подразделения ACL) был доклад, посвященный генерации футбольного репортажа. Комментирование — это задача совершенно другого типа, чем моделирование игры, это задача генерации текста по наблюдаемому действию. Комментатор выбирает действующих лиц, последовательность действий, а потом решает лингвистическую задачу подбора адекватных языковых средств, чтобы на выходе получился адекватный происходящему текст.
— У естественного языка много функций. Прямое «кодирование» того, что может быть представлено на машинном языке — только одна из них, но в процессе общения реализуются и другие функции. «Несовершенства» естественного языка, препятствующие его использованию как формального — неоднозначность, избыточность, эллиптичность, — являются одновременно и источником его неограниченных коммуникативных возможностей. Формальный язык универсальных семантических сущностей ценен тем, что позволяет работать с текстом не только компьютеру, но и специалисту-предметнику, например физику или математику. Через этот язык-посредник мы можем проецировать текст на, допустим, язык логики предикатов или систему описания каких-то физических законов. Но здесь нет никакого слияния — это просто разные языки для разных целей.
— Компьютерная лингвистика, вообще-то говоря, это инженерная наука, возникшая из попыток иногда предвосхитить, а иногда следовать за потребностями людей, которые работают с языком на компьютере, вот и все. Мы не знаем пока, как устроена языковая способность человека, этот механизм, позволяющий нам с вами разговаривать. В этом, собственно, заключается глобальная задача науки лингвистики. Мы пытаемся моделировать способность языка к передаче информации.
— Искусственный комментатор – это не самостоятельная задача, это лишь попытка смоделировать способность коммуникации, о которой я говорил. Замечу, это двунаправленная задача. С помощью программы можно попытаться как синтезировать репортаж по событию, так и воссоздать события по репортажу, например нарисовать картинку или сгенерировать видео. Один из наших заказчиков, Тимур Бекмамбетов, хочет, например, чтобы текст сценария автоматически конвертировался в анимацию. В этом случае мы моделируем того самого слушателя, который воссоздает картину происходящего, слыша текст.
— В идеале да, но модель мира, в которой придется воспроизводить художественный текст, будет колоссально сложной, в отличие от футбола с его чистым экшном. Идея программной визуализации классического текста прекрасная, но очень сложная: здесь требуются уже не только обширные знания о мире, но и глубокое «модельное» понимание психологии. Впрочем когда-нибудь кто-нибудь и попытается это сделать, не сомневаюсь.
— Гуманитарии всегда любили поговорить, например, о «заклятии» теоремы Гёделя, на которую вы, возможно, намекаете. Но я не думаю, что в нашей практический жизни можно увидеть какие-то практические следствия из этой теоремы, которая адекватна и верна в рамках сильно формализованного, математизированного мира. В мире повседневных, практичных вещей это всего лишь метафора. Формализация знаний о языке — процесс очень сложный и длительный.
— Генерация сказок (и художественного текста вообще) – это очень увлекательная задача, и я думаю, что можно было бы чего-то достичь в этой области уже сейчас, но компьютерная лингвистика в целом не может ставить цели, которые не ведут к практически существенным результатам. Но вычислительная парадигма, которая в принципе непригодна для постановки таких задач, конечно же, должна будет рано или поздно уступить место более совершенной. Мы надеемся, что выбрали парадигму правильно, но в любом случае есть интересные с научной точки зрения задачи, которыми мы могли бы заниматься в принципе, но не можем себе это позволить, пока не появится заказчик, которому это окажется важно.
— Совершенно верно, поэтому компании важно иметь технологический задел на будущее. Нельзя ориентироваться только на текущие потребности рынка Мы, например, потратили много ресурсов in advance, когда только начинали разработки в области анализа текстов. Тогда, около 15 лет назад, заказчики плохо понимали, чего они, собственно, хотят от языковых технологий. Зато сегодня рынок этот сформировался и стремительно растет, структурируется, определились отдельные перспективные направления, например opinion mining, когда компаниям интересно, какие мнения об их товарах циркулируют в социальных сетях и блогосфере. И тут могут выстрелить технологические наработки, ожидавшие своего времени.
— Я бы другое тут выделил. Лингвистика долгое время была наукой кабинетной и большей частью имела дело с языком, на котором говорили сами же лингвисты. То, что произошло за последние 10—15 лет в связи с развитием интернета и соцсетей, – это, конечно, настоящая революция для лингвистики, связанная с тем, что молчавшее, обделенное вниманием лингвистов большинство получило возможность и форму выражения. И лингвистика обязана это исследовать, потому что речь каждого человека имеет одинаковую ценность для лингвиста. Мы занимаемся этим. Обе наши кафедры — в РГГУ и МФТИ — совместно с коллегами из Университета Лидса принимают участие в проекте создания специального исследовательского корпуса, он будет называться «Генеральный интернет-корпус русского языка» (ГИКРЯ).
— Национальный корпус – это особый, очень важный, но всего лишь один остров в целом архипелаге, с которым можно сравнить язык. Построенный на определенных типах речевых произведений, адекватный и достаточный для определенного типа языковых исследований, например исследований грамматики. Для изучения живого языка в целом он не годится: недостаточно представителен. В свою очередь, интернет сам по себе – никакой не инструмент исследования: там нет языковой разметки, достоверной статистики и т. д. Генеральный интернет-корпус русского языка должен занять нишу между интернетом и Национальным корпусом. Последний примерно на четыре порядка меньше рунета, а мы делаем корпус на два порядка больше Национального корпуса и два порядка меньше рунета – что-то как раз посередине, и блоги будут занимать в нем большое место. Что очень важно в этом проекте – он ориентирован на лингвистические исследования языка, но делается исключительно методами компьютерной лингвистики.
— Не вполне ясно, что можно назвать сетевой компьютерной лингвистикой. Попробую это интерпретировать. Возьмем Wiki-модель, при которой сбор знаний о языке может осуществляться совершенно немыслимым для традиционной системы сбора языковых данных числом исследователей, но зато очень часто — вне системы профессионального редактирования, обеспечивавшего непротиворечивость и концептуальную последовательность. Например, так устроены многочисленные сетевые словарные и энциклопедические ресурсы. Несмотря на все очевидные издержки, Wiki-подход становится доминирующим. Изменить эту ситуацию невозможно — нужно уметь извлечь выгоды для лингвистической науки. К примеру, есть вид лингвистических задач, которые просто невозможно решить вне Wiki-подходов.
— Нельзя абсолютизировать никакие методы. И краудсорсинг, и статистический анализ, и глубинный семантический анализ являются методами, которые должны использоваться в комплексе. Если не проверять языковые модели с помощью статистики употребления и/или с помощью краудсорсинга, можно создать нечто весьма далекое от реальности. Так же и системы, которые обучаются исключительно на статистике запросов, начинают вести себя раздражающе «средне», например может страшно раздражать настойчивое стремление системы поиска угадать с полуслова ваши желания, подсовывая вам наиболее вероятные, но вовсе не нужные вам варианты запроса, исправляя ваши «ошибки» и т. п. Конкретного человека это может не устроить, ведь издержка статистики — это ориентация на середнячка.