Опознать отпечаток голоса

На модерации Отложенный

   «Я слышу не то, что ты говоришь, а голос», – заметил Бродский в одном из поздних стихотворений, в чём-то родственных кубизму: пространство в них рябит, человек теряет целостность, распадается на первичные формы. Однако эту строку без всякой метафорики могут повторить в Центре речевых технологий, чей головной офис расположен в родном для поэта Петербурге. Тамошние звуковики совершенствуют методы распознавания личности по голосу. Их разработки востребованы в банковской сфере и силовых структурах – пару лет назад аналитики звукозаписей даже помогли накрыть сеть наркодилеров и похитителей детей в Мексике. Корреспондент STRF.ru по уши погрузился в рассказ экспертов, дабы выяснить, можно ли идентифицировать человека по телефонному разговору столь же точно, сколь и по радужной оболочке или папиллярным линиям на кончиках пальцев.
   Машинная идентификация по спонтанной речи зарождалась после Второй мировой войны. Достаточно вспомнить завязку романа «В круге первом». Сейчас фоноскопия доступна широкому кругу людей – тогда ею в сугубо узких целях интересовалась госбезопасность. Вспомним: прообраз интернета тоже возник по заказу Минобороны США.
   Итак, в канун католического Рождества 1949 года в американском посольстве в Москве раздался телефонный звонок. Взволнованный инкогнито порывался сообщить, как советский разведчик в Нью-Йорке намерен выкрасть детали атомной бомбы. Разговор ничем не увенчался: атташе плохо понимал по-русски, да и чекисты поспешили разорвать линию. Неизвестный звонил из телефонной будки, никаких зацепок не осталось, кроме магнитофонной записи разговора. И вот эту плёнку передают в Марфинскую шарашку, где зеки-инженеры трудятся над созданием линии секретной связи: пусть звуковики машинным методом распознают предателя по голосу, тем более что круг подозреваемых довольно тесен.
   Будучи выпускником физмата, Солженицын подробно описывает методику пока ещё далеко не точной идентификации человека по голосу.
   «Сравнили с преступником пять голосов на слух. Сравнили с преступником пять звуковидных лент. <…> Если на слух легко было усумниться, где схож голос, где разен, то на звуковидах изменением амплитудно-частотного рисунка разнота выявлялась как будто отчётливей. <…>
   Из пяти подозреваемых Заварзина и Сяговитого можно было отвести совершенно уверенно (если вообще будущая наука разрешала делать выводы по единичному разговору). С колебаниями можно было отвести и Петрова (разгорячившийся Рубин отводил и Петрова уверенно). Напротив, голоса Володина и Щевронка подходили к голосу преступника по частоте основного тона, имели с ним одинаковые фонемы: о, р, л, ш и были сходны по индивидуальному речевому ладу.
   Вот на этих-то сходных голосах и следовало бы теперь развить науку фоноскопию и отработать её приёмы. Только на тонких этих различиях и мог выработаться её будущий чуткий аппарат. С торжеством создателей откинулись к спинкам стульев Рубин и Ройтман. Их мысленный взгляд прозревал ту, подобную дактилоскопической, организацию, которая когда-нибудь будет принята: единая общесоюзная фонотека, где записаны звуковиды с голосов всех, однажды заподозренных. Любой преступный разговор записывается, сличается, и злоумышленник без колебаний изловлен, как вор, оставивший отпечатки пальцев на дверце сейфа».
   За шестьдесят с лишним лет фоноскопия, постепенно перешедшая и на гражданскую службу, достигла высот, о которых персонажи Александра Исаевича могли только мечтать.
   Ещё десять лет назад вероятность ошибки при компьютерной идентификации по голосу составляла около 7–8 % на чистых и высококачественных записях, сейчас – всего 3% на записях сильно зашумлённых, когда речь буквально пробивается сквозь посторонние звуки. Кроме того, компьютер позволяет сличить с эталоном тысячи голосов, то есть буквально найти иголку в стоге сена.
   Как же автоматически распознать личность по голосу? Об этом нам рассказали в отделе верификации и идентификации научно-исследовательского департамента Центра речевых технологий в Санкт-Петербурге. Здесь самый крупный процент исследователей среди аналогичных компаний в Старом Свете: 50 человек из 400 примерно сотрудников. Возможно, поэтому фирма в прошлом году опередила европейских соперников в международном конкурсе Национального института стандартов технологий США, где надо пробить по базе из тысячи голосов англоязычные записи, телефонные и диктофонные, сделанные на шумной улице и в тихом помещении, причём неизвестно, есть или нет чёрная кошка в этой тёмной комнате.
   Итак, идентифицировать личность по голосу можно трояко.
   Базовый метод – сравнивать голоса по частотам основного тона. Если, например, усреднённая частота колебания голосовых связок составляет 100 Герц, можно с уверенностью утверждать: говорит мужчина с довольно низким голосом. Если выше 170 Герц – говорит женщина. Такой метод весьма надёжен для зашумлённых условий. Эффективно выделить частоту основного тона можно, даже если речь заглушает грохот трамвая или другие уличные шумы.
   Более надёжный метод – сравнивать не одну основную, а несколько частот. С точки зрения физики наш голосовой тракт – не столько орган, сколько орган. В зависимости от диаметра составляющих его труб речь резонирует на разных частотах, их называют «формантные». На голосовых спектрограммах хорошо видны как минимум четыре формантные частоты, или форманты.


   Мы можем управлять лишь первыми двумя формантами, более высокие настраиваются самопроизвольно. Единственное исключение – звук «ы». Когда мы говорим его, то управляем сразу тремя формантами. Поэтому иностранцам, изучающим русский язык, «ы» не сразу даётся, они овладевают его произношением в последнюю очередь, ведь они привыкли манипулировать двумя формантами, а не тремя.
   Высокие форманты у людей индивидуальны. В семидесятые годы учёные начали распознавать человека по голосу, сравнивая высокие форманты на спектрограммах. В девяностые годы методика была автоматизирована. С развитием вычислительной техники росла и надёжность идентификации.


На спектрограммах двух голосов отчётливо видны первые четыре форманты
  

   А за последние 5 лет возникли ещё более точные методы, анализирующие не только резонансные частоты, но всю спектрограмму целиком. Здесь на первый план выходит математическая статистика. Из разных отрезков спектрограммы извлекают определённые речевые характеристики с такими диковинными названиями, как кепстральные коэффициенты и коэффициенты линейного предсказания. Они рассчитываются с интервалом порядка 20–30 миллисекунд – таким образом, набирается весьма обширная статистика. Обработав её и выразив акустическое распределение как сумму функций Гаусса с различными коэффициентами, речь можно превратить в набор числовых параметров. Какие-то из них зависят от канала связи, какие-то никак не характеризуют индивидуальность голоса. Чтобы выделить самые важные параметры, используют машину опорных векторов – математический аппарат, созданный ещё в советские годы Владимиром Вапником – кстати, в прошлом году он получил престижную медаль Франклина. Похожие методики помогают распознавать человека по лицу или радужной оболочке.
   Ясно, что надёжность идентификации зависит от чистоты записи. Сложности начинаются, когда уровень шума превышает уровень полезного сигнала. Кроме того, в закрытых помещениях сигнал многократно отражается от стен – такое умноженное эхо называют «реверберация», и в сильно реверберированных комнатах качество записи ниже. Большую роль играет длительность сигнала и эмоциональное состояние говорящего.
   Справка STRF.ru:
   Проект «Разработка комплекса аппаратно-программных средств автоматического распознавания естественной русской речи» получил государственную поддержку в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007–2013 годы». Объём бюджетного финансирования в 2009–2011 годах составил 24 миллиона рублей, внебюджетного – 10 миллионов рублей
   В Центре речевых технологий создали программное обеспечение для распознавания личности при разном уровне помех и искажений. Продукт оказался востребованным не только в обороне и криминалистике, но и в банковской сфере, причём кроме российских интерес проявили казахский и даже американский банки.
   Очевидно, что для перевода денежных средств идентификация по голосу всё же слишком ненадёжна, однако она служит хорошую службу для менее ответственных операций: например, вы можете получить справку о состоянии счёта по телефону, даже не называя парольного слова. Кроме того, по голосу можно сразу выявить мошенника, постоянно берущего кредиты под разными паспортами.
   Справка STRF.ru:
   Банки, использующие голосовую биометрию:
   – ABN Amro (Нидерланды). Сервис биометрической верификации по голосу прежде всего развернут для осуществления запросов остатка средств на счете, переводов и других операций по телефону. Клиент верифицируется по номеру счета и секретному вопросу. При телефонном обращении клиенту задаётся открытый вопрос «Как мы можем вам помочь?». Данный сервис не является обязательным для всех клиентов, опционален.
   – St George Bank (Австралия). Сервис изменения паролей для сотрудников.
   – Банк Leumi, ведущая финансовая группа Израиля. В контакт-центрах банка LeumiCall развернуты две системы верификации и идентификации клиентов по голосу. Клиентам не нужно больше отвечать на вопросы операторов колл-центра, кроме того, система голосовой идентификации применяется, как инструмент для определения мошенников в реальном времени. Система верификации клиента по голосу используется для изменения пароля в приложениях для интернет-банкинга.
   – Royal Canadian Bank (Королевский канадский банк). Голосовая биометрия применяется для предоставления доступа клиента в телефонном канале к услугам банка.
   – NAB National Australia Bank
   – Barclays
   Впрочем, в Европе уже действует система тримодального распознавание личности по лицу, голосу и местонахождению: можно получить доступ к счёту или аккаунту в соцсетях, сфотографировав себя на смартфон и произнеся в него несколько фраз.
   Вполне возможно, недалёк тот день, когда окончательно исчезнут бумажные паспорта и вся чиновничья волокита – имя человека можно будет буквально прочесть в его глазах или в звучании голоса. Хотя душу всё равно никак не оцифруешь. Так что иногда лучше всё-таки вслушиваться в слова.
   02.04.13 Σ Огнёв Алексей