Если люди начнут писать адреса сайтов на «языках народов мира» — Всемирная сеть будет уничтожена

На модерации Отложенный

Самым распространенным в мире языком является вовсе не английский, занимающий лишь третью позицию по числу тех, для кого он (формально) является родным. Первое место с большим отрывом (15% всего населения Земли!) занимает китайский, второе — испанский. Четвертое место, как и первое, занимает также неевропейский язык — бенгали, относящийся к индийской группе индоевропейской языковой семьи.

Коли речь заходит об Интернете, то картина, естественно, сильно меняется: ясно, что бенгали, на котором говорит многочисленное, но бедное население Бангладеш, окажется где-то на последних местах по количеству говорящих на нем пользователей. Но и здесь монополия европейских языков далеко не абсолютная. Английский в Сети, безусловно, доминирует — примерно с троекратным отрывом от второй позиции, однако ее занимают все те же китайцы, а на третьем месте — японцы. Шестое место у корейцев, девятое — у русского языка, и в сумме число носителей неевропейских (т.е. основанных не на латинице) языков среди пользователей Интернета из первой десятки рейтинга всего вполовину меньше, чем число говорящих на европейских языках.

Да и с последними, когда речь заходит о письменном общении, тоже не все однозначно — только в немецком, занимающем пятую позицию рейтинга, имеются четыре буквы, отсутствующие в стандартной латинице (это т.н. умляуты). Еще больше отсутствующих на стандартной клавиатуре символов, например, во французском, испанском или итальянском языках (это обычные латинские буквы, но со специальными диакритическими знаками).

Интернет-адреса сайтов — правильнее их называть доменными именами — традиционно пишутся на английском варианте латиницы, где все эти умляуты и диакритические знаки отсутствуют. Исторически это обусловлено тем, что базовым языком для программистов был и остается английский (и, видимо, останется еще надолго, если не навсегда, — национальные языки программирования попросту никому не нужны); кроме того, использование 26 английских букв является действительно самым, вероятно, простым вариантом из возможных. Для отображения базового английского алфавита достаточно сопоставить каждой букве (плюс некоторое количество необходимых знаков вроде плюса, точки или дефиса) число размером в один байт — универсальную и компактную единицу информации. Чтобы ввести символы европейских языков и кириллицу, китайские и японские иероглифы и символы таких языков, как, к примеру, арабский или иврит, требуется уже как минимум по два байта на каждый символ.

Сама по себе эта операция особой сложности не представляет — универсальные языковые кодировки под названием Unicode, где можно вперемешку использовать буквы любых алфавитов, давно стандартизированы, каждый компьютерный пользователь с ними сталкивается, например, когда набирает многоязычный текст в Microsoft Word. Осталось только «научить» разбирать национальные адреса программы — и те, что Интернетом управляют, и те, что применяются пользователями для доступа, т.н. браузеры, самый известный из которых — Internet Explorer. Все они, включая и, например, почтовые программы вроде Outlook, пока настроены на отображение доменных имен в базовой латинице. Эта проблема решаема, хотя и тут могут быть сложности, к чему мы еще вернемся.

Для европейских пользователей разбор адресов на латинице не представляет трудностей — любой в нашей стране худо-бедно разберет даже такую неудобоваримую конструкцию, как spravochnikpokormleniukoshek.ru. А вот для китайцев, японцев, арабов, турок, армян, грузин (список легко продолжить) все адреса на латинице будут представлять ничего не значащий набор значков. И для пользования Интернетом им придется еще и специально зубрить английский алфавит. Да и многим европейцам обидно — если название Чехии пишется как Cesko, то с какой стати ее жители должны коверкать родной язык, заменяя в интернет-адресах первую букву на обычное «С»?

Все сказанное и есть аргументы тех, кто ратует за интернационализацию системы интернет-адресов. Обсуждаться проблема на официальном уровне (в недрах ICANN — международной организации, осуществляющей контроль за использованием доменных имен) стала еще в 1999 году, когда была создана рабочая группа для создания стандарта многоязычных доменных имен — International Domain Name, IDN.

И еще пару лет назад казалось, что проблема совсем близка к решению, но на этом пути неожиданно встал ряд трудностей совсем не технического плана.

Технически регистрация национальных доменов возможна уже прямо сейчас, по крайней мере, частично — с сохранением латинского написания для домена первого уровня. Таковых существует две разновидности: национальные домены (для России это RU), совпадающие с двухбуквенными обозначениями стран, согласно стандарту Международной организации по стандартизации ISO (с некоторыми исключениями), и т.н. домены общего пользования (.COM, .ORG, .INFO, .NET и пр.). Зарегистрировать интернет-адрес вида «компания.com» в таком половинчатом формате можно уже давно — главный управляющий домена .COM, американская компания VeriSign, лет шесть как предлагает такой сервис.

Но официальной «отмашки» от ICANN до сих пор нет. В октябре было запущено тестирование механизма регистрации доменов на 11 языках, в том числе на русском, и было обещано, что официальный стандарт будет утвержден в начале 2008 года. Но недавно официальные лица ICANN сменили тон на пессимистичный и заговорили о том, что появление соответствующих стандартов, возможно, отложится еще на год-другой. В зоне .RU регистрация русскоязычных адресов также приостановлена. В чем же дело?

Во-первых, половинчатое решение попросту неудобно на практике: для набора имени типа «фирма.com» приходится переключать раскладку с русской на английскую. Во-вторых, без специального модуля распознавания национальных адресов, как было уже сказано, не будут работать программы доступа в Интернет (и, вероятно, они даже не смогут правильно отобразить такой адрес). Добровольно такие модули (а они давно имеются для всех популярных программ), очевидно, будет устанавливать лишь малая часть пользователей, а в отсутствие официального стандарта навязать их (т.е. включать в базовую поставку) решилась пока только одна Microsoft, да и то только в новом браузере Internet Explorer 7, который входит в Vista и начал занимать заметную часть рынка (в России — около 14%) лишь в последние месяцы. По этим причинам услуга по регистрации «половинчатых» доменов так и не стала популярной.

И российские регистраторы (не единодушно, но большинством голосов) решили подождать, пока не появится официальная возможность регистрировать полноценные национальные адреса, в которых домен первого уровня также будет русскоязычным. Для этого сначала хотели выбрать сочетание .РУ, но потом выяснили, что это совпадает с английским написанием домена Парагвая (.PY), и, очевидно, будет выбран вариант .РФ.

Но какой бы вариант ни заработал на практике, появление национальных доменов сопровождается кучей проблем. Вот только некоторые из них.

Одна из главных проблем, которая сама по себе была осознана давно, — проблема смешения английских и кириллических символов, сходных по написанию. Это золотое дно для мошенников: введите в адрес какого-нибудь банка bank.ru вместо латинского «a» русское и вы получите внешне неотличимый, но совсем другой адрес, по которому можно расположить идентичный по виду сайт и выманивать номера кредиток или просто деньги (такой способ мошенничества называется фишингом — от английского «рыбалка»).

Причем выход, заключающийся в том, что смешение разноязычных символов в одном имени не допускается (а именно такое правило было принято Координационным советом домена .RU и поддержано ICANN), полностью проблемы не решает. Есть немало слов, которые полностью или практически полностью совпадают по написанию: например, никто не мешает зарегистрировать поддельный сайт знаменитой компании Yahoo! в виде www.УАНОО.com, где русская буква «н» в верхнем регистре неотличима от английского «h».

Еще одна проблема — сейчас существует очень мало шрифтов, которые полностью охватывали хотя бы только самые распространенные языки. Это естественно — россиянину или украинцу вряд ли понадобится писать на иврите или на корейском. И если проблема с отображением национальных доменов на таких языках еще худо-бедно решается, то набрать адрес на клавиатуре (написать, скажем, письмо в Китай или в Японию) может оказаться попросту невозможно: никто не будет «на всякий случай» устанавливать поддержку десятков всевозможных языков. Да и то — вы не в курсе, как китайцы справляются с набором на обычной клавиатуре тысяч своих иероглифов? Если не в курсе, то скажу только, что этому специально надо учиться.

Все эти проблемы плавно перетекают в одну, хотя и не технического плана, но зато, возможно, самую серьезную — есть обоснованные опасения, что внедрение доменных имен на национальных языках приведет к постепенной изоляции отдельных регионов, выпадению их из Всемирной сети и замыканию «на себя». Сейчас я могу просматривать даже японоязычные сайты, потому что адрес, к примеру, sony.jp сразу мне говорит о том, что он принадлежит компании Sony, а остальное можно понять по картинкам. Но название Sony по-японски мне не скажет ничего, равно как и японцу русское название «Газпром» или «Кремль».

И у нас, и в других странах, впрочем, есть немало изоляционистов, полагающих, что контроль над национальными адресами вообще надо вывести из ведомства ICANN — что фактически означает прекращение их поддержки на всемирном уровне и распад Всемирной паутины на вотчины отдельных национально озабоченных паучков. Семимильными шагами движется к такому сценарию Китай, практически отказавшийся от сотрудничества с ICANN и еще весной 2006-го дополнивший международную систему доменных имен собственными разработками (в частности, введен ряд новых доменов первого уровня, на которые можно попасть только с территории Поднебесной, поддерживаются и адреса в иероглифическом написании). Вам нравится? Мне не очень.