Самый южный дата-центр

На модерации Отложенный

Когда мы в разговоре слышим слово «юг», наше сознание непроизвольно рисует солнечные картины, соленый бриз, стаи морских птиц, пальмы. В этой статье пойдет разговор о самом южном дата центре в мире, но, несмотря на сезонное изобилие солнца, Вы не найдете здесь разгуливающих в бикини курортниц. При полярной станции Амундсена-Скота, что разместилась на 89 градусах 59 минутах и 24 секундах южной широты, для поддержания работы нейтринной обсерватории был создан и успешно функционирует дата-центр «Ледяной Куб» (Ice Cube data center). О задачах этого ИТ-узла и о тех условиях, в которых приходится поддерживать работоспособность оборудования, и пойдет речь далее в статье.



Центр обработки данных при лаборатории «Ледяной Куб» насчитывает в своем распоряжении более 1200 вычислительных ядер и около 3 петабайт памяти. Фактически весь вычислительный потенциал дата-центра направлен на обслуживание нужд нейтринной обсерватории, которая расположилась практически на самой южной точке нашей Земли. Нейтринные детекторы уложены рядами под более чем километром антарктического льда, и их задача — улавливать всплески нейтринного излучения, что приходит к нам из глубокого космоса отголосками масштабных деструктивных событий, помогая нам тем самым изучить как загадочную темную материю, так и собственно саму физику составных излучения — нейтрино.



Процесс запуска и поддержания рабочего состояния ИТ-инфраструктуры в одном из наиболее суровых и отдаленных мест на всей Земле ознаменовался целым рядом проблем и испытаний, с которыми ИТ-инженеры до этого времени еще просто не сталкивались.

Сам путь к полярной станции Амундсена-Скота по сложности можно сравнить с путешествием на другую планету: «Это мир, в котором доминируют лишь два цвета: белый и голубой», — говорит сотрудник станции Гитт. «Летом Вы ловите себя на мысли, что два часа дня тут длятся целыми сутками, что само по себе приносит новые и весьма интересные ощущения в Ваше восприятие обычного жизненного цикла человека», — говорит Барнет, коллега Гитта. В тоже время зима в здешних краях характеризуется затяжной ночью, которую освещают лишь Луна и редкое явление — красочные авроры (полярные сияния). 



Персонал


Всего на станции пребывает не более 150 человек, среди них ИТ-специалисты составляют лишь малую часть. Работа специалистов построена так, что большая их часть не зимует на станции, ИТ-команда WIPAC (Wisconsin IceCube Particle Astrophysics Center), которая обслуживает дата-центр, находится на участке земли, покрытом слоем льда толщиной в несколько километров, лишь в летние месяцы. За промежуток короткого полярного лета техники выполняют все намеченные планы, после чего покидают белый континент.



Остальную часть года управление инфраструктурой станции идет удаленно, из Висконсинского Университета. Та часть ИТ-команды, которая остается на зимовку, обычно подбирается не столько по своим интеллектуальным возможностям, сколько по физическим. «Главным навыком, который должен освоить зимующий сотрудник, это навык пользования спутниковым телефоном», — шутит Ральф Ауэр (Ralf Auer), администратор ИТ-оборудования полярной станции. «При возникновении внештатной ситуации наша задача состоит в том, чтобы собрать как можно больше информации и решить возникшую проблему дистанционно», — говорит уже без ухмылки Ральф.

«Зимующая команда отвечает за «железную» составную комплекса работ по поддержке оборудования дата-центра в рабочем состоянии, однако и рутинная ИТ работенка тоже их не обходит стороной», — говорит Барнет. Результатом такой отлаженной системы является то, что Ауэр, Барнет и другие члены команды получают на удалении от оборудования полное понимание того, что с ним происходит. После анализа ими данных зимующие члены команды получают четкие установки по тем действиям, которые им необходимо будет провести. «Все это можно сравнить с ситуацией, в которой опытные авиадиспетчеры из радиорубки управляли бы полетом самолета, на борту которого из команды остались лишь стюардессы», с иронией подмечает Барнет. Как следует из вышесказанного, для того, чтоб упростить и без того сложное пребывание сотрудников Университета в объятиях Антарктической зимы, основная работа по поддержанию дата-центра проводится на удалении, и осуществляется это посредством всех доступных каналов связи.

«Полярная станция может в экстренных случаях получить и дополнительную поддержку со стороны ИТ-специалистов, но эти люди уже не относятся к сотрудникам нашего университета. В летние пики активности университетских сотрудников на станции не более 5-8 человек, в зимний период не более 4-5», — говорит Гитт. — «Помощь может прийти со станции McMurdo, которая является основной базой поддержки полярной обсерватории. В пики летнего сезона на ней может быть до 35-40 ученных, задействованных в разного рода проектах», — продолжил Гитт.



Связь


Наиболее надежным каналом связи, доступным на таком удалении обсерватории от любой цивилизации, стал спутниковый интернет. Спутниковая сеть Iridium стала той связующей нитью, на которой повис столь тяжелый груз ответственности. Скорость передачи данных такого соединения составляет всего 2400 бит в секунду. Процесс передачи данных был предельно оптимизирован, на спутнике было зарезервировано максимальное количество подключений, в том числе и мультиплексные соединения с системой Iridium, а наилучшая методика сжатия пересылаемой информации минимизирует ее объем.



«Порою каналом связи для обмена данными с нашим полярным дата-центром служат обычные сани, которые крепятся к трактору. Бережно запакованные носители информации транспортируются на нашу базу поддержки», — говорит Гитт, неоднократно участвовавший в организации караванов обеспечения, что прокладываются по замороженному континенту.

Наиболее высокоскоростным выходом во всемирную сеть является система, предоставленная NASA — Tracking and Data Relay Satellite System (TDRSS). Скорость передачи данных в ней составляет 150 Мбит/с. Главная проблема этого канала связи состоит в его лишь частичной суточной доступности, которая составляет только 10 часов. Также размещенной на Южном полюсе станции на протяжении 8 часов бывает доступным бывший метеорологический спутник, запущенный еще в 1978 году, но его скорость передачи данных составляет всего 1 Мбит/с.



Физическая недоступность дата-центра


Доставка персонала на станцию и обеспечение жизнедеятельности персонала — это одна из наиболее сложных задач. «Специфика которую нам необходимо учитывать, — это то, что станция бывает закрыта, и более того, в силу климатических условий физически не доступна с марта по октябрь», — говорит Барнет. — «Любую работу, которую нам необходимо выполнить для корректного функционирования инфраструктуры, мы можем сделать только с ноября по январь. А это требует идеального планирования логистики. Поскольку даже полярным летом погодная составляющая всегда была решающей для тех мест, даже имея самый прекрасный план по оптимизации и разветвлению ИТ-инфраструктуры, Вы будете просиживать на стуле в ожидании окончания бурана, ведь необходимый груз Вам банально не могут доставить».

Разместившаяся на станции Амундсена-Скота обсерватория с обслуживающим ее дата-центром является финальной точкой маршрута снабжения длиной в 15000 км. Все, что пересылается на станцию из США поступает в Крайстчерч (Новая Зеландия), после чего загружается на борт авиасудна С-17, специально оборудованного для посадки на лед, которое держит путь на полярную станцию МакМёрдо. На станции оборудование перебрасывается на самолет LC-130, специально оборудованный лыжными шасси и ускорителем на ракетной тяге, и на нем уже и преодолеваются последние 1250 километров.



Следствием такого удаления дата-центра от цивилизации стала необходимость всегда иметь на складе хороший резерв запасных частей. «Если у Вас вышел из строя винчестер, либо перестала отвечать сетевая карта, гарантий того, что новую единицу Вам доставят с «большей земли» за неделю или две нет, именно поэтому резерв на станции для функционирования всей ИТ-инфраструктуры жизненно необходим», — особо отметил Барнет.

«Штатный срок доставки на нашу полярную станцию вышедшего из строя оборудования в летний сезон составляет 30 дней, но даже такие сроки далеко не всегда выходит соблюдать», — уточнил Барнет.

Проблема тепловыделения серверными стойками


Казалось бы, уж на полюсе проблем с охлаждением серверов быть не должно, но и тут не все слава Богу. Охлаждение в самом холодном месте Земли — это действительно большая проблема. «В таких суровых условиях Вы должны быть очень аккуратными, эксплуатируя систему отвода тепла от серверных стоек», — говорит Гитт. — «Забор холодного воздуха идет прямо из окружающей среды. Бывали такие дни, когда мы просто не могли открыть затворки вентиляционной системы, охлаждающей ЦОД системы, они целиком покрывались льдом. Другие ситуации могли вызвать перегрев оборудования, так как окружающая среда слишком сильно нагревалась, в то время как система кондиционирования воздуха предназначена для работы при куда более низких температурах».



«150 машин вырабатывает довольно много тепла, и чтоб избавится от него, Вы не можете просто открыть настежь дверь на улицу, от огромного перепада температуры оборудование за считаные минуты выйдет из строя».

Что б такого не случилось регулировка температуры в помещении дата-центра должна быть очень гибкой. Получить готовое решение системы вентиляции для таких широт было просто невозможно, много вещей конструкторы делали на свой страх и риск, а после того, как система была установлена, она еще неоднократно подвергалась доработке. Проблем возникало множество и на самых неожиданных направлениях. «После замены части серверов в стойках на более компактные, изменились потоки воздуха, которые охлаждают оборудование, как результат — нам пришлось несколько изменить расположение всех стоек», — упомянул Барнет. 

Чтоб получить в помещении +18 по Цельсию, когда снаружи может бушевать от -40 до -75, надо очень постараться. Команда «Ледяного Куба» управляет подачей воздуха в помещение с помощью контроля количества поступающего воздуха через воздухозаборник, который периодически замерзает, что создаёт большие проблемы для сотрудников дата-центра.



Антарктида — континент крайностей


Еще одной сложностью функционирования дата-центра в условиях полярной Антарктики стала влажность, а точнее ее отсутствие. Воздух на южном полюсе крайне сухой, низкая температура и удаленность базы почти на тысячу километров от ближайшего побережья и привели к такому эффекту. Пересушенный воздух мало того, что негативно влияет на людей, он также не всегда благоприятно воздействует и на оборудование. Для пленочных носителей информации сухой воздух стал настоящей катастрофой. После выхода из строя сетевого оборудования по причине чрезмерно интенсивного износа изоляционных частей плат было решено специально увлажнять воздух в некоторых помещениях. По отзывам сотрудников, которые дежурят на станции, это изменило ситуацию в лучшую сторону.

Еще одной проблемой дата-центра стало энергоснабжение. На южном полюсе нет электростанций, нет дублирующих линий электропередачи. Все, чем могут оперировать сотрудники полярного ЦОДа, — это два генератора, которые кроме запитывания дата-центра, питают всю базу, что, соответственно, несет дополнительные риски. Переключение между генераторами занимает время. И спрогнозировать это время довольно сложно.

Проблемы функционирования дата-центра на каждом шагу. О многом говорит хотя бы тот факт, что даже в летний сезон доступ к помещению дата-центра чисто физически не всегда возможен. Серверное помещение — это отдельное здание при полярной станции, и чтобы добраться от жилых модулей к нему, надо преодолеть небольшое расстояние по улице, а природные условия не всегда позволяют это сделать, и сотрудникам приходится ждать по несколько дней, пока погода улучшится. 



Но, несмотря на все те сложности, с которыми работающие на станции люди сталкиваются каждый день, а может даже и именно благодаря им, члены команды «Ледяной Куб» Ауер и Барнет думают, что их работа по обеспечению работоспособности самого южного дата-центра действительно классная. «Когда Вы говорите сведущему в ИТ человеку, что Вы собираетесь на южный полюс запускать дата-центр, в котором располагается около 150 серверов, при этом время безотказной работы последнего поддерживается на уровне 99.5%, — это просто здорово», — подытожил Ауер.