Аварии в ЦОД — традиционно закрытая тема. Как правило, о сбоях и критических инцидентах становится известно только тогда, когда их уже невозможно скрыть. С одной стороны эта закрытость понятна — ее регулируют соглашения о конфиденциальности и жесткая конкуренция. С другой стороны данные об ошибках и сбоях помогают определять основные источники проблем и принимать превентивные меры для предотвращения аварий в будущем. Мы опираемся именно на эту позицию, поэтому расскажем и о рисках сбоев для бизнеса, и о защите слабых мест ЦОД.
Чем авария в ЦОД грозит бизнесу
В 2015 году журнал ЦОДы.РФ опросил полсотни компаний, чьи сервисы работали на серверах или в облаках корпоративных, коммерческих дата-центров. Предметом опроса стали сбои, аварии и потери, вызванные простоем сервисов. Результаты опроса показали следующее:
-
30% респондентов считают, что при аварии в ЦОД без ущерба для финансовых потоков и репутации их бизнес продержится до 1 суток;
-
63% заявили, что критическое время простоя для компании укладывается в диапазон от 30 минут до 2 часов;
-
остальные отметили, что способны работать без сервисов дата-центра в течение трех суток.
В то же время, вряд ли стоит мерить финансовые убытки временем простоя. В напряженный момент, например, при совершении сделок на рынке ценных бумаг, даже минутный сбой может стать критичным. Именно поэтому так много внимания уделяется показателю отказоустойчивости ЦОДа.
Интересно, что в структуре потерь прямые убытки занимают порядка 50%. Вторая половина — репутационные риски, штрафные санкции поставщиков и покупателей, упущенная выгода и пр.
Что ломается в ЦОД и что с этим делать
В структуре аварий в ЦОД самым «слабым звеном» считается электроснабжение. И дело не столько в отключениях, сколько в ошибках проектирования, монтажа и обслуживания. Например, ИБП могут сбоить при подключении к участку непрофильной нагрузки, например, переговорной с мощным кондиционером и кулером. Сюда же относится и несоблюдение протокола технического обслуживания системы ИБП, ошибки коммутации оборудования, некорректная заправка и эксплуатация ДГУ.
В GreenBushDC систему электроснабжения от сбоев защищает грамотно спроектированная энергосетевая инфраструктура. Еще на стадии проекта она была изучена и одобрена аудиторами, что подтверждает сертификат Tier III Uptime Institute. На случай аварийных ситуаций в ЦОД установлены 16 ДИБП по 1670 кВА каждый и 2 ДГУ мощностью 2500 кВА, а также использованы системы распределения электроэнергии на базе оборудования ABB. Системы зарезервированы по схеме N+1, что предполагает дублирование основных компонентов.
ДГУ
Системы охлаждения — еще одно «больное место» ЦОД. Теплоизоляцию труб чиллерной системы птицы растаскивают на гнезда, теплообменники забивает тополиный пух, внешние блоки кондиционеров зимой повреждаются падающими сосульками, а плохо очищенная вода забивает форсунки адиабатической системы охлаждения. Этим список проблем не исчерпывается, его можно продолжать и продолжать.
Теплопроводы хладоносителя на кровле
Для защиты систем охлаждения от возможных сбоев задействуются два уровня превентивных мер:
-
На уровне проектирования снижение рисков достигается грамотным резервированием систем охлаждения. В GreenBushDC это реализовано по схеме N+1 для блока А2 и N+1/N2 для блоков А1 и А3.
-
На уровне эксплуатации — только регулярным профилактическим обслуживания. По-другому никак: только постоянный, скрупулезный контроль всех элементов холодоснабжения позволяет вовремя обнаружить проблему и устранить ее до того, как она повлияет на работоспособность системы.
Человеческий фактор был и остается третьей по значимости причиной аварий в ЦОД. В структуре сбоев в дата-центрах Uptime Institute отводит ему 22%. Здесь, как и с охлаждением, проблему решает подробное документирование всех процедур и регулярное, всестороннее обучение персонала. Под обучением мы в GreenBushDC понимаем не только повышение квалификации и регулярный инструктаж по планам ликвидации аварийных ситуаций, но и обязательные тренировки, имитирующие критические сбои и инциденты. Такие тренировки помогают сотрудникам усвоить и отработать последовательность действий в аварийных условиях.
Мы рассказали только об основных рисках и базовых превентивных мерах. На самом деле их гораздо больше, поэтому в GreenBushDC на упреждение работает отдельная команда специалистов. Они оценивают текущие и потенциальные угрозы, разрабатывают и реализуют планы локализации аварий, отрабатывают программы реагирования на инциденты.