Аварии в ЦОД: насколько они критичны для бизнеса?

Аварии в ЦОД — традиционно закрытая тема. Как правило, о сбоях и критических инцидентах становится известно только тогда, когда их уже невозможно скрыть. С одной стороны эта закрытость понятна — ее регулируют соглашения о конфиденциальности и жесткая конкуренция. С другой стороны данные об ошибках и сбоях помогают определять основные источники проблем и принимать превентивные меры для предотвращения аварий в будущем. Мы опираемся именно на эту позицию, поэтому расскажем и о рисках сбоев для бизнеса, и о защите слабых мест ЦОД. 

Чем авария в ЦОД грозит бизнесу

В 2015 году журнал ЦОДы.РФ опросил полсотни компаний, чьи сервисы работали на серверах или в облаках корпоративных, коммерческих дата-центров. Предметом опроса стали сбои, аварии и потери, вызванные простоем сервисов. Результаты опроса показали следующее:

  • 30% респондентов считают, что при аварии в ЦОД без ущерба для финансовых потоков и репутации их бизнес продержится до 1 суток;

  • 63% заявили, что критическое время простоя для компании укладывается в диапазон от 30 минут до 2 часов;

  • остальные отметили, что способны работать без сервисов дата-центра в течение трех суток.

В то же время, вряд ли стоит мерить финансовые убытки временем простоя. В напряженный момент, например, при совершении сделок на рынке ценных бумаг, даже минутный сбой может стать критичным. Именно поэтому так много внимания уделяется показателю отказоустойчивости ЦОДа. 

Интересно, что в структуре потерь прямые убытки занимают порядка 50%. Вторая половина — репутационные риски, штрафные санкции поставщиков и покупателей, упущенная выгода и пр.

Что ломается в ЦОД и что с этим делать

В структуре аварий в ЦОД самым «слабым звеном» считается электроснабжение. И дело не столько в отключениях, сколько в ошибках проектирования, монтажа и обслуживания. Например, ИБП могут сбоить при подключении к участку непрофильной нагрузки, например, переговорной с мощным кондиционером и кулером. Сюда же относится и несоблюдение протокола технического обслуживания системы ИБП, ошибки коммутации оборудования, некорректная заправка и эксплуатация ДГУ. 

В GreenBushDC систему электроснабжения от сбоев защищает грамотно спроектированная энергосетевая инфраструктура. Еще на стадии проекта она была изучена и одобрена аудиторами, что подтверждает сертификат Tier III Uptime Institute. На случай аварийных ситуаций в ЦОД установлены 16 ДИБП по 1670 кВА каждый и 2 ДГУ мощностью 2500 кВА, а также использованы системы распределения электроэнергии на базе оборудования ABB. Системы зарезервированы по схеме N+1, что предполагает дублирование основных компонентов.

ДГУ в дата-центре

ДГУ

Системы охлаждения — еще одно «больное место» ЦОД. Теплоизоляцию труб чиллерной системы птицы растаскивают на гнезда, теплообменники забивает тополиный пух, внешние блоки кондиционеров зимой повреждаются падающими сосульками, а плохо очищенная вода забивает форсунки адиабатической системы охлаждения. Этим список проблем не исчерпывается, его можно продолжать и продолжать.

Теплопроводы хладоносителя на кровле

Теплопроводы хладоносителя на кровле

Для защиты систем охлаждения от возможных сбоев задействуются два уровня превентивных мер: 

  • На уровне проектирования снижение рисков достигается грамотным резервированием систем охлаждения. В GreenBushDC это реализовано по схеме N+1 для блока А2 и N+1/N2 для блоков А1 и А3

  • На уровне эксплуатации — только регулярным профилактическим обслуживания. По-другому никак: только постоянный, скрупулезный контроль всех элементов холодоснабжения позволяет вовремя обнаружить проблему и устранить ее до того, как она повлияет на работоспособность системы. 

Человеческий фактор был и остается третьей по значимости причиной аварий в ЦОД. В структуре сбоев в дата-центрах Uptime Institute отводит ему 22%. Здесь, как и с охлаждением, проблему решает подробное документирование всех процедур и регулярное, всестороннее обучение персонала. Под обучением мы в GreenBushDC понимаем не только повышение квалификации и регулярный инструктаж по планам ликвидации аварийных ситуаций, но и обязательные тренировки, имитирующие критические сбои и инциденты. Такие тренировки помогают сотрудникам усвоить и отработать последовательность действий в аварийных условиях. 

Мы рассказали только об основных рисках и базовых превентивных мерах. На самом деле их гораздо больше, поэтому в GreenBushDC на упреждение работает отдельная команда специалистов. Они оценивают текущие и потенциальные угрозы, разрабатывают и реализуют планы локализации аварий, отрабатывают программы реагирования на инциденты.

Поделиться:
Читать еще
О виртуализации ЦОДов и нюансах виртуальности 25.09.2020
Кратко об исторических предпосылках, современных технологиях и направлениях виртуализации дата-центров.
Читать подробнее
Может ли ЦОД устареть? 02.10.2020
О жизненном цикле ЦОДов, моральном, технологическом устаревании и модернизации вслед за мощностями и технологиями.
Читать подробнее
Основы монтажа серверного оборудования в стойку 09.10.2020
Полезные мелочи для организации пространства в серверной стойке: размещение основного оборудования, разводка кабельной системы, резерв.
Читать подробнее
Что, если в ЦОДе обрубят сеть? 16.10.2020
Рассматриваем гипотетический обрыв сети и другие форс-мажорные ситуации, при которых ЦОД переключается на автономный режим работы.
Читать подробнее
Когда и какому бизнесу нужен VDI 23.10.2020
Разбираемся с VDI — одной из технологий виртуализации рабочих мест. Рассказываем о достоинствах, недостатках и экономике внедрения для малого, среднего и крупного бизнеса.
Читать подробнее
Базовый чек-лист обслуживания серверов 30.10.2020
Перечисляем основные операции в составе регламента обслуживания серверного оборудования и даем чек-лист, по которому можно составить свой список работ.
Читать подробнее
контакты компании
Адрес компании
г. Москва, г. Зеленоград, Проезд №683, д. 8
Поддержка 24\7
8 800 350 15 00
ПОЧТИ готово!
Спасибо, данные вашего заказа будут переданы в отдел продаж.
После чего ожидайте звонка вашего личного менеджера.
* Поля, обязательные к заполнению.