Аварии в ЦОД: насколько они критичны для бизнеса?

Аварии в ЦОД — традиционно закрытая тема. Как правило, о сбоях и критических инцидентах становится известно только тогда, когда их уже невозможно скрыть. С одной стороны эта закрытость понятна — ее регулируют соглашения о конфиденциальности и жесткая конкуренция. С другой стороны данные об ошибках и сбоях помогают определять основные источники проблем и принимать превентивные меры для предотвращения аварий в будущем. Мы опираемся именно на эту позицию, поэтому расскажем и о рисках сбоев для бизнеса, и о защите слабых мест ЦОД. 

Чем авария в ЦОД грозит бизнесу

В 2015 году журнал ЦОДы.РФ опросил полсотни компаний, чьи сервисы работали на серверах или в облаках корпоративных, коммерческих дата-центров. Предметом опроса стали сбои, аварии и потери, вызванные простоем сервисов. Результаты опроса показали следующее:

  • 30% респондентов считают, что при аварии в ЦОД без ущерба для финансовых потоков и репутации их бизнес продержится до 1 суток;

  • 63% заявили, что критическое время простоя для компании укладывается в диапазон от 30 минут до 2 часов;

  • остальные отметили, что способны работать без сервисов дата-центра в течение трех суток.

В то же время, вряд ли стоит мерить финансовые убытки временем простоя. В напряженный момент, например, при совершении сделок на рынке ценных бумаг, даже минутный сбой может стать критичным. Именно поэтому так много внимания уделяется показателю отказоустойчивости ЦОДа. 

Интересно, что в структуре потерь прямые убытки занимают порядка 50%. Вторая половина — репутационные риски, штрафные санкции поставщиков и покупателей, упущенная выгода и пр.

Что ломается в ЦОД и что с этим делать

В структуре аварий в ЦОД самым «слабым звеном» считается электроснабжение. И дело не столько в отключениях, сколько в ошибках проектирования, монтажа и обслуживания. Например, ИБП могут сбоить при подключении к участку непрофильной нагрузки, например, переговорной с мощным кондиционером и кулером. Сюда же относится и несоблюдение протокола технического обслуживания системы ИБП, ошибки коммутации оборудования, некорректная заправка и эксплуатация ДГУ. 

В GreenBushDC систему электроснабжения от сбоев защищает грамотно спроектированная энергосетевая инфраструктура. Еще на стадии проекта она была изучена и одобрена аудиторами, что подтверждает сертификат Tier III Uptime Institute. На случай аварийных ситуаций в ЦОД установлены 16 ДИБП по 1670 кВА каждый и 2 ДГУ мощностью 2500 кВА, а также использованы системы распределения электроэнергии на базе оборудования ABB. Системы зарезервированы по схеме N+1, что предполагает дублирование основных компонентов.

ДГУ в дата-центре

ДГУ

Системы охлаждения — еще одно «больное место» ЦОД. Теплоизоляцию труб чиллерной системы птицы растаскивают на гнезда, теплообменники забивает тополиный пух, внешние блоки кондиционеров зимой повреждаются падающими сосульками, а плохо очищенная вода забивает форсунки адиабатической системы охлаждения. Этим список проблем не исчерпывается, его можно продолжать и продолжать.

Теплопроводы хладоносителя на кровле

Теплопроводы хладоносителя на кровле

Для защиты систем охлаждения от возможных сбоев задействуются два уровня превентивных мер: 

  • На уровне проектирования снижение рисков достигается грамотным резервированием систем охлаждения. В GreenBushDC это реализовано по схеме N+1 для блока А2 и N+1/N2 для блоков А1 и А3

  • На уровне эксплуатации — только регулярным профилактическим обслуживания. По-другому никак: только постоянный, скрупулезный контроль всех элементов холодоснабжения позволяет вовремя обнаружить проблему и устранить ее до того, как она повлияет на работоспособность системы. 

Человеческий фактор был и остается третьей по значимости причиной аварий в ЦОД. В структуре сбоев в дата-центрах Uptime Institute отводит ему 22%. Здесь, как и с охлаждением, проблему решает подробное документирование всех процедур и регулярное, всестороннее обучение персонала. Под обучением мы в GreenBushDC понимаем не только повышение квалификации и регулярный инструктаж по планам ликвидации аварийных ситуаций, но и обязательные тренировки, имитирующие критические сбои и инциденты. Такие тренировки помогают сотрудникам усвоить и отработать последовательность действий в аварийных условиях. 

Мы рассказали только об основных рисках и базовых превентивных мерах. На самом деле их гораздо больше, поэтому в GreenBushDC на упреждение работает отдельная команда специалистов. Они оценивают текущие и потенциальные угрозы, разрабатывают и реализуют планы локализации аварий, отрабатывают программы реагирования на инциденты.

Читать еще
Как разобраться с логированием: гайд для начинающих 25.06.2021
Зачем оно нужно, это логирование и как упростить процесс сбора, анализа и хранения логов.
Читать подробнее
Когда нужен внешний аудит информационной безопасности 09.07.2021
Про объекты, результаты и периодичность внешнего аудита информационной безопасности для операторов ПДн, объектов критической информационной инфраструктуры, субъектов НПС и других компаний.
Читать подробнее
Что такое тикет-система и как она применяется в ЦОД 16.07.2021
Чем тикет-система лучше телефонной поддержки и как ЦОД использует тикеты для улучшения работы.
Читать подробнее
Аварии в ЦОД и как их избежать 23.07.2021
Про экстраординарные форс-мажоры ЦОД на примере аварии дата-центра «Курчатовский» и меры защиты от основных глобальных рисков
Читать подробнее
Введение нового порядка госаккредитации ИТ-компаний в РФ 30.07.2021
Как изменится госаккредитация ИТ-компаний с 1 августа 2021 года? Делаем обзор изменений и нововведений.
Читать подробнее
В GreenBushDC началось строительство нового модуля А1 23.08.2024
В Центре обработки данных стартовало строительство модуля А1, который предоставит клиентам больше возможностей для масштабирования и оптимизации их ИТ-инфраструктуры.
Читать подробнее
Оставить заявку
После отправки заявки ожидайте звонка нашего менеджера.
* Поля, обязательные к заполнению.
Спасибо!
Данные вашего заказа будут переданы в отдел продаж.
После чего ожидайте звонка вашего личного менеджера.
контакты компании
Адрес компании
124460, Москва, Зеленоград, ул. Конструктора Лукина, д. 14А, офис 501
Поддержка 24/7
8 495 784 60 80
ПОЧТИ готово!
Спасибо, данные вашего заказа будут переданы в отдел продаж.
После чего ожидайте звонка вашего личного менеджера.
* Поля, обязательные к заполнению.