Круглосуточно 8 800 350 15 00

Аварии в ЦОД: насколько они критичны для бизнеса?

Аварии в ЦОД — традиционно закрытая тема. Как правило, о сбоях и критических инцидентах становится известно только тогда, когда их уже невозможно скрыть. С одной стороны эта закрытость понятна — ее регулируют соглашения о конфиденциальности и жесткая конкуренция. С другой стороны данные об ошибках и сбоях помогают определять основные источники проблем и принимать превентивные меры для предотвращения аварий в будущем. Мы опираемся именно на эту позицию, поэтому расскажем и о рисках сбоев для бизнеса, и о защите слабых мест ЦОД. 

Чем авария в ЦОД грозит бизнесу

В 2015 году журнал ЦОДы.РФ опросил полсотни компаний, чьи сервисы работали на серверах или в облаках корпоративных, коммерческих дата-центров. Предметом опроса стали сбои, аварии и потери, вызванные простоем сервисов. Результаты опроса показали следующее:

  • 30% респондентов считают, что при аварии в ЦОД без ущерба для финансовых потоков и репутации их бизнес продержится до 1 суток;

  • 63% заявили, что критическое время простоя для компании укладывается в диапазон от 30 минут до 2 часов;

  • остальные отметили, что способны работать без сервисов дата-центра в течение трех суток.

В то же время, вряд ли стоит мерить финансовые убытки временем простоя. В напряженный момент, например, при совершении сделок на рынке ценных бумаг, даже минутный сбой может стать критичным. Именно поэтому так много внимания уделяется показателю отказоустойчивости ЦОДа. 

Интересно, что в структуре потерь прямые убытки занимают порядка 50%. Вторая половина — репутационные риски, штрафные санкции поставщиков и покупателей, упущенная выгода и пр.

Что ломается в ЦОД и что с этим делать

В структуре аварий в ЦОД самым «слабым звеном» считается электроснабжение. И дело не столько в отключениях, сколько в ошибках проектирования, монтажа и обслуживания. Например, ИБП могут сбоить при подключении к участку непрофильной нагрузки, например, переговорной с мощным кондиционером и кулером. Сюда же относится и несоблюдение протокола технического обслуживания системы ИБП, ошибки коммутации оборудования, некорректная заправка и эксплуатация ДГУ. 

В GreenBushDC систему электроснабжения от сбоев защищает грамотно спроектированная энергосетевая инфраструктура. Еще на стадии проекта она была изучена и одобрена аудиторами, что подтверждает сертификат Tier III Uptime Institute. На случай аварийных ситуаций в ЦОД установлены 16 ДИБП по 1670 кВА каждый и 2 ДГУ мощностью 2500 кВА, а также использованы системы распределения электроэнергии на базе оборудования ABB. Системы зарезервированы по схеме N+1, что предполагает дублирование основных компонентов.

ДГУ в дата-центре

ДГУ

Системы охлаждения — еще одно «больное место» ЦОД. Теплоизоляцию труб чиллерной системы птицы растаскивают на гнезда, теплообменники забивает тополиный пух, внешние блоки кондиционеров зимой повреждаются падающими сосульками, а плохо очищенная вода забивает форсунки адиабатической системы охлаждения. Этим список проблем не исчерпывается, его можно продолжать и продолжать.

Теплопроводы хладоносителя на кровле

Теплопроводы хладоносителя на кровле

Для защиты систем охлаждения от возможных сбоев задействуются два уровня превентивных мер: 

  • На уровне проектирования снижение рисков достигается грамотным резервированием систем охлаждения. В GreenBushDC это реализовано по схеме N+1 для блока А2 и N+1/N2 для блоков А1 и А3

  • На уровне эксплуатации — только регулярным профилактическим обслуживания. По-другому никак: только постоянный, скрупулезный контроль всех элементов холодоснабжения позволяет вовремя обнаружить проблему и устранить ее до того, как она повлияет на работоспособность системы. 

Человеческий фактор был и остается третьей по значимости причиной аварий в ЦОД. В структуре сбоев в дата-центрах Uptime Institute отводит ему 22%. Здесь, как и с охлаждением, проблему решает подробное документирование всех процедур и регулярное, всестороннее обучение персонала. Под обучением мы в GreenBushDC понимаем не только повышение квалификации и регулярный инструктаж по планам ликвидации аварийных ситуаций, но и обязательные тренировки, имитирующие критические сбои и инциденты. Такие тренировки помогают сотрудникам усвоить и отработать последовательность действий в аварийных условиях. 

Мы рассказали только об основных рисках и базовых превентивных мерах. На самом деле их гораздо больше, поэтому в GreenBushDC на упреждение работает отдельная команда специалистов. Они оценивают текущие и потенциальные угрозы, разрабатывают и реализуют планы локализации аварий, отрабатывают программы реагирования на инциденты.

Поделиться:
Читать еще
Защищенность ЦОДов: физическая и юридическая 31.01.2020
Чтобы защитить от юридических и физических рисков самое ценное, что есть у бизнеса — информацию — дата-центр берет на себя основные вопросы безопасности. Как это реализуется на практике — расскажем на примере GreenBushDC.
Читать подробнее
Риск-менеджмент в дата-центре 24.01.2020
Отказоустойчивый надежный дата-центр обеспечивает не только бесперебойную стабильную работу IT-систем, но и заботится о предупреждении правовых рисков. В нашем перечне их 5, но список открытый: в любой момент обстоятельства могут измениться, и дата-центру потребуется оперативно решать вопросы поддержки бесперебойного функционирования ЦОД  на фоне новых кризисных факторов.
Читать подробнее
Почему лучше использовать дата-центр, а не собственную серверную? 17.01.2020
Почему лучше использовать дата-центр, а не собственную серверную? Потому же, почему владельцы ВАЗ-2101 со временем меняют «копейку» на LADA, ŠKODA, Toyota или Ford: безопасности больше, капитальных затрат меньше, а еще нет необходимости постоянно держать все под контролем и заботиться о мелочах. Но не будем расписывать все нюансы, ограничимся основными преимуществами дата-центра.  
Читать подробнее
ПОЧТИ готово!
Спасибо, данные вашего заказа будут переданы в отдел продаж.
После чего ожидайте звонка вашего личного менеджера.
* Поля, обязательные к заполнению.