Výpadek služeb v datacentru Tower - 12.08.2019

Dne 12.08.2019 v odpoledních hodinách došlo k výpadku všech serverů, které jsou umístěné v datovém centru Tower Českých Radiokomunikací.

Začátek výpadku: 17:34
Konec výpadku: 18:05
Celková doba: 31 minut

Ovlivněné služby:

Výpadek postihl všechny naše služby, které jsou umístěné v datovém centru Tower.

Všechny služby, které provozujeme v naší druhé lokalitě, bežely bez problémů dál.

Příčina výpadku:

V datovém centru došlo ke kompletnímu výpadku obou napájecích větví na jednom ze sálů. Nejednalo se o sál, kde jsou umístěné naše technologie. Bohužel přes tento sál vedou všechny propoje, které nás připojují k internetu. Výpadek napájení tedy ovlivnil switche a další technologie, které jsou potřebné k zajištení dostupnosti našich služeb.

Důsledky výpadku:

Vyjma nedostupnosti služeb, které jsou u nás provozovány, nedošlo k žádné ztrátě ani k poškození dat nebo technologií našich zákazníků. Žádná data jsme nemuseli obnovovat ze záloh a všechny služby naběhly bez problémů automaticky.

Informace, které jsme doposud dostali:

Dne 12.8. 2019 došlo v čase 17:34-18:05 k výpadku napájení IT technologií na jednom ze sálů datového centra DC Tower. Nejednalo se o celkový výpadek datového centra. Napájení dalších sálů bylo zcela bez problémů. Výpadek neměl dopad na chod chladících technologií konkrétního sálu.

Příčinou výpadku napájení IT technologií bylo současné selhání automatů pro přepínání mezi zálohovanou a nezálohovanou sítí pro daný sál v NN rozvodně. V důsledku tohoto výpadku došlo k přechodu na provoz z UPS. Ihned po identifikaci výpadku došlo k manuálnímu restartu obou problematických automatů a obnově napájení.

Zpožděná identifikace problému byla způsobena probíhajícími pracemi na upgrade monitorovacích systémů, tyto byly dočasně přerušeny a pracovníci datového centra nyní spolu s dodavateli inkriminovaných automatů zjišťují příčiny současného selhání a možnosti prevence opakování takovéhoto incidentu. V rámci revize dojde ke komplexní kontrole všech dalších prvků napájení v datovém centru.

Provoz datového centra je od incidentu bez jakýchkoli problémů. O zjištěných příčinách i nápravných opatřeních budeme zákazníky průběžně informovat.

Update - tisková zpráva na webu ČRA:

https://www.cra.cz/vyjadreni-k-vypadku-napajeni-it-technologii-na-sale-dc1

Naše infrastruktura

Dlouhodobě investujeme do infrastruktury tak, abychom mohli poskytovat služby s minimem výpadků. Využíváme pouze servery a switche, které mají 2 redundantní napájecí zdroje. Oba zdroje vždy zapojujeme do dvou (A+B) větví, které by měly být na sobě nezávislé. Pro zapojení serverů využíváme barevně rozlišené kabely, tak aby byl i opticky viditelný případný nedostatek.

Datové centrum Tower jsme si vybrali kvůli jeho lokalitě a faktu, že byli bez výpadku napájení od roku 1992. V rámci smlouvy máme garantované dostupné napájení vždy alespoň z jedné napájecí větve.

Každý výpadek nás mrzí. Bohužel občas nastanou situace jako je tato, které i přes naší maximální snahu nemůžeme ovlivnit.