Weiterbildung, CAS Cybersecurity

Datacenter Resilienz

18. November 2021

Eine funktionierende IT-Infrastruktur ist für den Betrieb eines Unternehmens essenziell. Je nach Ausfalldauer und Branche kann ein Systemunterbruch verheerende Folgen mit sich ziehen. Dieser reicht von finanziellen Verlusten bis hin zu Personenschäden. Unabhängig davon, ob die IT-Infrastruktur in der Cloud oder On-Premise betrieben wird, das Datacenter ist die physikalische Basis beider. Es muss hochverfügbar, resilient und gegen jegliche Störgrössen abgesichert sein. 
  
Begriffsdefinition 
  
Redundanz – bezieht sich auf den Umfang der Backup-Ausrüstung eines Rechenzentrums, die bei einem Ausfall der primären Ausrüstung oder Infrastruktur einspringen kann. 
  
Resilienz – bezieht sich auf die Fähigkeit eines Rechenzentrums, den Betrieb fortzusetzen, wenn es zu einer Störung des Normalbetriebs gekommen ist. 
  
Redundanz und Resilienz befassen sich mit dem gleichen Thema. Der Hauptunterschied besteht darin, dass es bei einer Redundanz um die Kapazität bestimmter Ressourcen geht, während die Resilienz bedeutet «die Fähigkeit zu haben, schnell wieder auf die Beine zu kommen». 
 
Die Ausfallsicherheit von Rechenzentren ist ein geplanter Teil der Architektur einer Einrichtung und wird in der Regel mit anderen Überlegungen zur Katastrophenplanung und Wiederherstellung von Rechenzentren, wie z. B. dem Datenschutz und der Verfügbarkeit in Verbindung gebracht. 
  
  
Redundanz als N ausgedrückt 
  
N – ist eine Masseinheit, die die Anzahl der Redundanzgeräte angibt, die für den Betrieb eines Rechenzentrums erforderlich sind. Wenn ein Rechenzentrum beispielsweise mit der Leistung eines Generators betrieben werden könnte, ist ein Generator ein N. 
  
Einige gängige Beispiele für N sind: 
  
N = Die Mindestausstattung, die benötigt wird, um das Rechenzentrum am Laufen zu halten 
  
N+1 = Die für den Betrieb des Rechenzentrums erforderliche Ausrüstung und eine zusätzliche Ausrüstung 
  
2xN = Das Doppelte der Mindestausstattung, die für den Betrieb des Rechenzentrums erforderlich ist 
  
Je höher N ist, desto widerstandsfähiger ist ein Rechenzentrum, da es die Anzahl der Geräte erhöht, die ausfallen können, bevor das Rechenzentrum seinen Betrieb einschränken muss. 
  
Beispiele für die Redundanz und Ausfallsicherheit in einem Rechenzentrum sind: 
  
Die Stromversorgung – kann einfach in Kombination mit einer USV (Batterie oder No-Break-Systeme) aufgebaut (N) oder mittels zwei voneinander getrennter Stromkreise mit unterschiedlichen Netzeinspeisungen (2 x N) ausgeführt sein oder beides in Kombination (2 x N+1). 
  
Die Kühlung – Unabhängig von der Kühlmethode – ob es sich um Klimaanlagen, Umluftkühler oder Wasserkühlkreise handelt – kann hier die Kühlung in N ausgedrückt werden. 
  
Die Konnektivität – Ein Rechenzentrum sollte immer über mehrere physikalische Datenleitungszugänge (Trassen) verfügen, die geographisch aus unterschiedlichen Richtungen an das Rechenzentrum herangeführt werden. 
 
Resilienzsteigerung durch Massnahmen-Kombination  
 
Um die Resilienz im Brandschutz zu verbessern, sollten sowohl technische wie organisatorische Massnahmen in Kombination ergriffen werden.  
Eine Kombination z. B. von Sauerstoffreduktion auf 17.5% in den Technikräumen, als technische Massnahme, in Kombination mit der Platzierung der IT-Systeme in verschieden Brandabschnitten, wirkt sich direkt auf die Resilienz aus. 
  
Dies sind nur einige wenige technische Massnahmen, die helfen die Resilienz einer Rechenzentrumsinfrastruktur zu verbessern. Darüber hinaus gibt es nicht-technische Massnahmen die sich ebenfalls auf die Resilienz auswirken. 
  
Wahl des RZ Standorts als Resilienz-Faktor 
 
Die Wahl eines Rechenzentrumsstandorts hat direkten Einfluss auf die Resilienz und sollte genau geprüft werden. Ein falsch gewählter Standort mit seinem Risikoprofil kann nicht oder nur ungenügend durch mehr Redundanz kompensiert werden. 
 
Um das Standort-Risikoprofil festlegen zu können, müssen folgende Punkte genauer betrachtet und berücksichtig werden: 
– Topologische Gefahren (Verwerfungen, Erdrutschgebiete, Bodenbeschaffenheit, etc.) 
– Gefahrenkarten von Extremereignissen (z. B. Hochwasser-, Erdbebenzonen, Staudamm-Flutungs-Bereiche, Waldbrandgefahren etc.) 
– Veränderliche Gefahrenzonen (z. B. Flughafen-An-/Abflugschneisen, Chemie-Fabriken, Tanklager, Gefahrengüter-Bahnlinien, Autobahn) 
– Demographische und politische Lage (z. B. Anschläge, Plünderungen, Sabotage, Armut etc.) 
  
Fazit 
Je höher die Resilienz und Redundanz eines Rechenzentrums, desto besser ist ein Unternehmen gegen allfällige Systemausfälle geschützt. Auch wenn die Cloud in aller Munde ist, ist es ratsam, dass der Cloud-Betreiber sowie dessen Standort genaustens geprüft und dies bei der Risikobeurteilung berücksichtigt wird. 
 
Ein einzelnes Rechenzentrum oder einer Single-Cloud-Strategie ist definitiv nicht zu empfehlen. Bei einer On-Premise-Lösung kann ein detailliertes Schema über die Infrastruktur erstellt werden. Dies gestaltet sich in der Cloud komplizierter. 
 
 
 
Links 
TechTarget, Stephen J. Bigelow, Senior Technology Editor ( Februar 2012) 
https://searchdatacenter.techtarget.com/definition/resiliency 
 
4D, Sam Yearley, (16. Juli 2020) https://www.4d-dc.com/insight/the-difference-between-data-centre-redundancy-and-resilience 
 
Opengear, Lynn Beighle, (16. Dezember 2020) https://opengear.com/network-resilience-the-key-to-uptime-in-the-data-center/ 
 
Datacenter Frontier, Voices of the Industry (7. November 2019)  
https://datacenterfrontier.com/data-center-resilience-best-practices/ 
 
 
Autorenteam: 
Thomas Hitz, Bank Vontobel AG (linkedin.com/in/thomas-hitz-1a2783202
Florian Emmerich, Reha Rheinfelden (linkedin.com/in/florian-emmerich-12792290)
 

zurück zu allen Beiträgen
×