Für Krisen: RZ-Betrieb remote organisieren

Unser Experte Dr. Rainer Weidmann erklärt im Interview, wie ein personalminimierter Betrieb von Rechenzentren gelingt und worauf Unternehmen beim Remote-Betrieb achten sollten.

Detecon: Rainer, was müssen Unternehmen tun, damit der Betrieb ihrer Rechenzentren (RZ) auch in Corona-Zeiten sicher gewährleistet ist?

Rainer Weidmann: Selbstverständlich braucht es jederzeit eine störungsfreie Energiezufuhr, um Betrieb der RZ-Infrastruktur und somit den Betrieb der IT sicherzustellen. Hierfür ist auf der Gebäudeebene die Technische Gebäudeausrüstung zuständig. Hierzu zählen insbesondere Netzersatzanlagen, USV (Unterbrechungsfreie Stromversorgung), Klimaanlagen und Schaltanlagen. Es hilft natürlich enorm, wenn deren Infrastruktur redundant und ohne sogenannte SPOFs (Single Points of Failure) ausgelegt ist. Nur dies ermöglicht, dass der erste Fehler nicht gleich zum Ausfall der gesamten Anlage führt – insbesondere wenn auch kein Personal unmittelbar mehr vor Ort ist. Idealerweise werden die IT-Komponenten durch zwei getrennte aktive Versorgungspfade (A/B) versorgt.

Konkret: Ein Kurzschluss beispielsweise in der NSHV (Niederspannungshauptverteilung) führt in der Regel dazu, dass im RZ überhaupt nichts mehr geht, sofern nicht eine redundante NSHV sofort die nahtlose Versorgung gewährleistet. Wenn diese existiert, kann man diesen ersten Fehler „überleben“.  Ein Stromausfall von 12 Millisekunden an den IT-Komponenten führt zu einem Ausfall derselben. Sollten STS (Statische Transferschalter) in der IT-Energieversorgung nach der USV verbaut sein, müssen diese wesentlich schneller als in 12ms schalten.

Beim Hamburger Flughafen hat sich 2018 gezeigt, dass ein Kurzschluss den gesamten Flugbetrieb für fast 24 Stunden lahmlegen kann. Eine redundante Versorgung ermöglicht zudem auch, dass mehr Zeit vorhanden ist, bis das Personal einem Fehler auf den Grund gehen kann.

Welche Rolle spielt mögliches Remote Monitoring?

Normalerweise erfolgt das erforderliche Monitoring für die technische Gebäudeausrüstung über eine örtliche Gebäudeleittechnik, welchen in Leitständen visualisiert wird. Die Gebäudeleittechnik sollte aber auch mittels Remote-Zugriff bedienbar sein und auch in der Lage sein, Meldungen per SMS oder Email an einen bestimmten Empfängerkreis zu versenden. Damit lässt sich Vorortpersonal in den Leitständen auf das Nötigste reduzieren. Die gesamte Remote-Strategie und der entsprechende Zugriff (lesend oder schreibend) muss gut ausdifferenziert sein, da sensible Daten behandelt werden. Schließlich könnten böswillige Hacker das Rechenzentrum im schlimmsten Fall auch von außen abschalten.

Man kann auch  die Leitstände von mehreren Rechenzentren nach außen verlagern oder zentralisieren. Allerdings gilt es, mögliche Cyberangriffe extrem gut abzusichern. Ist das geschafft, wäre auch ein völlig fernwartbares Dark Data Center, das ohne permanentes Vorort Betriebspersonal auskommt, denkbar. Es muss aber mit wirksamen Redundanzen vor Ort ausgestattet sein, damit es genügt, wenn ein Techniker erst bei Störungen herbeigerufen wird.

Wie lassen sich IT-Systeme und Daten schützen?

Auch hier: Mit Redundanz und noch einmal Redundanz! Es empfiehlt sich selbstverständlich der Einsatz von gespiegelten Systemen oder der Einsatz von Cloud-Technologie, da sie alle Beteiligten von möglichen Schäden beim physischen Server vor Ort unabhängiger macht. Die Anwendung und die Datenbank wird dann  auf eine andere gespiegelte oder virtuelle Maschine gelegt. Die Cloud erfordert zudem, abgesehen vom einmaligen Aufbau, natürlich auch keinerlei Anwesenheit vor Ort und ist remote betreibbar. Ein wichtiger Aspekt dabei ist auch das Netzwerk, welches ebenfalls redundant aufgebaut sein sollte.

Gerade mittlere und kleinere Unternehmen verzichten oftmals aus Kostengründen aber dennoch leider zumindest in Teilen auf diese Redundanz. Dabei haben Mittelständler, wo oft nur ein bis zwei IT-Experten den Betrieb sicherstellen, ein umso höheres Ausfallrisiko, wenn diese sich tatsächlich mit Corona anstecken sollten.

Welche Stresstests empfiehlst du den Unternehmen?

Es ist fahrlässig, wenn Unternehmen die Abläufe bei Katastrophenfällen nicht detailliert beschreiben und den Prozess auch nicht wirklich einmal live Ende zu Ende verproben. High-Level Konzepte und Papiere sind zwar meist vorhanden, aber greifen diese Szenarien im Ernstfall wirklich? Kann ein komplettes Rechenzentrum in 48h inklusive Restore wieder an einem anderen Ort einsatzfähig sein? Im Zuge eine Business Impact Analyse muss auch festgestellt werden, welche Auswirkungen ein Ausfall des Rechenzentrums auf das gesamte Geschäft hätte um die Lage im Ernsfall beurteilen zu können.

Mit Blick auf Corona sollten Unternehmen natürlich generell prüfen, welche ihrer Tätigkeiten überhaupt Remote ausführbar sind. Sind Mitarbeiter im Home-Office auch hinsichtlich ihrer Bandbreiten und Leitungen hierzu befähigt? Sind weitere Firmenanschlüsse erforderlich? Idealerweise finden hier vorab Tests statt, auch um abzuklären, ob genug Softwarelizenzen und Infrastruktur, etwa für Digitale Signaturen, vorhanden sind. Auf diese Weise wird klar, ob genug Kapazitäten und Ressourcen vorhanden sind, um den Betrieb notfalls von außen zu fahren.