IT-Infrastruktur überwachen und automatisieren - so klappt's

Eine gute Überwachung der IT-Infrastruktur im Unternehmen kann zu einem hohen Automatisierungsgrad führen. Wir präsentieren einige Kniffe wie das gelingen kann.

von Leon Adato* 03.08.2017 07:38

* Leon Adato ist Head Geek bei SolarWinds

Um eine IT-Infrastruktur erfolgreich zu betreiben ist die Überwachung derselben essentiell. Überwachung ist dabei nicht mehr, aber auch nicht weniger, als die fortlaufende, regelmässige Erfassung einer konsistenten Reihe an Messdaten von einer Gruppe von Zielen. Egal ob diese nun physische Geräte, virtuelle Maschinen, cloudbasierte Anwendungen oder etwas dazwischen sind. Monitoring ist die Erfassung von Messdaten, Daten und Informationen von einer Reihe verschiedener Geräte. Alles Weitere – Warnungen, Tickets und Automatisierung – sind ein Nebeneffekt. Zusammen dient dies einem höheren Ziel: Die Überwachung sollte aussagekräftige und entscheidungsrelevante Warnungen ausgeben, anstelle irrelevanter Informationen. Sie sollte zudem die Statistiken und Einsichten erfassen, die man benötigt und automatisierte Antworten bei häufigen Problemen ausführen.

Gut überwacht ist halb automatisiert Gut überwacht ist halb automatisiert © Vertigo3D / www.istockphoto.com

Ein gutes Überwachungssystem erstmalig einzurichten, kann mühsam sein: Es ist aber die Mühe wert.

Die geheime Welt der Automatisierung

Ein Aspekt der Überwachung ist die Automatisierung. Dieser Aspekt wird häufig übersehen, viele IT-Experten glauben, die Automatisierung könne am besten für Server und Anwendungen genutzt werden und dies ginge nur über Software-Defined Networks (SDNs). Das ist jedoch nicht ganz richtig.

Eine gute und effektive Automatisierung kann das Ergebnis einer guten Überwachung sein. Wenn ein robustes Überwachungssystem eingerichtet wurde, können beispielsweise folgende Punkte für den IT-Experten einfacher werden:

  • Konfigurationsänderungs-Traps empfangen
  • Die Konfigurationen von dem Gerät erfassen, das gerade einen Trap gesendet hat
  • Die Konfigurationen vergleichen
  • Regelmässig die Konfigurationen von Netzwerkgeräten erfassen

Entsprechend werden Geräte, die ohne eine ordnungsgemässe Änderungskontrolle modifiziert wurden - übrigens der häufigste Grund für Ausfallzeiten in Unternehmensnetzwerken -, zwangsweise in ihren vorherigen Zustand zurückversetzt, bis die neuen Änderungen erfasst werden können.

Nächste Seite: Kleinigkeiten spielen eine grosse Rolle

Kleinigkeiten spielen eine grosse Rolle

Im IT-Team gibt es ständig Warnungen zu kleineren Fehlern, sodass die Reaktion idealerweise automatisch geschehen sollte. Ohne Automatisierung summieren sich diese kleinen Massnahmen und Problembehebungen schnell zu sehr viel verschwendeter Zeit, selbst wenn die einzelnen Handlungen nur wenige Minuten in Anspruch nehmen. Diese Zeit kann durch die Einrichtung einer effektiven Automatisierung gespart werden.

Mit durchdachten Automatisierungs- und Überwachungssystemen können lästige Fehler behoben werden, die häufig übersehen werden:

  • Warnung: XYZ-Dienst ausgefallen
    Automatisierte Antwort: Neustart des Geräts versuchen
  • Warnung: Datenträger zu über X Prozent belegt
    Automatisierte Antwort: Standard-TEMP-Ordner leeren
  • Warnung: IP-Adresskonflikt festgestellt
    Automatisierte Antwort: Port des neueren Geräts herunterfahren

Falls eine automatisierte Antwort nicht erfolgreich ist, lösen die entsprechenden Überwachungstools eine sekundäre Aktion aus. Im schlimmsten Fall wird eine E-Mail, eine SMS oder ein Ticket um einige Minuten verzögert. Selbst dann wird der Techniker, der auf diese E-Mail oder SMS oder dieses Ticket reagiert, darüber Bescheid wissen, dass bereits eine erste Aktion versucht wurde, die fehlgeschlagen ist. Somit ist er im normalen Fehlerbehebungsprozess bereits ein paar Schritte weiter. Egal, wie man letztendlich zur Lösung gelangt – mit Automatisierungstools geht es um einiges schneller.

Nächste Seite: Die Automatisierung denkt mit

Die Automatisierung denkt mit

Die Möglichkeiten der Automatisierung sind bei einfachen Ein-Schritt-Lösungen noch nicht am Ende. Mithilfe effektiver Überwachungstools kann man auch sofort bei Auftreten der Warnung automatisch mit der Erfassung zusätzlicher erforderlicher Informationen beginnen und diese dann in die Warnung selbst einbinden. Beispiel:

  • Warnung: CPU-Auslastung über X Prozent
    Automatisierte Antwort: Die 10 wichtigsten Prozesse identifizieren, sortiert nach der CPU-Auslastung
  • Warnung: RAM-Auslastung über X Prozent
    Automatisierte Antwort: Die 10 wichtigsten Prozesse identifizieren, sortiert nach der RAM-Auslastung
  • Warnung: VM verwendet über X Prozent der Hostressourcen
    Automatisierte Antwort: VM anhand des Namens identifizieren, weitere VMs auf dem gleichen Host erfassen und auflisten
  • Warnung: Datenträger nach dem Leeren der TEMP-Ordner immer noch zu über X Prozent belegt
    Automatisierte Antwort: Datenträger nach den 10 wichtigsten Dateien (sortiert nach der Dateigrösse), die in den letzten 24 Stunden hinzugefügt oder aktualisiert wurden, durchsuchen

Die Automatisierung von Konfiguration, Bereitstellung, Betrieb, Orchestrierung und Verwaltung spart nicht nur eine Menge Zeit und Ressourcen, sondern maximiert auch die Effizienz des Netzwerks und des Teams. Durch diese Zeitersparnisse kann sich das IT-Team stärker auf kritische Probleme konzentrieren, die menschliches Eingreifen erfordern.

Nächste Seite: Menschliche Fehler vermeiden

Menschliche Fehler vermeiden

Über die Zeiteinsparungen hinaus, hilft es auch ein automatisiertes Verwaltungsmodell zu implementieren, aber auch sogenannte «Fat-Finger-Fehler» sollten bedacht werden, welche in der Vergangenheit vermutlich jedem IT-Administratoren schon einmal passiert sind. Je konvergierter eine Infrastruktur ist, desto höher ist die Wahrscheinlichkeit, dass durch eine einzige falsch konfigurierte Schnittstelle Hunderte erfolgsentscheidender Unternehmensanwendungen ausfallen. Umso wichtiger ist es, eine Methode zu finden, um die Wiederholbarkeit und Nachvollziehbarkeit zu gewährleisten, Vorlagen für Vorgänge zu schaffen, eine Versionskontrolle zu implementieren und Fehlkonfigurationen schnell zu identifizieren. Die Automatisierung dieser Prozesse durch Programmcodes oder durch Drittanbieter-Tools wie GitHub, Puppet oder Chef verhindert eine Menge menschlicher Fehler.

Zeit sparen und dabei Fehler reduzieren

Zeit sparen und dabei Fehler reduzieren – was könnte besser sein? Hat diese Art von Überwachungsautomatisierung aber wirklich Auswirkungen auf den Reingewinn? Die Antwort ist ein eindeutiges «Ja».

Fallbeispiel: Ein Unternehmen hat vor Kurzem die oben beschriebenen automatisierten Antworten im Zusammenhang mit Datenträgern implementiert (Leeren der TEMP-Ordner und erneute Warnmeldung nach 15 Minuten, falls die Datenträger weiterhin voll sind; Hinzufügen der 10 wichtigsten Prozesse zur Warnung wegen hoher CPU-Auslastung).

Das Ergebnis waren 30 bis 70 Prozent weniger Warnungen im Vergleich zum selben Monat des Vorjahres. In harten Zahlen bedeutet dies 43 bis 175 weniger Warnungen pro Monat. Darüber hinaus registrierten die Support-Mitarbeiter das Ergebnis und reagierten schneller auf die restlichen Warnungen, da sie wussten, dass die automatisierten Anfangsmassnahmen bereits durchgeführt wurden.

Die Warnungen im Zusammenhang mit der CPU verschwanden natürlich nicht vollkommen, aber die Reaktion der Support-Mitarbeiter wurde wiederum verbessert, da die Tickets detaillierte Informationen zum jeweiligen Problem enthielten. In einem Fall konnte das Unternehmen einen Patch von einem Anbieter anfordern, da schliesslich ein langfristiges Problem bei der Software nachgewiesen werden konnte.

Die Virtualisierung und sinkende Kosten – die glücklicherweise mit höheren Budgets einhergehen, wenn Unternehmen die zentrale Rolle der IT beim Markterfolg erkennen – fördern die Expansion von IT-Umgebungen. Die Notwendigkeit, mithilfe der Überwachung für die Stabilität von EDV-Umgebungen zu sorgen, wird dadurch sogar noch offensichtlicher.

Weniger offensichtlich, aber ebenso wichtig und hilfreich ist es, dafür zu sorgen, dass die Personalkosten für diese Überwachung niedrig gehalten werden. Dies geschieht durch die Implementierung einer Überwachungslösung, die einfach zu nutzende Automatisierungsfunktionen bietet, die dann auch tatsächlich eingesetzt werden.

Nächste Seite: Fazit

Leon Adato ist Head Geek bei SolarWinds Leon Adato ist Head Geek bei SolarWinds © pd
Automatisierung und Überwachung: Eigentlich ganz einfach

Das ist die Automatisierung. Einfach, elegant und unkompliziert – und IT-Experten sollten anfangen, sie bei der Überwachung zur Priorität zu machen.

Überwachung und Automatisierung hatten unter IT-Experten lange den schlechten Ruf, besonders schwierig und kompliziert zu sein. Auch wenn es möglicherweise nicht einfach erscheint, diese Überwachungs- und Automatisierungstechnologien einzurichten, können IT-Administratoren bei einem guten Überwachungstool von den zahlreichen Vorteilen der Automatisierung profitieren. Und sich endlich auf das konzentrieren, was wirklich wichtig ist - während die zahllosen kleinen und unwichtigen Dinge für sie erledigt werden.