b'nerd GmbH b'nerd GmbH
de | en

Monitoring & Logging Incident Management mit Grafana OnCall

Reaktionsketten definieren, Zuständigkeiten regeln – so gelingt zuverlässiges Alertmanagement.

In unserem letzten Artikel haben wir die Grundlagen und Vorteile des Monitorings mit Grafana besprochen – inklusive der Einbindung von Prometheus als Datenquelle und Alerts zur Benachrichtigung via Slack oder Mail.

Was in kleineren Setups funktionieren kann, stößt spätestens in größeren Teams schnell an Grenzen: Wer ist gerade zuständig? Wurde bereits reagiert – oder arbeiten gerade mehrere Teammittglieder gleichzeitig daran, ohne voneinander zu wissen?

Hier kommt Grafana OnCall ins Spiel: als flexible Lösung für Alert-Management besticht es mit einer klaren UI sowie Features wie Schichtplänen oder Eskalationsregeln. Und all das direkt im Grafana-Ökosystem. In diesem Artikel wollen wir euch einen ersten Einblick in das Setup und die Konfigurationsmöglichketien dieses Tools geben.

Was ist Grafana OnCall?

Grafana OnCall ist ein Incident Management Tool, das sich direkt in dein Grafana-Setup einfügt. Es wurde entwickelt, um klassische Schwächen im Alerting zu beheben – z. B. unklare Zuständigkeiten, verteilte Notifications über viele Tools hinweg oder fehlendes Eskalationsmanagement.

Zentralen Funktionen umfassen dabei:

  • Eskalationsregeln und -ketten
  • Schichtplanung (mit Rotation & Abwesenheiten)
  • Acknowledgement und Eskalation von Alerts
  • Integration mit Alertmanager, Loki u. v. m.
  • Benachrichtigungen via Slack, Telegram, SMS, Mobile App, etc.

Voraussetzungen

Damit ihr Grafana OnCall in eurer Umgebung nutzen könnt, sollte folgendes bereits vorhanden sein:

  • Kubernetes-Cluster mit Zugriffsmöglichkeiten
  • Eine laufende Grafana Instanz (mit Zugang zur Admin-Oberfläche)
  • Prometheus als eingebundene Datenquelle
  • Erste Alerts in Prometheus oder über Grafana Alerting

Schaut euch gerne unseren Grundlagen-Artikel an, um mit dem richtigen Setup starten zu können.

OnCall aktivieren und einrichten

Ab Grafana Version 9.4 ist das OnCall Plugin in der Regel bereits vorinstalliert – es muss also meist nur noch aktiviert werden.

Öffnet dazu in der linken Seitenleiste eurer Grafana-Instanz den Bereich "Alerts & IRM" (IRM steht für Incident Response Management). Dort sollte der Punkt "OnCall" erscheinen. Falls nicht, könnt ihr das Plugin einfach über den Plugin-Marktplatz (zu finden im Bereich “Administration”) hinzufügen. Achtet darauf, dass es von Grafana Labs stammt, da es gelegentlich auch Community-Plugins mit ähnlichen Namen gibt.

Im nächsten Schritt verbindet ihr OnCall mit eurer bestehenden Alerting-Infrastruktur. Geht dazu auf den Reiter "Integrations" innerhalb von OnCall und wählt eine neue Integration aus – zum Beispiel Prometheus oder Alertmanager, je nachdem, was ihr verwendet.

Nach dem Einrichten dieser Integration legt OnCall automatisch ein Default Routing an: Alerts, die keine weiteren Angaben enthalten, werden hierhin geleitet. Das ist ein guter Start, lässt sich aber gezielt verfeinern: Ihr könnt beispielsweise über Labels wie 'team=platform' in euren Alerts direkt steuern, an welches Team ein Alert gehen soll. Diese Label-basierten Zuweisungen sind besonders nützlich, wenn mehrere Teams unterschiedliche Verantwortlichkeiten haben.

Teams, Schichten und Eskalationsregeln

Ein zentraler Bestandteil von Grafana OnCall ist die Möglichkeit, Zuständigkeiten klar zu organisieren – und das beginnt damit, dass ihr Teams anlegt. In der OnCall-Oberfläche könnt ihr für jede Gruppe, die Alerts bearbeiten soll, ein eigenes Team erstellen – zum Beispiel ein Platform-Team oder ein Feature-Team. Fügt dann die jeweiligen Mitglieder als User hinzu, entweder direkt per E-Mail oder – falls vorhanden – über Single Sign-On.

Im nächsten Schritt definiert ihr Schichtpläne (Schedules), also wer wann in Bereitschaft ist. Eine häufig genutzte Konfiguration ist die wöchentliche Rotation, die etwa montags um 08:00 Uhr startet. Die Verantwortung wird dann automatisch zwischen den Teammitgliedern weitergegeben. Besonders praktisch: Abwesenheiten lassen sich direkt eintragen, sodass OnCall bei Bedarf automatisch eine Vertretung übernimmt. Auch komplexere Modelle wie First- und Second-Level-Bereitschaften sind möglich.

Damit kein Alert untergeht, richtet ihr einen Eskalationsplan (Escalation Chain) ein. Ein typisches Beispiel: Wenn die erste benachrichtigte Person nach zehn Minuten nicht reagiert (kein „Acknowledge“ erfolgt), wird automatisch die nächste Person in der Kette benachrichtigt. Ihr könnt solche Eskalationen mehrstufig aufbauen und bei Bedarf regelmäßig wiederholen lassen – etwa alle 15 Minuten – bis jemand den Vorfall bestätigt. So bleibt sichergestellt, dass auch kritische Alerts zuverlässig bearbeitet werden.

Alerts mit OnCall verknüpfen

Sobald Team, Schichtplan und Eskalationsplan stehen, geht es darum, Alerts gezielt dorthin zu leiten, wo sie hingehören – und genau dafür nutzt OnCall ein simples, aber effektives Prinzip: Labels.

So könnt ihr in euren Alerting-Regeln (z. B. im Alertmanager) bestimmte Labels setzen, die OnCall dann als Routing-Kriterium verwendet. Ein klassisches Beispiel wäre das Label team=platform. Sobald ein Alert dieses Label trägt, weiß OnCall: Dieser Vorfall gehört zum Platform-Team – und löst den entsprechenden Eskalationspfad aus.

Ein Beispiel für eine solche Regel im Alertmanager:

yaml
KopierenBearbeiten
- alert: HighCPUUsage
  expr: node_cpu_seconds_total{mode="user"} > 90
  labels:
    severity: critical
    team: platform

So eine Regel stellt sicher, dass der Alert nicht einfach irgendwo im Slack-Channel landet, sondern gezielt an das richtige Team übermittelt wird – samt Eskalationslogik, Schichtplan und Benachrichtigungen.

Alerts empfangen und reagieren

Wenn ein Alert ausgelöst wird, bekommt die zuständige Person diesen direkt auf dem eingestellten Kanal – z. B. per Slack, in der mobilen Grafana-App oder per SMS. Die Person kann den Vorfall dann mit einem Klick „acknowledgen“, also bestätigen, dass sie sich darum kümmert. Optional lassen sich auch Kommentare hinzufügen oder der Alert an ein anderes Team oder eine andere Person weiterleiten. Ist das Problem behoben, kann der Alert dann als “resolved” markiert werden.

Falls niemand innerhalb der definierten Zeit reagiert, greift automatisch die Eskalationsregel – der Alert geht an die nächste Person im Plan, bis er übernommen wird.

So behaltet ihr nicht nur den Überblick, sondern stellt auch sicher, dass kritische Vorfälle immer bearbeitet werden – ganz ohne manuelles Nachfragen oder Unsicherheit im Team.

Fazit

Egal ob kleines Team mit rotierender Bereitschaft oder größeres Setup mit klar verteilten Rollen: Grafana OnCall hilft dabei, Verantwortlichkeiten transparent und zuverlässig zu organisieren. Wer ist wann zuständig – und was passiert, wenn niemand reagiert? Fragen wie diese lassen sich mit OnCall strukturiert beantworten.

Für kleinere Teams bietet OnCall eine unkomplizierte Möglichkeit, Schichten und Eskalationen sauber abzubilden – direkt im vertrauten Grafana-Umfeld. In größeren oder verteilten Teams sorgt die Integration mit Label-basiertem Routing und Eskalationsketten dafür, dass auch komplexere Verantwortungsmodelle übersichtlich und flexibel bleiben.

OnCall ergänzt klassische Alert-Benachrichtigungen um genau das, was im Ernstfall zählt: Klarheit, wer übernimmt – und Sicherheit, dass nichts untergeht.

Sie haben Fragen oder wünschen ein individuelles Angebot? Wir beraten Sie gerne.

Kontakt

Unsere Cloud Experten beraten Sie gerne und individuell.

Unser Büro

Sartoriusstraße 22

20257 Hamburg, Deutschland


Mo - Fr: 09.00 - 18.00 Uhr

Telefon
+49 40 239 69 754 0
Email
hello@bnerd.com