Job-Nr. 3257055

Platform Operations Manager (m/w/d)

Westhouse vor 3 Wochen

VollzeitHybrid

StandortFrankfurt am Main, Hessen

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Ihre Aufgaben

Übernahme der Tier-3-Betriebsverantwortung für Compute- und Betriebssystem-Services in der lokalen Produktionsumgebung (Deutschland).
Bearbeitung komplexer Incidents, Durchführung tiefgehender Fehleranalysen und Root-Cause-Analysen sowie Umsetzung nachhaltiger Fehlerbehebungen und präventiver Maßnahmen.
Sicherstellung der Betriebsbereitschaft von Compute- und Betriebssystemplattformen für Releases und Changes.
Gewährleistung einer umfassenden Monitoring- und Alerting-Abdeckung, Definition von Performance-Baselines sowie Umsetzung von Hardening-, Patch-, Rollback- und Recovery-Strategien.
Erstellung, Pflege und Weiterentwicklung von Runbooks und Betriebsdokumentationen.
Umsetzung und kontinuierliche Optimierung standardisierter Betriebsprozesse durch Automatisierung zur Reduzierung manueller Aufwände, Verbesserung der Wiederherstellungszeiten (MTTR) und Steigerung der Systemstabilität.
Abstimmung und Zusammenarbeit mit Fachspezialisten aus den Bereichen Kubernetes, Datenplattformen, Netzwerk und Storage zur Behebung bereichsübergreifender Produktionsstörungen.
Sicherstellung der operativen Einsatzbereitschaft für Deployments.
Prüfung und Validierung von Deployment-Artefakten aus betrieblicher Sicht.
Definition und Durchsetzung von Qualitätssicherungsmaßnahmen, beispielsweise hinsichtlich Betriebsdokumentationen, Standard Operating Procedures und erfolgreicher Testnachweise.
Sicherstellung geeigneter Rollback-Strategien sowie einer ausreichenden operativen Überwachung (Observability) für Produktivdeployments.
Gewährleistung von Stabilität, Verfügbarkeit und Reaktionsfähigkeit der betreuten Kubernetes-Plattform.
Überwachung von Systemzustand, Leistungskennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen.
Identifikation, Analyse und Behebung von Störungen mit dem Ziel, Serviceunterbrechungen zu minimieren.
Initiierung von Root-Cause-Analysen sowie Umsetzung von Korrektur- und Präventionsmaßnahmen.
Reduzierung wiederkehrender Betriebsaufwände durch Automatisierung standardisierter Betriebsprozesse.
Validierung automatisierter Verfahren entlang des etablierten Software-Development-Lifecycles einschließlich Staging, Testing und formaler Freigabeprozesse.
Sicherstellung der Einhaltung von Sicherheits-, Audit- und Compliance-Anforderungen im Plattformbetrieb.
Implementierung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Vorgaben.
Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen und Sicherheitsrisiken. Interessiert? Mandy Granz Tel.:+49-89-383772411 Email:[email protected]

Ihre Qualifikationen

ES MUSS ZU JEDEM SKILL MINDESTENS EIN PROJEKTBEISPIEL GENANNT WERDEN KÖNNEN!!!
5–10+ Jahre Erfahrung im IT-Betrieb, Service Delivery oder Platform Operations mit nachweislicher Führungserfahrung in geschäftskritischen Umgebungen.
Nachgewiesene Erfahrung in der Einführung und Steuerung von Incident-, Problem-, Change- und Release-Governance-Prozessen im Produktivbetrieb.
Virtualisierung mit VMware 8.
Betriebssysteme: Red Hat Enterprise Linux und Ubuntu.
Betriebssystem-Tools: Satellite, IPA (Identity Management), Certificate Server.
ITSM / Zusammenarbeit: Jira Service Management (JSM), Jira, Confluence.
Fundiertes Verständnis zentraler Betriebsprozesse (Incident Management, Change Management, Problem Management, IT Service Management) sowie von SRE-Konzepten (Site Reliability Engineering).
Erfahrung in der Gewinnung betrieblicher Erkenntnisse aus Monitoring- und Observability-Daten, einschließlich Verwaltung und Nachverfolgung von SLI-, SLA- und SLO-Kennzahlen.
Praktische Erfahrung in der strukturierten Dokumentation von Prozessen sowie in der Etablierung und Durchsetzung klarer Runbooks und Playbooks.
Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki).
Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness).
Verständnis moderner Plattformbetriebsmodelle (Kubernetes/Container, Automatisierung, Observability), ausreichend, um technische Spezialisten fachlich zu steuern und zu koordinieren.
Kenntnisse von Plattformbereitstellungskonzepten wie GitOps und Infrastructure as Code (IaC) mit Terraform/OpenTofu, ArgoCD und Helm zur Sicherstellung von Deployment- und Betriebsbereitschaftsstandards.

Für unseren Kunden suchen wir aktuell eine/n Platform Operations Manager (m/w/d) - Remote + Frankfurt (bis zu 50% Onsite).

Remote + Frankfurt (bis zu 50% Onsite) Start: 01.07.2026 vor 17 Stunden Job Typ: Projekt Dauer: 5 Monate + Option Arbeitsumfang: Vollzeit Sprachen: Deutsch + Englisch