Beschreibung
**Was Dich erwartet:**
🏗️ **Hybride Daten-Plattform & Architektur:** Du verantwortest die Konzeption und Implementierung einer hybriden Datenplattform, die die Flexibilität von Lakehouse-Strukturen mit der Performance und Struktur eines klassischen Data Warehousing (Serving Layer) vereint.
⚙️ **Data-Ingestion & Pipelines:** Du baust und betreibst zuverlässige Pipelines für umfangreiche Datenmengen (z. B. Sensor- oder Erdbeobachtungsdaten) in Batch- und Streaming-Szenarien.
🛠️ **Plattform-Evol...
weiter lesen
**Was Dich erwartet:**
🏗️ **Hybride Daten-Plattform & Architektur:** Du verantwortest die Konzeption und Implementierung einer hybriden Datenplattform, die die Flexibilität von Lakehouse-Strukturen mit der Performance und Struktur eines klassischen Data Warehousing (Serving Layer) vereint.
⚙️ **Data-Ingestion & Pipelines:** Du baust und betreibst zuverlässige Pipelines für umfangreiche Datenmengen (z. B. Sensor- oder Erdbeobachtungsdaten) in Batch- und Streaming-Szenarien.
🛠️ **Plattform-Evolution:** Du treibst unsere Datenplattform voran, indem Du neue Trends im Bereich Data & AI (z. B. Vector-Datenbanken & RAG-Infrastruktur) evaluierst und Tools für effizientes Datenmanagement sowie CI/CD-Prozesse entwickelst.
🛡️ **Governance, Observability & FinOps:** Du etablierst strenge Data-Governance-Standards, implementierst Data Lineage sowie Data Contracts zur Schnittstellensicherung, wendest FinOps-Prinzipien zur Kostenoptimierung an und stellst die Datenqualität sicher.
📈 **Performance-Optimierung:** Du optimierst die Verarbeitungsleistung durch effiziente Partitionierungsstrategien und gestaltest Datenlayouts, die Compute-Workloads nah an der Speicherebene erlauben.
🤝 **Enablement & Beratung:** Du fungierst als Sparringspartner für Data Scientists und Ingenieure, vermittelst Best Practices und stellst Blueprint-Architekturen für die gesamte Organisation bereit.
**Was Du mitbringst:**
**Expertenkenntnisse**
- **Distributed Computing:** Tiefe Erfahrung mit dem **Spark-Ökosystem (z. B. Databricks, EMR oder vergleichbare Frameworks)** sowie fundiertes Wissen in der Konzeption moderner Data-Lake- oder Lakehouse-Architekturen.
- **Pipeline-Engineering:** Fundiertes Wissen im Aufbau komplexer Ingestion-Workflows und in der Verwaltung von Daten-Transformations-Pipelines.
- **Programmierung:** Exzellente Kenntnisse in **Python** (oder Go) sowie sicherem Umgang mit SQL- und NoSQL-Datenbanken.
- **Cloud & Infrastruktur:** Routine in Cloud-Plattformen (Azure oder AWS) sowie **Infrastructure as Code** (Terraform).
- **Datenmodellierung & DWH:** Fundierte Erfahrung in der dimensionalen Modellierung (Star/Snowflake Schema) sowie im Design von hochperformanten Serving Layern für BI- und Analytics-Anwendungen.
**Sehr gute Kenntnisse**
- **Data Management:** Praktische Erfahrung mit Datenversionierung, Lineage-Tracking und Schema-Validierung.
- **DevOps für Data:** Sicherer Umgang mit **Docker, Kubernetes** und CI/CD-Tools (z. B. GitHub Actions).
- **Security & Networking:** Verständnis von Authentifizierung, Verschlüsselung und sicheren Datenverarbeitungspraktiken.
- Agile Methodiken und Erfahrung in der Zusammenarbeit mit funktionsübergreifenden Analytics-Teams.
- **Data Contracts & KI-Daten:** Erfahrung in der Gestaltung stabiler Datenschnittstellen sowie Grundverständnis für den Betrieb von Vektordatenbanken und RAG-Pipelines.
**Persönlich**
- **Ownership:** Du übernimmst die volle Verantwortung für die Stabilität, Skalierbarkeit und operative Leistung der Datenplattform.
- **Analytische Exzellenz:** Du hast eine strukturierte Herangehensweise an komplexe Herausforderungen wie Partitionierung und Tiling-Strategien.
- **Kommunikationsstärke:** Du kannst Blueprint-Architekturen klar vermitteln und Kollegen fachlich anleiten.
- Fließende Deutsch- und Englischkenntnisse sowie ein abgeschlossenes Studium (M.Sc.) in Informatik oder einem verwandten Bereich.