Daten sind das Herzstück jedes modernen Unternehmens. Doch die exponentiell wachsende Datenmenge stellt eine enorme Herausforderung dar. Data Mesh betrachtet Daten als Produkt und fördert eine dezentrale Architektur. Kann dieser Ansatz die Lösung für das Datenmanagement sein?
Datenarbeit: Warum, welche und wie?
Daten helfen Unternehmen, fundierte Entscheidungen zu treffen und sich einen Marktvorteil zu verschaffen. Bei dmTECH nutzen wir Daten in vielen Bereichen: Zum Beispiel, um Produktempfehlungen zu berechnen, Sortimente und Platzierungen zu optimieren oder die Effizienz in der Logistik zu steigern. Auch personalisierte Marketingkampagnen können anhand von Daten entwickelt und der Erfolg von Kampagnen und Aktionen analysiert werden.
Um diese vielfältigen Anwendungen zu unterstützen, sind qualitativ hochwertige und gut nutzbare Daten entscheidend. Dabei unterscheiden wir hauptsächlich zwischen operativen und analytischen Daten:
Operative Daten unterstützen die täglichen Geschäftsprozesse und gewährleisten einen reibungslosen Ablauf.
Analytische Daten hingegen sind für tiefgehende Analysen und strategische Entscheidungen erforderlich.
Diese Daten werden gesammelt, aggregiert und ausgewertet, um wertvolle Einblicke in die Geschäftsprozesse zu gewinnen.
Traditionell wurden verschiedene Architekturen entwickelt, um die Arbeit mit analytischen Daten zu unterstützen. Diese basieren auf der grundlegenden Annahme der Zentralisierung von Daten. Dabei werden Daten zentral gesammelt, gespeichert und verwaltet, um sie für verschiedene Analysezwecke nutzbar zu machen. Dazu gehören:
Data Warehouses, die strukturierte Daten aus verschiedenen Quellen speichern, und
Data Lakes, die große Mengen unstrukturierter und halbstrukturierter Daten in ihrem Rohformat aufnehmen.
Aktuell gibt es auch sogenannte „Lakehouse“-Lösungen, die eine Kombination beider Ansätze ermöglichen.
Welche Probleme bestehen bei den aktuellen Lösungen?
Die oben genannten zentralisierten Datenarchitekturen stoßen zunehmend an ihre Grenzen, da die wachsende Datenmenge die Skalierbarkeit erschwert und zu Engpässen und Verzögerungen führt. Produkt-Teams sind oft wenig in die analytische Datenarbeit eingebunden, während Data Engineers die Datenplattform betreiben und Daten bereitstellen müssen. Diese zentralen Teams müssen sich für jeden Use Case Domänenwissen aneignen, was eine hohe Arbeitslast und Frustration verursacht. Data Analysts und Entscheider, die die Daten nutzen, stoßen häufig auf ungenaue oder unvollständige Daten, was fundierte Entscheidungen erschwert.
Zusätzlich entstehen Datensilos, die den Informationsfluss und die Zusammenarbeit behindern. Die zentrale Verwaltung führt oft zu einem Mangel an Datenverantwortung in den Teams. Das Wachstum des Unternehmens verstärkt das Problem der organisatorischen Zentralisierung weiter. Dies erschwert die Verwaltung und Nutzung der Daten und beeinträchtigt die Flexibilität des Unternehmens. Herausforderungen im Datenmanagement, wie die komplexe Integrationsarchitektur über zentrale Pipelines und Ingestion-Mechanismen, machen deutlich, dass neue, zukunftsorientierte Lösungen wie Data Mesh benötigt werden. Existierende Lösungen wie Data Warehouses und Data Lakes können weiterhin genutzt werden, jedoch wird die Verwaltung und Ingestion der Daten dezentral organisiert.
Was verbirgt sich hinter Data Mesh und wie kann das die Lösung auf die Probleme sein?
Data Mesh, ein Begriff, der erstmals 2019 von Zhamak Dehghani vorgeschlagen wurde, ist ein soziotechnischer Ansatz für eine dezentralisierte, domänenorientierte Datenarchitektur. Bei dmTECH gehen wir der Frage nach, ob Data Mesh die Antwort auf unsere Datenprobleme sein kann.
Die Grafik oben zeigt ein beispielhaftes Data Mesh. Domänen stellen eigenverantwortlich Datenprodukte bereit. Domänen können Geschäftsbereiche oder eine Gruppe davon sein, die sich auf bestimmte Funktionen oder Themen konzentrieren (z. B. Vertrieb, Marketing). Alle Teams, die ein oder mehrere Datenprodukte verantworten, gehören in eine Domäne. Der Datenfluss erfolgt zwischen den Domänen, während eine zentrale Self-Service-Plattform mit Funktionen wie Datenkatalog, Speicherung, Pipelines, Zugriffskontrolle und Tools die technische Grundlage bietet. Die Verantwortung ist dezentral organisiert, während die Plattform allen Domänen gemeinsame Services zur Verfügung stellt.
Die vier zentralen Prinzipien von Data Mesh:
Domain Ownership: Die Verantwortung für analytische Daten wird auf die fachlichen Domänen übertragen, die am besten mit den Daten vertraut sind. Diese Daten werden logisch anhand der Domänengrenzen zerlegt und unabhängig verwaltet. Dies ermöglicht eine bessere Skalierung, optimiert den kontinuierlichen Wandel und verbessert die Datenqualität.
Data as a Product: Daten werden als eigenständiges Produkt betrachtet und direkt den Nutzern zur Verfügung gestellt. Ein Datenprodukt muss auffindbar, vertrauenswürdig und nativ zugreifbar sein. Jedes Datenprodukt wird autonom und unabhängig von anderen Datenprodukten verwaltet. Durch die Veröffentlichung und den Fokus auf Nutzbarkeit und Mehrwert wird die Entstehung von Datensilos vermieden. Das Zusammenspiel von „Domain Ownership“ und „Data as a Product“ ermöglicht die Nutzung der Daten über Domänengrenzen hinweg und fördert eine datengetriebene Innovationskultur.
Self-Serve Data Platform: Eine Self-Service-Datenplattform ermöglicht es den Domänenteams, Daten eigenständig bereitzustellen. Diese Plattform managt den gesamten Lebenszyklus der Datenprodukte und erleichtert das Auffinden, den Zugriff und die Nutzung von Daten. Sie reduziert die Komplexität des Datenmanagements und den Bedarf an spezialisierten Data Engineers.
Federated Computational Governance: Dieses Prinzip schafft ein Governance-Modell mit einer föderalen Entscheidungs- und Verantwortungsstruktur. Ein Team aus Vertretern der Domänen und Experten für Rechtsfragen, Compliance und Sicherheit sorgt für ein Gleichgewicht zwischen der Autonomie der Domänen und der übergreifenden Interoperabilität. Die Plattformdienste automatisieren die Policies, um Sicherheits- und Compliance-Standards zu gewährleisten.
Durch die Implementierung von Data Mesh können wir die Effizienz unserer Datenarbeit verbessern. Die dezentrale Struktur fördert Agilität und Innovation, indem sie den Teams mehr Autonomie und Verantwortung über ihre Daten gibt. Gleichzeitig wird die Zusammenarbeit zwischen den Abteilungen verbessert, was zu einer höheren Datenqualität und besseren Nutzung der Daten führt.