Scalytics | Ist ein Data Mesh die Lösung für Ihre Datenprobleme?

Alexander Alten-Lorenz

Tatsächlich ist möglicherweise nicht jedes Unternehmen für die Implementierung eines Data Mesh geeignet. Größere Unternehmen, die mit Unsicherheiten und Veränderungen in ihren Abläufen und Umgebungen konfrontiert sind, sind die Hauptzielgruppe für Data Mesh. Ein Data Mesh ist definitiv eine unnötige Ausgabe, wenn die Datenanforderungen Ihres Unternehmens bescheiden sind und im Laufe der Zeit konstant bleiben.

‍

Was ist ein „Data Mesh“?

‍

Blossom Sky high level architecture — Blossom Sky Architektur auf hohem Niveau

‍

Da Data Mesh sich auf die Bereitstellung nützlicher und sicherer Datenprodukte konzentriert, ist es ein strategischer Ansatz für modernes Datenmanagement und eine Strategie zur Unterstützung der digitalen Transformation eines Unternehmens. Das Hauptziel von Data Mesh ist es, über die etablierten zentralisierten Datenverwaltungstechniken der Nutzung von Data Warehouses und Data Lakes hinauszugehen. Data Mesh gibt Datenproduzenten und Datenkonsumenten die Möglichkeit, auf Daten zuzugreifen und sie zu verarbeiten, ohne das Data Lake- oder Data Warehouse-Team einbeziehen zu müssen, und unterstreicht damit das Konzept der organisatorischen Agilität. Der dezentrale Ansatz von Data Mesh verteilt die Datenhoheit auf branchenspezifische Organisationen, die Daten als Produkt verwenden, kontrollieren und verwalten. Aus Wikipedia, dem Definition von Data Mesh:

‍

„Data Mesh ist ein soziotechnischer Ansatz zum Aufbau einer dezentrale Daten Architektur unter Nutzung eines domänenorientierten Self-Service-Designs (aus Sicht der Softwareentwicklung) und lehnt sich Eric Evans' Theorie des domänengetriebenen Designs und die Theorie der Teamtopologien von Manuel Pais und Matthew Skelton an. Bei Data Mesh geht es hauptsächlich um die Daten selbst, wobei der Data Lake und die Pipelines zweitrangig sind. Das Hauptangebot ist die Skalierung analytischer Daten durch domänenorientierte Dezentralisierung. Mit Data Mesh wird die Verantwortung für analytische Daten vom zentralen Datenteam auf die Domain-Teams verlagert, die von einem Datenplattform-Team unterstützt werden, das eine domänenunabhängige Datenplattform bereitstellt.“

‍

Die vier Grundideen des Data Mesh-Konzepts lauten wie folgt:

Daten als Produkt
Domainorientiertes Eigentum
Self-Service-Infrastruktur für Daten
Föderierte Steuerung auf rechnergestützter Ebene

‍

Lassen Sie uns die vier Prinzipien genauer untersuchen.

‍

Daten als Produkt

Um einen kommerziellen Mehrwert zu bieten, werden Datenprodukte von der Domain erstellt und von Benutzern oder nachgelagerten Domänen konsumiert. Datenprodukte unterscheiden sich von herkömmlichen Data Marts dadurch, dass sie in sich geschlossen sind und für alle Infrastruktur-, Sicherheits- und Herkunftsfragen im Zusammenhang mit der Aufrechterhaltung der Datengenauigkeit zuständig sind. Datenprodukte verbessern die Bemühungen um Business Intelligence und maschinelles Lernen, indem sie klare Verantwortlichkeiten und Verantwortlichkeiten ermöglichen. Sie können von anderen Datenprodukten oder direkt von Endbenutzern verwendet werden.

‍

Domainorientiertes Eigentum

Wir müssen zuerst verstehen, was eine Domain ist, um domänengetriebene Daten zu verstehen. Eine Domain ist eine Gruppe von Personen, die sich für ein gemeinsames praktisches Geschäftsziel versammelt haben. Laut Data Mesh sollte die Domain für die Verwaltung der Daten verantwortlich sein, die sich auf ihre Geschäftsfunktion beziehen und von ihr generiert werden. Die Assimilation, Transformation und Bereitstellung von Daten an Endbenutzer liegt in der Verantwortung der Domänen. Die Domain stellt ihre Daten schließlich als Datenprodukte zur Verfügung, an denen sie während ihres gesamten Bestehens die Rechte besitzt.

‍

Self-Service-Infrastruktur für Daten

Damit die Mitglieder der Domänen ihre Datenprodukte problemlos entwickeln und warten können, muss eine Self-Service-Dateninfrastruktur aus einer Vielzahl von Funktionen bestehen. Das Infrastruktur-Engineering-Team, das die Self-Service-Datenplattform unterstützt, konzentriert sich in erster Linie auf die Verwaltung und den Betrieb der zahlreichen verwendeten Technologien. Dies zeigt, wie sich Domänen mit Daten befassen, während sich das Team, das an der Self-Service-Datenplattform arbeitet, mit Technologie befasst. Die Unabhängigkeit der Domänen dient als Barometer für die Leistung der Self-Service-Datenplattform.

‍

Föderierte Steuerung auf rechnergestützter Ebene

Konventionelle Datenverwaltung kann als Hindernis für die Wertschöpfung aus Daten betrachtet werden. Durch die Integration von Governance-Fragen in den Arbeitsablauf der Domänen ermöglicht Data Mesh einen neuen Ansatz. Obwohl Data Governance viele Facetten hat, ist es wichtig, dass Nutzungsmetriken und Berichte berücksichtigt werden, wenn es um Data Mesh geht. Anzahl und Art der Datennutzung sind entscheidende Datenpunkte, um den Wert und damit den Erfolg bestimmter Datenprodukte zu bestimmen.

Geschäftliche Gründe und Vorteile eines Data Mesh

Der Einsatz von Data Mesh fördert die organisatorische Agilität von Unternehmen, die in einem volatilen wirtschaftlichen Umfeld erfolgreich sein wollen. Jedes Unternehmen muss in der Lage sein, auf Umweltveränderungen mit einer kostengünstigen Strategie mit hoher Rendite zu reagieren. Änderungen der regulatorischen Anforderungen, die Notwendigkeit, neue Analyseanforderungen zu erfüllen, und die Einführung neuer Datenquellen sind alles Faktoren, die dazu führen, dass sich die Datenmanagementprozesse eines Unternehmens ändern. Angesichts dieser Dynamik basieren aktuelle Datenmanagementansätze häufig auf komplizierten und eng miteinander verknüpften ETL zwischen Betriebs- und Analysesystemen, die sich nur schwer rechtzeitig anpassen können, um die Geschäftsziele zu erreichen. Das Ziel von Data Mesh ist es, einen anpassungsfähigeren Ansatz für Daten anzubieten, damit das Unternehmen effektiv auf solche Änderungen reagieren kann.

Deep Technology: Erforderlich, um ein Data Mesh einzurichten und auszuführen

Technologische Fähigkeiten sind ein entscheidender Faktor für die Inbetriebnahme eines Data Mesh. Aus einer Reihe von Gründen ist wahrscheinlich eine neue Technologie erforderlich.

Die Interoperabilität dieser neuen Technologien wird entscheidend sein, um die mit der Nutzung von Technologien verbundenen Reibungen zu verringern.
Ermöglichen Sie Domänen, unabhängig zu funktionieren und sich auf Daten zu konzentrieren, was ihre oberste Priorität ist, und nicht auf Technologie.
Ermöglicht den Online-Kauf neuer Datenplattformen und die reibungslose Nutzung der von ihnen offengelegten Daten.
Ermöglichen Sie die automatische Berichterstattung über Governance-Elemente im gesamten Datennetz, einschließlich der Nutzung von Datenprodukten, der Einhaltung von Standards und Kundenfeedback.

‍

Teilnehmer: Dezentrale Domains für ein zentrales Datenteam

Eine Data Mesh-Reise wird erhebliche organisatorische Veränderungen und Änderungen der Verantwortlichkeiten der Mitarbeiter mit sich bringen. Bestehende Mitarbeiter werden für den Erfolg eines Data Mesh von entscheidender Bedeutung sein, da sie in der Lage sind, im Rahmen des Data Mesh umfangreiches implizites Wissen zur Verfügung zu stellen. Daher sollten eine Neuausrichtung der derzeitigen datenorientierten Mitarbeiter sowie die Übertragung der Datenverantwortung von einem zentralen Datenteam auf dezentrale Bereiche in Betracht gezogen werden. Darüber hinaus haben sich die Belohnungssysteme und die Managementstrukturen geändert.

‍

Prozessoptimierung: Interne organisatorische Veränderungen

Durch die Implementierung eines Data Mesh muss das Unternehmen Anpassungen an seinen internen Prozessen vornehmen, um eine belastbare und flexible Datenarchitektur zu fördern. Wenn wir die Datenverwaltung berücksichtigen, sind neue Prozesse für die Definition, Implementierung und Durchsetzung von Datenrichtlinien erforderlich. Diese Prozesse werden sich darauf auswirken, wie Daten im Rahmen etablierter täglicher Aktivitäten und bekannter Prozesse abgerufen, verwaltet und verwendet werden. Darüber hinaus ermöglicht ein gut durchdachtes Data Mesh Process Mining über die gesamte Datenlebenszykluskette hinweg, um ein wesentlich effizienteres Prozessmanagement und -design zu ermöglichen.

Data Lakes, Data Fabrics und Data Mesh — was ist was?

Der Data Lake ist ein Technologieansatz, dessen primäres Ziel traditionell darin bestand, als ein einziges Repository zu dienen, in das Daten so einfach wie möglich verschoben werden können, wobei das zentrale Team für die Verwaltung verantwortlich ist. Data Lakes können zwar einen erheblichen Geschäftswert bieten, sind aber nicht ohne Mängel. Das Hauptproblem besteht darin, dass Daten, sobald sie in den Lake verschoben werden, den Kontext verlieren. Beispielsweise haben wir möglicherweise mehrere Dateien, die eine Kundendefinition enthalten, eine aus einem Logistiksystem, eine aus Zahlungen und eine aus dem Marketing. Welche ist für mich geeignet? Da die Daten im Data Lake zudem nicht vorverarbeitet wurden, treten unweigerlich Datenprobleme auf. Dies stellt ein erhebliches Hindernis für die Verwendung der Daten zur Beantwortung der ursprünglichen Geschäftsfrage dar, da der Datenverbraucher in der Regel mit dem Data Lake-Team kommunizieren muss, um Datenprobleme zu verstehen und zu lösen.

Ein Datennetz hingegen ist mehr als nur Technologie; es kombiniert sowohl technologische als auch organisatorische Aspekte wie die Konzepte von Dateneigentum, Datenqualität und Autonomie. Dadurch haben Datenkonsumenten einen klaren Überblick über Datenqualität und Dateneigentum, und Datenprobleme können viel effizienter erkannt und gelöst werden. Daten können letztendlich verwendet und als vertrauenswürdig eingestuft werden.

Eine Data Fabric konzentriert sich auf eine Sammlung mehrerer Technologiefunktionen, die zusammenarbeiten, um eine Schnittstelle für Datenkonsumenten zu schaffen. Verschiedene Befürworter von Data Fabric befürworten die Automatisierung vieler Datenverwaltungsaufgaben mithilfe von Technologien wie ML, um Endbenutzern den einfacheren Zugriff auf Daten zu ermöglichen. Dies bietet einen gewissen Nutzen für die einfache Datennutzung, aber in komplizierteren Situationen oder wenn Geschäftswissen in die Daten integriert werden muss, werden die Grenzen von Data Fabric offensichtlich.

Hinzu kommt, dass eine Data Fabric möglicherweise als Teil einer Data Mesh-Self-Service-Plattform verwendet werden könnte, um Daten an Domänen weiterzugeben, die dann ihr Fachwissen in das endgültige Datenprodukt einfließen lassen können.

‍

Blossom Sky erstellt ein KI-fokussiertes Datennetz für Ihre Dateninfrastruktur

Unternehmen, die bereit sind, Data Mesh einzuführen, benötigen Unterstützung bei der Verknüpfung ihrer Datenquellen, um mit Datablooms Next-Gen Data Mesh schnell einen Erfolg zu erzielen. Im Grunde müssen diese beiden Schritte unternommen werden, um Ihr Unternehmen auf die nächste Stufe des zukunftssicheren Datenmanagements zu bringen:

‍

Stellen Sie eine Verbindung zu den Datenquellen her, in denen sie gespeichert sind

Der erste Schritt zu Beginn Ihrer Data Mesh-Reise besteht darin, eine Verbindung zu Datenquellen herzustellen. Eine grundlegende Idee zur Implementierung von Data Mesh besteht darin, Ihre Datenquellen mithilfe Ihrer vorhandenen Investitionen zu verbinden: Data Lakes oder Data Warehouses; Cloud oder On-Premise; strukturierte Warehouses oder unstrukturierte Lakehouses. Im Gegensatz zur Single-Source-of-Truth-Methode, bei der zunächst alle Ihre Daten zentralisiert werden, verwenden und fragen Sie die Daten dort ab, wo sie sich befinden. Dies ist für viele unserer Kunden der erste Gewinn von Data Mesh, da unsere offenen und anhängbaren Konnektoren es unseren Kunden ermöglichen, eine Verbindung zu Datenquellen wie SQL, Text, Big Data oder Tensorflow herzustellen.

‍

Ermöglichen Sie es Teams, Datenprodukte zu erstellen

Nachdem Sie einem Datenteam die gewünschten Daten zur Verfügung gestellt haben, besteht der nächste Schritt darin, ihm beizubringen, wie Datensätze in Datenprodukte umgewandelt werden können. Richten Sie dann mithilfe eines Datenprodukts eine Datenproduktbibliothek oder einen Katalog ein. Blossom Studio enthält einen Katalog, mit dem Sie schnell nach Datenelementen suchen, diese finden und identifizieren können, die für Sie von Interesse sein könnten.

Da Sie Datenprodukte schnell produzieren und dann unternehmensweit bereitstellen, ist die Entwicklung von Datenprodukten eine wichtige Kompetenz, da Sie Ihren Datenkonsumenten ermöglicht haben, schnell von der Entdeckung zur Ideenfindung und zum Einblick überzugehen.

Aufbau und Wartung eines Data Mesh

The Blossom Sky Federated AI and Data Mesh Platform — Die föderierte KI- und Datamesh-Plattform von Blossom Sky

‍

Das Blossom Development Environment (BDE) oder Apache Wayang werden für diejenigen nützlich sein, die ihr Data Mesh-Abenteuer unbedingt beginnen möchten oder gerade erst beginnen. Tatsächlich buchen viele einen Solution Architect bei uns, der sie bei der Bewältigung dieser herausfordernden und lohnenden Aufgabe unterstützt. Es erfordert nicht zu viel Arbeit und ist möglicherweise kostengünstig, risikoarm und zahlt sich mit dem entsprechenden Plan sehr aus. Ziel einer Sitzung mit unseren Solution Architects ist es, herauszufinden, wie Data Mesh aus Technologie-, Personal- und Prozesssicht in Ihr Unternehmen passt. Sie werden auch in der Lage sein, Ihre Stärken und Grenzen einzuschätzen. Wenn Sie bereit sind, Ihr Data Mesh-Transformationsprogramm zu starten, können Sie alle Erkenntnisse so zusammenfassen, dass Sie schneller vorankommen können, und nachlassen, wo Sie Abhilfemaßnahmen benötigen. Eine Sitzung mit einem spezialisierten Architekten von uns besteht aus einer dreistündigen Beratung, in der wir Folgendes besprechen:

Der Umfang und die Auswahl des Anwendungsfalls.
Welche Umgebungen vor dem MVP müssen für frühzeitige Design- und Unterstützungsmaßnahmen eingerichtet werden?
Wie man Datenprodukte entwirft, verbessert und nutzt.
Und schließlich sollten Sie das Data Mesh als Teil Ihrer Datenstrategie nutzen.

Vereinbaren Sie ein Beratungsgespräch mit uns über unsere Kontakt-Formular, wir sind hier, um Sie auf Ihrem Weg zu einer zukunftsfähigen datengesteuerten Organisation zu unterstützen.

‍

Über Scalytics

Scalytics erleichtert es Unternehmen, KI für das Datenmanagement zu nutzen. Dies geschieht durch die Verbesserung von Kafka und Confluent Streaming mit agentengesteuerter Intelligenz, Echtzeit-Einblicken und föderiertem Lernen.

Unser Hauptprodukt, Scalytics Connect, bietet intelligente Topics, kontinuierliches Lernen und KI-fähiges Messaging über das Model Context Protocol (MCP). Es verbindet verschiedene Datentypen und stellt sicher, dass Regeln eingehalten werden und die Privatsphäre geschützt wird, ohne dass die Pipelines, die Teams bereits nutzen, geändert werden müssen.
Mit Funktionen wie Autodiscovery und indexbasierter Suche bietet Scalytics Connect ein zukunftsweisendes, transparentes Framework, das schnelle Produktiteration, robuste Skalierung und erklärbare KI unterstützt. Durch die Kombination von Agenten, Datenflüssen und Geschäftsanforderungen hilft Scalytics Unternehmen, traditionelle Beschränkungen zu überwinden und die Möglichkeiten moderner KI voll auszuschöpfen.

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.