Scalytics | Föderiertes Lernen erklärt (Teil 2)

Dies ist der zweite Beitrag in unserer Federated Learning (FL) -Reihe. In unserem vorherigen Beitrag haben wir Folgendes vorgestellt FL als Ansatz für verteiltes maschinelles Lernen (ML) wobei Rohdaten von verschiedenen Arbeitern nicht aus den Arbeitern entfernt werden. Wir werfen nun einen Blick auf Databloom Blossom, ein föderiertes Data Lakehouse-Analytics-Framework, das eine Lösung für föderiertes Lernen bietet.

Die Forschungs- und Industriegemeinschaften haben bereits damit begonnen, mehrere Systeme im Bereich des föderierten Lernens bereitzustellen. TensorFlow Federated [1], Flower [2] und OpenFL [3] sind nur einige Beispiele für solche Systeme. All diese Systeme ermöglichen es Organisationen und Einzelpersonen (Benutzern), ihre ML-Aufgaben auf einfache und föderierte Weise über eine einzige Systemschnittstelle bereitzustellen.

Was ist das Problem?

Es gibt jedoch immer noch mehrere offene Probleme, die mit diesen Lösungen nicht gelöst wurden, wie z. B. die Wahrung des Datenschutzes, das Debuggen von Modellen, die Verkürzung der Trainingszeiten an der Wanduhr und die Reduzierung der trainierten Modellgröße. Alle von gleicher Bedeutung. Unter all diesen offenen Problemen ist eines von entscheidender Bedeutung: die Unterstützung durchgehender Pipelines. Derzeit müssen Benutzer über gute Kenntnisse verschiedener Big-Data-Systeme verfügen, um ihre durchgängigen Pipelines erstellen zu können. Sie müssen alles wissen, von Datenaufbereitungstechniken bis hin zu ML-Algorithmen. Darüber hinaus müssen Benutzer über gute Programmierkenntnisse verfügen, um alle Teile (Systeme) in einer einzigen durchgängigen Pipeline zusammenfügen zu können. Die FL-Einstellung verschärft das Problem nur.

‍

‍Blossom Sky im Überblick‍

Blossom Sky ist eine Federated Data Lakehouse Analytics-Plattform, die Benutzern beim Aufbau ihrer durchgängigen föderierten Pipelines hilft. Blossom deckt das gesamte Analysespektrum in durchgängigen Pipelines ab und führt sie auf föderierte Weise aus. Insbesondere bei Blossom können sich Benutzer ausschließlich auf die Logik ihrer Anwendungen konzentrieren, anstatt sich Gedanken über das System, die Ausführung und die Bereitstellung machen zu müssen.

Blossom Sky general architecture — Allgemeine Architektur von Blossom Sky

Abbildung 1 veranschaulicht die allgemeine Architektur von Blossom. Insgesamt bietet Blossom Sky zwei einfache Benutzeroberflächen, mit denen Benutzer ihre Pipelines entwickeln können: Python (FedPy) für Datenwissenschaftler und ein grafisches Dashboard (Fedux) für Benutzer im Allgemeinen.

‍

Mit Blossom Sky können Benutzer ihre föderierten Datenanalysen auf einfache Weise für eine schnelle Ausführung entwickeln.

‍

Genauer gesagt spezifizieren Benutzer ihre Pipelines mithilfe einer dieser beiden Schnittstellen, und Blossom Sky wiederum führt sie auf föderierte Weise unter Verwendung eines beliebigen Cloud-Anbieters und einer beliebigen Datenverarbeitungsplattform aus.

WordCount program in Blossom Sky — WordCount-Programm in Blossom Sky

Die obige Liste zeigt die einfache WordCount-Anwendung in Blossom. Die ersten drei Zeilen ermöglichen es dem Benutzer, die Plattform für die Verwendung in Blossom zu registrieren (in unserem Beispiel Java und Spark). Die verbleibenden Codezeilen sind das eigentliche WordCount-Programm. Das Schöne an Blossom ist, dass der Benutzer nicht entscheiden muss, auf welcher Datenverarbeitungsplattform das Programm ausgeführt werden soll (Java oder Spark). Blossom entscheidet anhand der Eigenschaften des Eingabedatensatzes und der Verarbeitungsplattformen (wie der Größe des Eingabedatensatzes und der Größe des Spark-Clusters) über die tatsächliche Ausführung. Dies kann über einen KI-gestützten plattformübergreifenden Optimierer und Executor geschehen.

KI-gestützter Abfrageoptimierer

In seinem Kern finden wir Apache Wayang [4], das erste plattformübergreifende Datenverarbeitungssystem. Blossom nutzt und stattet Apache Wayang mit KI aus, um heterogene (föderierte) Datenpipelines zu vereinheitlichen und zu optimieren sowie den richtigen Cloud-Anbieter und die richtige Datenverarbeitungsplattform für den Betrieb der resultierenden föderierten Datenpipelines auszuwählen. Dadurch können Benutzer allgemeine Datenanalysen und KI auf jeder Datenverarbeitungsplattform nahtlos zusammen ausführen. Der Optimierer von Blossom bietet hauptsächlich eine Zwischendarstellung zwischen Anwendungen und Verarbeitungsplattformen, was es ihm ermöglicht, die Pipelines der Benutzer mithilfe mehrerer Verarbeitungsplattformen flexibel zusammenzustellen. Neben der Übersetzung der Benutzer-Pipelines auf die zugrunde liegenden Verarbeitungsplattformen entscheidet der Optimierer, wie eine Pipeline am besten ausgeführt werden kann, sodass die Laufzeit verbessert wird, und wie Daten von einer Verarbeitungsplattform (oder einem Cloud-Anbieter) auf eine andere verschoben werden.

Plattformübergreifender Executor

Blossom Sky verfügt außerdem über einen Cloud-nativen Executor, mit dem Benutzer ihre föderierten Datenanalysen auf jedem Cloud-Anbieter und jeder Datenverarbeitungsplattform bereitstellen können. Sie können ihren bevorzugten Cloud-Anbieter oder ihre bevorzugte Datenverarbeitungsplattform wählen oder Blossom anhand ihres Zeit- und Geldbudgets den besten Cloud-Anbieter oder die beste Datenverarbeitungsplattform auswählen lassen. In beiden Fällen stellt Blossom die föderierten Pipelines der Benutzer in ihrem Namen bereit und führt sie aus. Noch wichtiger ist, dass sich der Testamentsvollstrecker um alle Datenübertragungen kümmert, die zwischen Cloud-Anbietern und Datenverarbeitungsplattformen stattfinden müssen. Während der Optimierer entscheidet, welche Daten verschoben werden müssen, sorgt der Executor für die effiziente Übertragung der Daten zwischen verschiedenen Anbietern und Datenverarbeitungsplattformen.

Blossom, ein föderiertes Data Lakehouse Analytics-Framework

Dank seines Designs, Optimierers und Executors kann Blossom ein echtes föderiertes Data Lakehouse-Analytics-Framework bereitstellen:

Heterogene Datenquellen
Es kann Daten aus (oder über) mehreren Datenquellen nahtlos verarbeiten.
Plattformübergreifende und hybride Cloud-Ausführung
Es stellt automatisch jeden Unterabschnitt einer Pipeline nahtlos für den relevantesten Cloud-Anbieter und die wichtigste Verarbeitungsplattform bereit, um die Kosten zu senken und die Leistung zu verbessern.
Föderiertes maschinelles Lernen und KI
Es wird mit einem eigenen Framework (einschließlich eines Parameterservers) geliefert, um Pipelines föderiert auszuführen.
Einfache Bedienung
Es ermöglicht Benutzern, sich auf die Logik ihrer Anwendungen zu konzentrieren, indem sie sich darum kümmern, wie ihre Pipelines optimiert, bereitgestellt und ausgeführt werden.

‍

Referenzen

[1] TensorFlow Föderiert: https://www.tensorflow.org/federated
[2] Blume: https://flower.dev/
[3] OpenFL: https://www.openfl.org/
[4] Apache Art: https://wayang.apache.org/

‍

Über Scalytics

Da die Anforderungen an die moderne KI-Entwicklung steigen, haben traditionelle ETL-Plattformen Schwierigkeiten, Schritt zu halten, da sie durch ihre eigenen Einschränkungen in Bezug auf Datenbewegungen und Verarbeitungsgeschwindigkeit blockiert werden. Scalytics Connect ist die Lösung der nächsten Generation, die speziell für die Optimierung von KI-Trainings durch innovative Datenintegrationsfunktionen entwickelt wurde.

Wir ermöglichen es Ihnen, datengestützte Entscheidungen in Minuten statt Tagen zu treffen
Scalytics ist basierend auf Apache Wayang, und wir sind stolz darauf, das Projekt zu unterstützen. Du kannst dir ihr öffentliches GitHub-Repo hier ansehen. Wenn Dir unsere Software gefällt - ein Star ⭐ würde viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.