Wie Blossom Sky das Gesundheitswesen mit föderierten Data Lakes und KI digitalisiert

March 14, 2023
-
Team für den öffentlichen Sektor
-

Eine der bedeutendsten und schwierigsten Branchen im öffentlichen Sektor ist das Gesundheitswesen und das Gesundheitsmanagement. Die Arbeit mit Daten und KI in diesem Sektor bedeutet, die privaten und sensiblen Informationen von Millionen von Menschen zu handhaben, zu verwalten und zu nutzen und gleichzeitig neue Technologien und Lösungen zu entwickeln. Wenn es um den Datenaustausch und die datengesteuerte Zusammenarbeit geht, die für den Fortschritt der Forschung und die Verbesserung der Ergebnisse von entscheidender Bedeutung sind, steht das Gesundheitswesen auch vor zahlreichen Herausforderungen und Einschränkungen.

Die wichtigsten Datenherausforderungen im Gesundheitswesen

Eine der größten Herausforderungen ist der Datenschutz. Gesundheitsdaten enthalten personenbezogene Daten, aus denen Identitäten, Diagnosen, Behandlungen und andere vertrauliche Daten hervorgehen können. Die Weitergabe dieser Daten an verschiedene Institutionen oder Organisationen kann ein ernstes Risiko von Datenschutzverletzungen, Identitätsdiebstahl, Diskriminierung oder Missbrauch bergen. Darüber hinaus unterliegen Gesundheitsdaten strengen Vorschriften und ethischen Standards, die ihre Verwendung und Verbreitung einschränken.

Eine weitere Herausforderung ist die Datenverfügbarkeit. Gesundheitsdaten sind oft fragmentiert und aus verschiedenen Quellen wie Krankenhäusern, Kliniken, Labors, Apotheken oder elektronischen Patientenakten (EHRs) isoliert. Dies macht es schwierig, auf Daten von verschiedenen Standorten und Domänen zuzugreifen und diese zu integrieren. Darüber hinaus sind Gesundheitsdaten aufgrund menschlicher Fehler oder Systemausfälle häufig unvollständig oder inkonsistent.

Diese Herausforderungen behindern das Potenzial des Einsatzes künstlicher Intelligenz (KI) und maschinellen Lernens (ML) in Anwendungen im Gesundheitswesen. KI und ML sind leistungsstarke Tools, die helfen können, große Datenmengen zu analysieren, Muster und Erkenntnisse zu entdecken, Vorhersagen und Empfehlungen zu treffen und Aufgaben zu automatisieren. KI und ML benötigen jedoch Zugriff auf ausreichende und vielfältige Datensätze, um genaue und robuste Modelle zu trainieren, die sich gut auf neue Situationen übertragen lassen.

Beispiele für Federated Data Lakes aus der Praxis

Federated Data Lakes sind ein neues Paradigma, das darauf abzielt, diesen Herausforderungen zu begegnen, indem kollaboratives Lernen ermöglicht wird, ohne Rohdaten auszutauschen. Blossom Sky ermöglicht mehreren Parteien (z. B. Krankenhäusern), gemeinsam ein gemeinsames ML-Modell zu trainieren, indem nur Modellaktualisierungen (z. B. Gradienten oder Parameter) anstelle von Rohdaten ausgetauscht werden. Auf diese Weise schützt ein Federated Data Lakehouse die persönlichen Daten, indem die Daten bei jeder Partei lokal gespeichert bleiben und gleichzeitig vom kollektiven Wissen aller Beteiligten profitiert wird. Der föderierte Datenzugriff hat viele Vorteile für Anwendungen im Gesundheitswesen:

  • Verbessert die Qualität und Vielfalt der Daten, indem Informationen aus verschiedenen Quellen aggregiert werden, ohne den Datenschutz oder die Sicherheit zu gefährden.
  • Reduziert die Kosten und die Komplexität des Datenmanagements, indem die zentrale Speicherung oder Verarbeitung großer Mengen vertraulicher Daten vermieden wird.
  • Verbessert die Skalierbarkeit und Effizienz des Lernens, indem die Berechnung auf mehrere Geräte oder Knoten verteilt wird, anstatt sich auf einen einzelnen Server oder eine Cloud zu verlassen.
  • Fördern Sie Innovation und Zusammenarbeit, indem Sie institutions- oder domänenübergreifendes Lernen ohne rechtliche oder ethische Barrieren ermöglichen.

Föderierte datengestützte Projekte wurden bereits [1] in verschiedenen Bereichen des Gesundheitswesens angewendet, z. B. in der medizinischen Bildgebung, Gesundheitsfernüberwachung, Genomik und COVID-19-Erkennung. Einige Beispiele sind:

  • Das ABIDE-Projekt verwendete FL, um Modelle mit empfindlichen fMRT-Bildgebungsdaten zur Identifizierung von Krankheitsbiomarkern zu trainieren.
  • Das iPC [2] -Projekt nutzte FL, um Modelle mit Genomdaten für eine personalisierte Krebsbehandlung zu trainieren.
  • Das COVID-Collab-Projekt [3] nutzte FL, um Modelle mit Smartphone-Sensordaten zur Überwachung der COVID-19-Symptome zu trainieren.

Herausforderungen und wie Blossom Sky hilft, sie zu lösen

Die föderierte Datenverarbeitung hat ihre Herausforderungen. Um diese Herausforderungen zu bewältigen, entwickeln Forscher und Unternehmen wie DataBloom AI neuartige Techniken wie Komprimierung, Aggregation, Verschlüsselung und automatisierte Datenregulierung. Das Flaggschiffprodukt von DataBloom, Blossom Sky, kann einige dieser Herausforderungen lösen oder mildern. Hier sind die am häufigsten gestellten Fragen und unsere Antworten.

Die föderierte Datenverarbeitung erfordert eine häufige Kommunikation zwischen den Parteien, um Modellaktualisierungen auszutauschen, was insbesondere bei großen Modellen oder Datensätzen Bandbreitenressourcen beanspruchen kann.

Das stimmt, und deshalb haben wir in erster Linie unsere Federated Data Plattform „Blossom Sky“ entwickelt. Blossom Sky organisiert die Kommunikation und minimiert die Menge der übertragenen Daten. Gleichzeitig wird sichergestellt, dass nur genehmigte Daten von den teilnehmenden Parteien verwendet werden. Es verfügt über eine umfassende Benutzeroberfläche, die es mehreren Parteien ermöglicht, an demselben Projekt zusammenzuarbeiten, wobei Änderungen nachverfolgt und für das gesamte Team transparent gemacht werden. Man kann es sich als das „Google Docs of AI“ vorstellen.

An der Datenföderation sind heterogene Parteien beteiligt, die möglicherweise unterschiedliche Gerätetypen (z. B. Smartphones oder Server), Datensätze (z. B. Größe versus Verteilung), Ziele (z. B. Genauigkeit oder Datenschutz) usw. haben, was sich auf die Konvergenz und Leistung der FL-Algorithmen auswirken kann.

Blossom Sky verwendet Apache Wayang als Basis. Apache Wayang ist ein plattformübergreifendes Datenverarbeitungssystem, das darauf abzielt, die Geschäftslogik von Datenanalyseanwendungen von konkreten Datenverarbeitungsplattformen wie Apache Flink, Apache Spark, Tensorflow oder anderen Daten- oder KI-Frameworks zu entkoppeln. Es ist ein API-First-System, das für die vollständige Unterstützung der plattformübergreifenden Datenverarbeitung entwickelt wurde und es Benutzern ermöglicht, Datenanalysen über mehrere Datenverarbeitungsplattformen, Knoten oder Geräte durchzuführen, ohne den nativen Code zu ändern. Dies ermöglicht eine größere Flexibilität und Benutzerfreundlichkeit verschiedener Geräte und Datensätze.

Federated Data Lakes sind nach wie vor mit Sicherheitsbedrohungen wie böswilligen Parteien konfrontiert, die Modellaktualisierungen manipulieren oder mithilfe verschiedener Angriffe wie Poisoning oder Inferenz private Informationen daraus ableiten können.

Dies ist korrekt, denn bei jedem KI/ML-Projekt ist das Ergebnis nur so gut wie die dahinter stehenden Daten. Bei der föderierten Datenverarbeitung gibt es mehrere Methoden, um sich vor Datenvergiftungsangriffen zu schützen. Ein Ansatz besteht darin, einen Algorithmus für isolierte Waldstrukturen zu verwenden, um Anomalien in den Daten zu erkennen. Ein anderer Ansatz besteht darin, während der Teilnahmephase von FL einen genetischen Algorithmus zu verwenden, um eine optimale Datenkombination zu finden, mit der Datenvergiftungsangriffe vermieden werden. DataBloom AI investiert in die Erforschung von Ansätzen zur Schadensbegrenzung und entwickelt gemeinsam mit Universitäten und Early Adopters Prototypen, die Teil zukünftiger Versionen von Blossom Sky sein werden.

Ein föderiertes Data Lakehouse ist ein aufstrebendes Konzept, das das datengesteuerte Gesundheitswesen transformiert, indem es den Datenschutz wahrenden kollaborativen Datenzugriff und die Verarbeitung von Daten durch mehrere Parteien ermöglicht, ohne dass Rohdaten ausgetauscht werden müssen. Auf diese Weise können föderierte Daten neue Möglichkeiten für Innovation, Forschung und Verbesserung im Gesundheitswesen eröffnen und gleichzeitig ethische, rechtliche und soziale Werte respektieren.

[1]: Die Zukunft der digitalen Gesundheit mit föderiertem Lernen | npj Digital Medicine (nature.com)

[2]: iPC tritt gegen Krebs bei Kindern an | iPC Project EU

[3]: Überblick ‹ CoLab zur Bekämpfung der Pandemie | MIT Media Lab

Über Scalytics

Da die Anforderungen an die moderne KI-Entwicklung steigen, haben traditionelle ETL-Plattformen Schwierigkeiten, Schritt zu halten, da sie durch ihre eigenen Einschränkungen in Bezug auf Datenbewegungen und Verarbeitungsgeschwindigkeit blockiert werden. Scalytics Connect ist die Lösung der nächsten Generation, die speziell für die Optimierung von KI-Trainings durch innovative Datenintegrationsfunktionen entwickelt wurde.

Wir ermöglichen es Ihnen, datengestützte Entscheidungen in Minuten statt Tagen zu treffen
Scalytics ist basierend auf Apache Wayang, und wir sind stolz darauf, das Projekt zu unterstützen. Du kannst dir ihr öffentliches GitHub-Repo hier ansehen. Wenn Dir unsere Software gefällt - ein Star ⭐ würde viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.
back to all articlesFollow us on Google News
Schneller zum KI-Erfolg
Kostenlose White Paper. Erfahren Sie, wie Scalytics KI und ML optimiert und Unternehmen in die Lage versetzt, schnellere KI-Erfolge zu erzielen.

Starten Sie noch heute mit Scalytics Connect

Thank you! Our team will get in touch soon.
Oops! Something went wrong while submitting the form.