Föderierte Data Frameworks revolutionieren LLM, KI, ML und Analytik

May 12, 2023
-
Alexander Alten
-

Die Verwendung von Large Language Models (LLMs) mag angesichts der aktuellen Medienbegeisterung für Unternehmen attraktiv sein, die in KI- und LLM-Modi investieren möchten, aber das ist nicht wirklich möglich. Ja, diese Modelle haben unglaubliche Ergebnisse bei einer Vielzahl von Aufgaben der Verarbeitung natürlicher Sprache (NLP) gezeigt, aber sie haben auch mehrere Nachteile, die ihre Benutzerfreundlichkeit und Skalierbarkeit in realen Umgebungen einschränken. In diesem Artikel beleuchten wir, warum große LLMs in Unternehmen möglicherweise keinen großen Erfolg haben und warum kleinere, aber spezialisiertere Modelle die ideale Methode für den Einsatz von KI in Organisationen sind.

Die Herausforderungen großer Sprachmodelle

Eine der größten Herausforderungen großer LLMs ist ihre enorme Größe und ihr Rechenaufwand. Für das Training und die Feinabstimmung dieser Modelle sind Hunderte von Milliarden von Parametern und Tausende von GPUs erforderlich, sodass sie für die meisten Forscher und Praktiker unzugänglich sind. Große Modelle verbrauchen viel Energie und erzeugen eine Menge CO2-Emissionen, was ethische und ökologische Bedenken aufwirft und ihre eigene Voreingenommenheit gegenüber einer Sprache, Kultur oder Ethnie entwickeln kann.

LLMs werden an großen und vielfältigen Textdatensätzen geschult, die ein breites Spektrum von Themen und Domänen abdecken. Dadurch sind sie gut darin, viele generische Aufgaben zu erledigen, aber nicht besonders gut in einem bestimmten domänenorientierten Thema. Darüber hinaus lassen sich LLMs nicht leicht an neue Bereiche oder Aufgaben anpassen, die spezielle Kenntnisse oder Fähigkeiten erfordern. Der große Einfluss auf LLMs in Industriesektoren wirft Fragen auf, die von großen Modellen nicht beantwortet werden, wie zum Beispiel: Wie können wir ein LLM verwenden, um eine seltene Erkrankung zu diagnostizieren oder einen Rechtsvertrag abzuschließen? Wie können wir ein LLM an die Bedürfnisse und Vorlieben eines bestimmten Benutzers oder einer bestimmten Zielgruppe anpassen? Können wir ChatGPT überhaupt verwenden, um unsere Steuern einzureichen und Prüfungen vorzubereiten? Die Antwort lautet immer, nicht wirklich. Zumindest noch nicht.

Auswirkungen auf die Umwelt

DaVinci, das größte und leistungsstärkste LLM, das von OpenAI und BingAI erhältlich ist, hat 175 Milliarden Parameter und wurde ursprünglich mit 45 TB an Textdaten trainiert. Das Training mit einem Token kostet etwa 6 FLOPs pro Parameter, was bedeutet, dass das Training von DaVinci auf seinem gesamten Datensatz etwa 5,25 x 10^20 FLOPs kosten würde. Das entspricht dem Betrieb einer einzelnen NVIDIA Tesla V100-GPU für etwa 3,3 Millionen Jahre!

Inferenz ist auch teuer, da es 1 bis 2 FLOPs pro Parameter kostet, aus einem Token abzuleiten, was bedeutet, dass die Generierung eines Satzes mit 10 Wörtern mit DaVinci etwa 17,5 bis 35 Milliarden FLOPs kosten würde. Das entspricht dem Betrieb einer einzelnen NVIDIA Tesla V100-GPU für etwa 0,01 bis 0,02 Sekunden! Stellen Sie sich vor, welche Leistung ein mittelständisches Unternehmen für ein voll funktionsfähiges GPT3-Modell benötigt, das kontinuierlich anhand dynamischer Datenpunkte wie Chats, Kundenservice, Finanztransaktionen, Patientendaten, Fertigungsdaten von Robotern usw. trainiert wird. Darüber hinaus verbrauchte das GPT-3-Training etwa 700.000 Liter Wasser [1] und etwa 500 MWh bis zu 3 GWh Strom [2].

Randnotiz: Sam Altman, CEO von OpenAI, hat erwähnt, dass allein die Verarbeitungskosten für GPT-4, den Nachfolger von GPT-3, über 100 Millionen US-Dollar betrugen. Das sprengt jedes Budget, ganz zu schweigen von den CO2-Zertifikaten und dem Energieverbrauch in ESG-Berichten.

Vorteile der verteilten Datenverarbeitung für LLM in Unternehmen

Die Lösung für diese Herausforderungen besteht in der Verwendung kleinerer, aber spezialisierter Modelle, die auf bestimmte Domänen und Aufgaben zugeschnitten sind, in Kombination mit verteilter (föderierter) Datenverarbeitung. Diese Modelle können domänenspezifische Daten und Kenntnisse nutzen, um eine höhere Genauigkeit und Effizienz zu erzielen als große LLMs. Und was noch wichtiger ist, diese Modelle können transparenter und erklärbarer sein, sodass die Benutzer ihnen vertrauen und sie besser kontrollieren können. Der Benutzer hat die Kontrolle über die Daten, die zum Trainieren dieser Modelle verwendet werden, stellt sicher, dass kein geistiges Eigentum offengelegt wird, und reduziert bei richtiger Verwendung generative Verzerrungen.

Die verteilte Datenverarbeitung ist eine leistungsstarke Technologie, um das volle Potenzial von Big Data-Analysen, KI, ML, LLM und Datenanalysen im Allgemeinen auszuschöpfen. Unternehmen können mit der zunehmenden Datengeschwindigkeit umgehen und riesige Datenmengen schneller und effektiver als je zuvor verarbeiten, indem sie verteilte Datenverarbeitung implementieren. Die Implementierung von Verbundtechnologie ermöglicht es Unternehmen und Organisationen, zeitnahe und präzise Erkenntnisse aus all ihren häufig verteilten Daten zu gewinnen, sodass sie bessere Entscheidungen treffen und ihre Produktivität steigern können. Die föderierte Datenverarbeitung reduziert auch die mit herkömmlichen Computersystemen verbundenen Kosten, sei es für die Anschaffung und Wartung von Hardware, die Verwaltung des Rechenzentrums oder die Cloud-Kosten — und kann sogar die Mehrausgaben für Cloud-Computing reduzieren.

So wählen Sie die richtige verteilte Computerplattform für Ihre Bedürfnisse

Es ist nicht einfach, kleinere, spezialisiertere Modelle zu erstellen. Das Sammeln, Vorverarbeiten, Kommentieren und Trainieren von Daten für jede Domäne und Aufgabe erfordert einen hohen Aufwand an Daten- und Modelltechnik. Es erfordert auch viel Infrastruktur, Rechenleistung und Orchestrierung, um mehrere Modelle und Datenquellen zu verwalten. Diese Daten sind größtenteils massiv verteilt und verteilen sich auf Dutzende völlig unterschiedliche Datensysteme, seien es Datenbanken, Data Lakes oder andere große Datensilos. Und wenn das nicht genug ist, ist der Zugriff bestenfalls schwierig. Und wenn dieses Problem gelöst ist und die Datenvorschriften in Kraft treten, dürfen einige Daten nicht einmal aus einem speziellen Standort entfernt werden.

Und hier kommt Blossom Sky ins Spiel, um Unternehmen dabei zu helfen, das Beste aus KI, ML und Datenanalyse herauszuholen. Blossom Sky ist unser bahnbrechendes Produkt, das Unternehmen dabei hilft, ihre LLM-Modelle auf verschiedenen und verteilten Dateneinrichtungen zu trainieren. Es bietet eine Plattform für kleinere, aber spezialisierte LLM-Modelle, die gleichzeitig und genau trainiert werden können. Mit Hilfe von Blossom Sky können Unternehmen ihre Daten einfach und effizient verwalten und haben auch Zugriff auf die neuesten Fortschritte in der KI-Technologie. Blossom Sky hilft Unternehmen nicht nur, Zeit und Geld zu sparen, sondern ermöglicht es ihnen auch, bessere Ergebnisse mit ihren Trainingsmodellen zu erzielen.

Vorteile der Implementierung kleiner LLMs in Unternehmen und Organisationen

Kleinere, aber spezialisierte Modelle sind KI-Modelle, die anhand kleinerer Datenmengen trainiert und optimiert werden, die für eine bestimmte Domäne oder Aufgabe spezifisch sind. Ein kleineres Modell kann beispielsweise an Rechtsdokumenten trainiert werden, um Rechtstexte zu erstellen, oder an Krankenakten, um medizinische Berichte zu erstellen, oder an Steuervorschriften, um die nächste Steuererklärung zum richtigen Zeitpunkt mit der genauesten Einreichung aller Zeiten zu erstellen. Einige der Vorteile kleinerer, aber spezialisierter Modelle sind:

  • Sie benötigen weniger Daten und Rechenressourcen für das Training und die Feinabstimmung. Kleinere Modelle haben weniger Parameter und verwenden weniger Daten als große LLM-Modelle. Dies reduziert die Kosten und die Komplexität des Trainings und der Feinabstimmung. Darüber hinaus sind die Daten, die für das Training kleinerer Modelle verwendet werden, für den Zielbereich oder die Zielaufgabe relevanter und zuverlässiger, was die Qualität und Genauigkeit der generierten Texte verbessert.
  • Sie sind domänenspezifisch und aufgabenorientiert. Kleinere Modelle sind für einen bestimmten Bereich oder eine bestimmte Aufgabe optimiert, was bedeutet, dass sie über mehr Wissen und Kontext verfügen, um Texte zu erstellen, die für diesen Bereich oder diese Aufgabe geeignet und nützlich sind. Beispielsweise kann ein kleineres Modell, das an Rechtsdokumenten geschult ist, ein juristisches Dokument mit der gleichen Präzision und Expertise erstellen wie ein menschlicher Experte.
  • Sie sind besser interpretierbar und kontrollierbar. Kleinere Modelle sind transparenter und erklärbarer als große LLM-Modelle. Dies macht es einfacher zu verstehen, wie sie funktionieren, was sie wissen und was sie nicht wissen. Es macht es auch einfacher, ihre Ergebnisse auf der Grundlage persönlicher Anforderungen oder Vorlieben zu kontrollieren oder zu modifizieren. Beispielsweise kann ein kleineres Modell, das anhand von Krankenakten trainiert wurde, einige Beweise oder Gründe für den erstellten medizinischen Bericht liefern.

DataBlooms Entwurf für ein modernes KI-Exzellenzzentrum

Herkömmliche Daten-Engines haben bei der Suche oder Verarbeitung analytischer Abfragen, ML- oder KI-Modelle mit enormen Datenmengen zu kämpfen, die über verschiedene Quellen verteilt sind. An dieser Stelle kommt Blossom Sky ins Spiel. Blossom Sky macht unnötiges Kopieren und Verschieben von Daten überflüssig und reduziert die Kosten für Datenmanagement und ETL-Prozesse. Blossom Sky stellt mithilfe von APIs und programmierbaren APIs eine direkte Verbindung zu verfügbaren Datenverarbeitungsplattformen und Datenbanken her. Unsere Technologie gibt in einer einzigen Abfrage Ergebnisse von Hadoop, S3, Snowflake, ADLS, Spark, Delta Lakes, Lake Houses, BigQuery, Flink, PostgreSQL und vielen anderen Datenplattformen zurück. Blossom Sky bietet eine hocheffiziente, parallelisierte Ausführungsmethode, die Abfragen beschleunigt und gleichzeitig die Zeit bis zur Gewinnung von Erkenntnissen auf wenige Minuten reduziert.

Blossom Sky ermöglicht es Benutzern, auf einfache Weise kleinere, aber spezialisierte Modelle für verschiedene Domänen und Aufgaben über mehrere Datenquellen zu erstellen und zu trainieren, meistens gleichzeitig. Blossom Sky nutzt die Leistungsfähigkeit großer LLMs als Ausgangspunkt, ermöglicht es Benutzern jedoch, sie mit ihren eigenen Daten und Kenntnissen anzupassen. Blossom Sky unterstützt auch das gleichzeitige Training mehrerer LLMs auf verschiedenen, unabhängigen Datenquellen, sodass Benutzer vielfältige und robuste Modelle erstellen können, die unterschiedliche Szenarien bewältigen können.

Mit Blossom Sky können Benutzer vom Besten aus beiden Welten profitieren: der Allgemeinheit und Skalierbarkeit von LLMs und der Spezifität und Interpretierbarkeit kleinerer, aber spezialisierter Modelle. Blossom macht jede Analytics-Architektur zukunftssicher, indem es Datenspeicherung und -verarbeitung trennt und es dem Unternehmen ermöglicht, die besten BI-Apps jetzt und in Zukunft besser zu nutzen. Blossom bietet außerdem die Effizienz und Flexibilität, um schneller Erkenntnisse zu gewinnen, und das bei hoher Parallelität durch eine integrierte kostenbasierte Abfrageoptimierung.

LLM-Training in der Praxis mit Blossom Sky

Lassen Sie uns ein Beispiel verwenden: Ein Finanzinstitut möchte ein LLM-basiertes Kreditbewertungssystem in Kombination mit einem Modell zur Bekämpfung der Geldwäsche aufbauen, um den Missbrauch von Krediten für kriminelle Aktivitäten zu verhindern. Diese Pipeline umfasst mehrere Datensilos, die von verschiedenen Teams an mehreren, meist internationalen Standorten betrieben werden. In einer traditionellen Datenarchitektur, die typischerweise mehrere Datensilos, Datenbanken oder separate Datenseen umfasst, könnte die Datenarchitektur wie in diesem Bild aussehen:

Traditional, siloed data architecture
Traditionelle, isolierte Datenarchitektur

Der Vorteil von Blossom Sky

Benutzer von Blossom Sky können Daten aus zahlreichen Quellen für die clusterübergreifende Ausführung mithilfe von Funktionen wie kostenbasierter Abfrageoptimierung, automatischer Datenregulierung (in Entwicklung) sowie Datenverarbeitung und Abfrageverbund abfragen abfragen. Dadurch entfällt die Notwendigkeit, ausgeklügelten Code, Abfragen und Datenintegrationsprozesse zu schreiben, was mehrere potenzielle Abfragefehler und Gefahren mit sich bringt, um dieselben Ergebnisse zu erzielen.

Bei Blossom Sky sieht der gleiche Ansatz wie in diesem Bild aus:

Blossom, the federated data platform
Blossom, die föderierte Datenplattform

Blossom Sky-Benutzer haben den "unfairen" Vorteil, dass sie sich nicht um die Datenarchitektur kümmern oder auch nicht darum, welche Abfragesprache sie verwenden müssen. Blossom Sky-Benutzer greifen auf umfassendere Daten zu und analysieren sie mithilfe ihrer vorhandenen Tools und Kenntnisse, die auf ihrer bevorzugten Programmiersprache wie Java, SQL oder Python basieren. Mit unserer Low-Code-Benutzeroberfläche reduzieren wir die Feinheiten von Datenmodulen, Verarbeitung und Abfragesprache. Benutzer von Blossom Sky können sich auf ihre Aufgaben konzentrieren und gleichzeitig Tools verwenden, mit denen sie vertraut sind und die sie mögen. Sie sind jedoch nicht eingeschränkt; sie können sich mithilfe ihrer Programmiersprache eingehend mit der föderierten Daten- und Abfrageverarbeitung befassen. Blossom ermöglicht die unternehmensweite Zusammenarbeit, sodass Benutzer gemeinsam an demselben Projekt arbeiten und viel effektiver kommunizieren können. Dieselbe Datenpipeline sieht jetzt so aus:

The Blossom Sky UI - Low-Code Data Science
Die Blossom Sky-Benutzeroberfläche — Low-Code-Datenwissenschaft

Fazit

Kleinere, aber spezialisierte Modelle sind KI-Modelle, die anhand kleinerer Datenmengen trainiert und optimiert werden, die für eine bestimmte Domäne oder Aufgabe spezifisch sind. Zu den Vorteilen der Implementierung kleiner LLMs in Unternehmen und Organisationen gehören die Einsparung von Zeit und Geld, schnellere Einblicke und die Möglichkeit, bessere Ergebnisse mit ihren Modellen zu erzielen. Blossom Sky ist ein Datenbeschleuniger, der Abfragen über Datenverarbeitungsinfrastrukturen verteilt und gleichzeitig die Zeit bis zur Gewinnung von Erkenntnissen auf Minuten reduziert. Er ermöglicht es Benutzern, auf einfache Weise kleinere, aber spezialisierte Modelle für verschiedene Domänen und Aufgaben über mehrere Datenquellen zu erstellen und zu trainieren. Es unterstützt auch das gleichzeitige Training mehrerer LLMs auf verschiedenen, unabhängigen Datenquellen, sodass Benutzer mithilfe der aktuellen Datenarchitektur vielfältige und robuste Modelle erstellen können.

Mit Hilfe von Blossom Sky können Unternehmen ihre Daten einfach und effizient verwalten und haben Zugriff auf die neuesten Fortschritte in der KI-Technologie.

Links:

[1] Beim GPT-3-Training wurden 700.000 Liter Wasser verbraucht, „genug für die Produktion von 370 BMWs“ (interestingengineering.com)

[2] (1) [D] Schätzung des Energieverbrauchs von GPT3 175B.: MachineLearning (reddit.com)

Über Scalytics

Da die Anforderungen an die moderne KI-Entwicklung steigen, haben traditionelle ETL-Plattformen Schwierigkeiten, Schritt zu halten, da sie durch ihre eigenen Einschränkungen in Bezug auf Datenbewegungen und Verarbeitungsgeschwindigkeit blockiert werden. Scalytics Connect ist die Lösung der nächsten Generation, die speziell für die Optimierung von KI-Trainings durch innovative Datenintegrationsfunktionen entwickelt wurde.

Wir ermöglichen es Ihnen, datengestützte Entscheidungen in Minuten statt Tagen zu treffen
Scalytics ist basierend auf Apache Wayang, und wir sind stolz darauf, das Projekt zu unterstützen. Du kannst dir ihr öffentliches GitHub-Repo hier ansehen. Wenn Dir unsere Software gefällt - ein Star ⭐ würde viel bedeuten!

Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.
back to all articlesFollow us on Google News
Schneller zum KI-Erfolg
Kostenlose White Paper. Erfahren Sie, wie Scalytics KI und ML optimiert und Unternehmen in die Lage versetzt, schnellere KI-Erfolge zu erzielen.

Starten Sie noch heute mit Scalytics Connect

Thank you! Our team will get in touch soon.
Oops! Something went wrong while submitting the form.