Inhaltsverzeichnis

Nutzung von Unternehmensdaten für KI/ML und LLMs: Ein strategischer Rahmen

Nutzung von Unternehmensdaten für KI/ML und LLMs: Ein strategischer Rahmen

Im vorherigen Artikel habe ich betont, dass Large Language Models (LLMs) nicht nur ein technisches Unterfangen, sondern eine strategische Notwendigkeit sind. In dieser Diskussion werde ich darauf eingehen, wie Unternehmen Daten effektiv für KI/ML- und LLM-Anwendungsfälle nutzen können. Aus meiner langjährigen Erfahrung als CISO und nun als Berater für KI/ML-Strategien habe ich beobachtet, dass viele Organisationen einen ganzheitlichen Ansatz im Datenmanagement vermissen lassen.

Das Daten-Dilemma

Daten werden in vielen Organisationen oft als durchweg sensibel betrachtet, das heißt, alles unter der Sonne ist wichtig. Es gibt jedoch eine eklatante Diskrepanz: Sicherheitsteams und Geschäftsbereiche müssen genau verstehen, wo sich Daten befinden oder wie sie genutzt werden. Jede Abteilung arbeitet isoliert, erstellt, nutzt und speichert Daten unabhängig und häufig ohne standardisierte Prozesse. Dieses Szenario ist ebenso häufig bei KI/ML- und LLM-Anwendungsfällen zu beobachten, bei denen technische Teams zu wenig Einblick in die Datenlandschaft der Organisation haben. Es stellt sich die Frage: Wer ist dafür verantwortlich, die Daten der Organisation zu organisieren, zu strukturieren und zu schützen?

Die Notwendigkeit eines Data Stewards

Es besteht ein dringender Bedarf an einer eigenen Position, die für das Management des gesamten Datenlebenszyklus der Organisation verantwortlich ist – von der Erstellung bis zur Löschung, unter Einhaltung gesetzlicher Vorgaben. Diese Rolle sollte sich klar von der des CIO oder CISO unterscheiden. Der CIO konzentriert sich auf operative Effizienz, und Kosteneinsparungen können im Widerspruch zu einer umfassenden Datenverwaltung stehen. Ebenso kann der Fokus des CISO auf Datenschutz die innovative Datennutzung einschränken. Daher ist eine neue Rolle, idealerweise ein Data Steward, unerlässlich. Diese Person sollte über tiefgehende Kenntnisse des Geschäfts verfügen und in der Lage sein, Zusammenhänge zwischen Datenerstellung, -nutzung und -löschung herzustellen.

Ein entscheidender „Schritt Null“: Das Datenumfeld verstehen

Nachdem die Organisationsstruktur festgelegt wurde, ist es wichtig, das umfassendere Datenumfeld zu verstehen. Organisationen sollten eine umfassende Datenprüfung durchführen, um den aktuellen Stand der Daten in den einzelnen Abteilungen zu erfassen. Dies beinhaltet:

  • Katalogisieren Sie Datenquellen: Erfassen Sie alle Datenquellen, einschließlich technischer Daten, Datenbanken, Anwendungen, Drittanbieterdiensten und manuellen Dateneingabepunkten.
  • Datenformate: Erkennen Sie die verschiedenen Formate, in denen Daten vorliegen, wie z. B. strukturierte, unstrukturierte, semi-strukturierte usw.
  • Datenfluss: Verstehen Sie, wie Daten durch verschiedene Prozesse innerhalb der Organisation fließen, wobei Integrationspunkte und potenzielle Engpässe hervorgehoben werden.

Praktische Schritte, um das volle Potenzial Ihrer Daten auszuschöpfen

Schritt 1: Identifizieren Speicherorte für Daten

  • Der erste Schritt besteht darin, dass jede Abteilung ihre wichtigen Daten klar definiert. Die Abteilungen sind am besten in der Lage, die von ihnen erzeugten und genutzten Daten sowie die Bedingungen für deren Löschung zu identifizieren. In diesem Schritt geht es darum, die „Kronjuwelen“ auf Abteilungsebene zu bestimmen und ihre Speicherorte genau zu lokalisieren.

Schritt 2: Daten entdecken und klassifizieren 

  • Definieren Sie klare und einfache Datenklassifizierungen, idealerweise auf drei Stufen beschränkt, um die Nutzbarkeit in der gesamten Organisation zu gewährleisten. Einfache Klassifizierungsschemata sind in der Regel erfolgreicher und leichter zu verwalten. Sobald die kritischen Daten, die sogenannten „Kronjuwelen“, klassifiziert und identifiziert sind, beginnen Sie mit dem Auffinden und Taggen dieser Daten. Die Auswahl der richtigen Technologie für diesen Schritt ist entscheidend, da viele Organisationen Schwierigkeiten haben, dieses Stadium zu erreichen – das Erreichen stellt daher einen bedeutenden Meilenstein dar. Der Einsatz von Data Security Posture Management (DSPM)-Lösungen kann entdeckte Daten automatisch taggen und so den Prozess weiter vereinfachen. Darüber hinaus erleichtern klassifizierte und getaggte Daten dem Data Loss Prevention (DLP)-Team die Identifizierung von Abweichungen und Exfiltrationsversuchen, was einen greifbaren Vorteil für CISOs darstellt.

Schritt 3: Zentralisierte Daten-Transparenzplattform

  • Organisationen sollten sich darauf konzentrieren, eine zentrale Plattform zu implementieren, die einen umfassenden Überblick über alle ihre Daten bietet. Dieser Ansatz hilft, identifizierte Risiken zu reduzieren, wie etwa die unbeabsichtigte Nutzung sensibler Daten durch Modelle, die keinen Zugriff haben sollten, oder den Zugriff von Nutzern auf KI-Tools und Daten, auf die sie keinen Zugriff haben sollten. Eine zentrale Sichtbarkeitsplattform kann beispielsweise Administratoren benachrichtigen, wenn ein unbefugter Nutzer versucht, über ein KI-Tool auf vertrauliche Kundendaten zuzugreifen.

Vor einigen Jahren, als wir einem großen Telekommunikationsunternehmen halfen, wiesen wir auf ein erhebliches Problem hin: Kundendaten wurden je nach Bedarf der einzelnen Abteilungen an verschiedenen Orten gespeichert. Marketing, Finanzen und Technik hatten jeweils ihre eigenen Datenspeicher, was zu mehreren Kopien desselben Datensatzes führte. Diese Situation schuf ein komplexes Ökosystem und brachte enorme Sicherheits- und Compliance-Probleme mit sich. Hätten sie eine zentrale Plattform mit umfassender Transparenz implementiert, wäre dieses Problem leichter zu lösen gewesen. Durch die Vermeidung von Datensilos, die Sicherstellung der Compliance und die Verbesserung der Sicherheit bietet eine solche Plattform einen vollständigen Überblick über den Datenzugriff und die Datennutzung und schützt letztlich die Datenwerte des Unternehmens.

Schritt 4: Grundlegende technische Best Practices umsetzen

  • Implementieren Sie die Normalisierung und Verschleierung von Daten von Produktions- zu Entwicklungsumgebungen.
  • Sichern Sie regelmäßig Daten, um deren Integrität und Verfügbarkeit zu gewährleisten.
  • Verwenden Sie rollenbasierte Zugriffskontrolle (RBAC) und Zwei-Faktor-Authentifizierung (2FA), um die Datensicherheit zu erhöhen.
  • Führen Sie regelmäßige Audits und Penetrationstests durch, um Systemschwachstellen und unbefugten Zugriff zu identifizieren.

Der Einstieg mit diesem strukturierten Ansatz hilft Organisationen, eine solide Grundlage für die Nutzung von Unternehmensdaten auf ihrer KI/ML-Reise zu schaffen. Dieses Rahmenwerk mindert Sicherheitsrisiken und minimiert die Ansammlung von technischem Schulden.

Wie würden Sie Organisationen dabei unterstützen, das volle Potenzial ihrer Datenressourcen auszuschöpfen, Innovationen voranzutreiben und sich einen Wettbewerbsvorteil zu verschaffen? Lassen Sie uns darüber sprechen.

Erlebe Cyera

Um Ihr Datenversum zu schützen, müssen Sie zunächst herausfinden, was darin enthalten ist. Lassen Sie uns helfen.

Holen Sie sich eine Demo →
Decorative