Inhaltsverzeichnis

Datenwildwuchs

Datenwildwuchs bezeichnet die erheblichen Datenmengen, die viele Organisationen täglich erzeugen. Datenwildwuchs kann als die Entstehung von Daten oder digitalen Informationen definiert werden, die von Unternehmen generiert werden. Daten sind eine wertvolle Ressource, da sie Geschäftsführern ermöglichen, datengestützte Entscheidungen darüber zu treffen, wie sie ihre Kundenbasis am besten bedienen, ihr Unternehmen ausbauen und ihre Prozesse verbessern können. Die Verwaltung großer Datenmengen und zahlreicher Datenquellen kann jedoch eine große Herausforderung darstellen.

Große Unternehmen, insbesondere Konzerne, erzeugen eine überwältigende Menge an Daten. Dies liegt an der Vielzahl eingesetzter Softwareprodukte, neu eingeführten Datenformaten, verschiedenen Speichersystemen in der Cloud und in lokalen Umgebungen sowie an den enormen Mengen an Protokolldaten, die von Anwendungen generiert werden. Es wird eine überwältigende Menge an Daten erzeugt und gespeichert in der modernen Welt.

Woher kommen die Daten?

Wenn Organisationen wachsen und Daten zunehmend für Analysen und Untersuchungen nutzen, werden diese Daten in Betriebssystemen, Servern, Anwendungen, Netzwerken und anderen Technologien gespeichert. Viele Organisationen erzeugen rund um die Uhr riesige Mengen neuer Daten, darunter:

  • Finanzdaten, einschließlich Datentypen wie Banktransaktionen, Webdaten, Geolokalisierungsdaten, Kreditkartendaten und Point-of-Sale-Transaktionsdaten von Anbietern.
  • Vertriebsdaten, die unter anderem den Umsatz pro Vertriebsmitarbeiter, die Konversionsrate, die durchschnittliche Dauer eines Verkaufszyklus, die durchschnittliche Geschäftsgröße, die Anzahl der getätigten Anrufe, das Alter und der Status von Vertriebskontakten, Verlustquoten und die Anzahl der versendeten E-Mails umfassen können.
  • Transaktionsdaten, die Kundendaten, Bestellinformationen, geleistete Arbeitsstunden von Mitarbeitern, Versicherungskosten, Versicherungsansprüche, Versandstatus, Bankeinzahlungen und -abhebungen umfassen können.
  • Soziale Medien, E-Mail und SMS-Kommunikation, die möglicherweise Social-Media-Kennzahlen, demografische Daten, Tageszeiten, Hashtags, Themen und Inhaltsarten umfasst.
  • Ereignisdaten beschreiben Aktionen, die von Entitäten ausgeführt werden (im Wesentlichen Verhaltensdaten); sie umfassen die Aktion, den Zeitstempel und den Zustand (Informationen über Entitäten, die mit dem Ereignis in Zusammenhang stehen). Ereignisdaten sind entscheidend für die Durchführung von Analysen.

 Diese Dateien und Aufzeichnungen sind über mehrere Standorte verteilt, was die Inventarisierung, Sicherung und Analyse all dieser Daten äußerst schwierig macht.  

Wie entsteht Datenwildwuchs?

Datenwildwuchs bezeichnet die ständig wachsende Menge an Daten, die von Unternehmen täglich erzeugt wird. Verstärkt durch den Umstieg in die Cloud können Unternehmen schneller skalieren und dadurch immer mehr Daten produzieren. Neue Anwendungsfälle für Big Data entstehen fortlaufend, was eine Zunahme der gespeicherten Datenmengen in Betriebssystemen, Servern, Netzwerken, Anwendungen und anderen Technologien erfordert.

Die Situation wird zusätzlich dadurch erschwert, dass Datenbanken, Analyse-Pipelines und Geschäftsabläufe zunehmend in die Cloud migrieren und dabei verschiedene Cloud-Service-Provider (CSPs) sowie strukturierte und unstrukturierte Formate nutzen. Dieser Wandel in die Cloud hält an, und ständig entstehen neue Datenspeicher. Verantwortliche für Sicherheit und Risikomanagement (SRM) haben Schwierigkeiten, Datensicherheitskontrollen in dieser Umgebung konsequent zu identifizieren und einzusetzen.

"...die Ausbreitung unstrukturierter Daten (sowohl vor Ort als auch in hybriden/multi-cloud Umgebungen) ist im Vergleich zu strukturierten Daten schwer zu erkennen und zu kontrollieren."

Gartner, Hype Cycle für Datensicherheit, 2022

Organisationen erzeugen rund um die Uhr neue Daten. Die Kundendaten in Customer-Relationship-Management-(CRM)-Systemen können auch Finanzdaten enthalten, die sich ebenfalls in einer Buchhaltungsdatenbank oder einem Enterprise-Resource-Planning-(ERP)-System befinden. Verkaufsdaten und Transaktionsdaten können sich ebenfalls in diesen Systemen befinden und sind oft durch verschiedene Abteilungen, Niederlassungen und Geräte voneinander isoliert. Um die versprochenen Vorteile von Datenanalysen zu nutzen, müssen Datenanalysten mehrere Quellen abgleichen und haben daher möglicherweise Schwierigkeiten, genaue und fundierte Entscheidungen zu treffen.

Letztendlich benötigen Organisationen Daten, um tägliche Arbeitsabläufe zu erleichtern und analytische Erkenntnisse für fundiertere Entscheidungen zu gewinnen. Das Problem ist, dass die Menge an Daten, die Organisationen erzeugen, außer Kontrolle gerät. Laut einer aktuellen IDC-Studie wird erwartet, dass die globale DataSphere von 2022 bis 2026 mehr als doppelt so groß wird. Die weltweite DataSphere misst, wie viele neue Daten jedes Jahr erstellt, erfasst, repliziert und konsumiert werden – und wächst im Enterprise DataSphere doppelt so schnell wie im Consumer DataSphere.

Herausforderungen der Datenverbreitung

Da Organisationen Daten immer schneller erzeugen, wird es zunehmend schwieriger, diese Informationen zu verwalten. Oft sind Daten an verschiedenen Orten gespeichert, was den Zugriff auf geschäftskritische Informationen und die Generierung präziser Erkenntnisse erschwert. Teammitglieder müssen Daten in unterschiedlichen Formaten aus verschiedenen Quellen abgleichen, was Analysen schwierig macht. Die Verwaltung verstreuter Informationen in unterschiedlichen Silos kostet Zeit und Geld. Daten können während der Übertragung, Speicherung und Verarbeitung beschädigt werden. Datenkorruption beeinträchtigt den Wert der Daten, und mit zunehmender Datenverteilung steigt auch die Wahrscheinlichkeit von Korruption.

Darüber hinaus ist der Aufwand vergeudet, wenn Daten von Mitarbeitenden dupliziert werden, die die benötigten Daten nicht an der erwarteten Stelle finden konnten, was wiederum zu sogenannten Geisterdaten führen kann. Diese doppelten Daten gelten als redundant. Andere Daten können veraltet (nicht mehr aktuell) oder trivial (für geschäftliche Erkenntnisse nicht wertvoll) sein. Diese überflüssigen Daten führen zu einem übermäßigen Ressourcenverbrauch und erhöhen die Cloud-Speicherkosten.

Mitarbeitende könnten Daten unachtsam behandeln, ohne zu verstehen, wie ihre Art des Teilens und Umgangs mit Daten Risiken verursachen kann. Unbefugte Personen könnten ebenfalls Zugriff auf sensible Informationen haben, insbesondere wenn die erzeugten und gespeicherten Daten nicht angemessen verwaltet werden. Die manuelle Klassifizierung von Daten ist zeitaufwändig und fehleranfällig und kann das Risiko einer Offenlegung sensibler Daten erhöhen. Daher ist es unerlässlich, automatisierte Lösungen zu finden, um große Datenbestände zu verwalten.

Datenwildwuchs beeinträchtigt den Wert von Daten und stellt erhebliche Sicherheitsrisiken dar. Es gibt außerdem Sicherheitsbedenken, da zu viele Daten schwer zu kontrollieren sein können. Dies erhöht die Wahrscheinlichkeit von Datenschutzverletzungen und anderen Sicherheitsrisiken. Darüber hinaus riskieren Organisationen, die den Datenwildwuchs nicht in den Griff bekommen, das Vertrauen ihrer Kunden zu verlieren und strenge Strafen aufgrund der Datenschutz-Grundverordnung (DSGVO), des California Consumer Privacy Act (CCPA) oder anderer Datenschutzgesetze bei Nichteinhaltung.

Umgang mit Datenwildwuchs

Um die unkontrollierte Ausbreitung von Daten in den Griff zu bekommen, ist ein strukturierter Ansatz für das Datenmanagement erforderlich. Es ist unerlässlich, eine Lösung zur Erkennung und Klassifizierung von Daten einzusetzen. Da Daten sowohl in lokalen als auch in Cloud-Umgebungen verteilt sind, ist es entscheidend, die Speicherorte der Daten zu identifizieren, um sicherzustellen, dass alle Daten erkannt und verwaltet werden. Werkzeuge, die Daten in SaaS-, IaaS- und PaaS-Umgebungen entdecken und klassifizieren können, sind ebenso wichtig wie solche, die strukturierte und unstrukturierte Daten finden und klassifizieren. Ziel dieser Werkzeuge ist es, eine einheitliche Sicht auf die gesamte Umgebung zu schaffen.

Die Identifizierung eines zentralen Ortes zur Speicherung von Daten ist eine Möglichkeit, Datenwildwuchs zu verwalten. Cloud-Sicherheitsstandards werden kontinuierlich verbessert, wodurch ein zentrales Cloud-Repository für viele Unternehmen eine attraktive Option darstellt. Cloud-Speicherplattformen sind eine ausgezeichnete Methode, Daten so zu speichern, dass eine einzige, verlässliche Datenquelle entsteht, die für Mitarbeitende an vielen Standorten besser zugänglich ist. Gleichzeitig müssen Unternehmen Richtlinien für die Datenzugriffsverwaltung (DAG) festlegen, die regeln, wie Daten gesammelt, verarbeitet und gespeichert werden sollen. Diese Richtlinien müssen auch Vorgaben zur Steuerung der Daten enthalten, einschließlich Zugriffskontrollen, Aufbewahrung, Risikomanagement, Compliance und Datenentsorgung (wie sie am Ende ihres Lebenszyklus entsorgt werden). DAG-Richtlinien ergänzen Programme zur Verhinderung von Datenverlust (DLP). Data Security Posture Management (DSPM) kombiniert Datenerkennung und -klassifizierung, Verhinderung von Datenverlust und Datenzugriffsverwaltung, um einen Ansatz der nächsten Generation für Cloud-Datensicherheit zu schaffen.

Lösungen für Datenwildwuchs

Für Organisationen, die Datenwildwuchs eindämmen möchten, ist es unerlässlich zu wissen, welche Daten in der Umgebung existieren, wo sie sich befinden und wer Zugriff darauf hat. Es gibt verschiedene Tools, um alle von Organisationen gespeicherten Daten zu verwalten, aber nur wenige können Datenwildwuchs verhindern.

Automatisierte Lösungen zur Datenerkennung und Datenklassifizierung müssen in der Lage sein, sensible Daten zu identifizieren und zu klassifizieren. Künstliche Intelligenz (KI) und maschinelles Lernen (ML) können schwer identifizierbare Daten, wie geistiges Eigentum und sensible Unternehmensdaten, noch genauer klassifizieren.

Lösungen gegen Datenwildwuchs können auch die allgemeine Datensicherheit erhöhen, indem sie dabei helfen, doppelte und redundante Daten zu finden und zu identifizieren. Sobald verstreute Daten erkannt und klassifiziert wurden, wird es einfacher, veraltete Daten oder überflüssige Daten zu entsorgen. Dies kann sowohl Speicherkosten sparen als auch doppelte und irrelevante Daten beseitigen.

Unternehmen sammeln täglich Daten, und es ist einfach, mehrere Kopien zu erstellen. Der erste Schritt für Unternehmen, die den Zugriff auf Daten verwalten und Datenverlust verhindern möchten, besteht darin, ihre Daten vollständig zu verstehen – sowohl wo sie sich aktuell befinden, ob IT- oder Sicherheitsteams über die Datenspeicher informiert sind oder nicht, als auch alle Datenspeicher, die in Zukunft erstellt werden. Die Identifizierung sensibler Daten und der Personen, die darauf Zugriff haben, kann dazu beitragen, Datenpannen zu verhindern, indem sichergestellt wird, dass geeignete Sicherheitskontrollen durchgesetzt werden.