Table des matières

Dispersion des données

La prolifération des données fait référence aux quantités importantes de données que de nombreuses organisations créent chaque jour. La prolifération des données peut être définie comme la génération de données, ou d'informations numériques, créées par les entreprises. Les données sont une ressource précieuse car elles permettent aux dirigeants d'entreprise de prendre des décisions fondées sur les données afin de mieux servir leur clientèle, de développer leur activité et d'améliorer leurs processus. Cependant, gérer d'immenses volumes de données et autant de sources de données peut représenter un véritable défi.

Les grandes entreprises, en particulier les sociétés, génèrent une quantité stupéfiante de données en raison de la grande variété de logiciels utilisés, des nouveaux formats de données introduits, de la multiplicité des systèmes de stockage dans le cloud et sur site, ainsi que des énormes volumes de journaux générés par les applications. Il y a une quantité écrasante de données qui sont générées et stockées dans le monde moderne.

D'où viennent les données ?

À mesure que les organisations se développent et utilisent de plus en plus de données pour l'analyse et l'investigation, ces données sont stockées dans des systèmes d'exploitation, des serveurs, des applications, des réseaux et d'autres technologies. De nombreuses organisations génèrent d'énormes quantités de nouvelles données toute la journée, chaque jour, notamment :

  • Données financières, y compris des types de données tels que les transactions bancaires, les données web, les données de géolocalisation, les cartes de crédit et les données de transactions en point de vente provenant de fournisseurs.
  • Données de vente, qui peuvent inclure le chiffre d'affaires par commercial, le taux de conversion, la durée moyenne d'un cycle de vente, la taille moyenne des transactions, le nombre d'appels passés, l'ancienneté et le statut des prospects, les taux de perte et le nombre d'e-mails envoyés.
  • Données transactionnelles, qui peuvent inclure des données client, des informations sur les bons de commande, les heures de travail des employés, les coûts d'assurance, les demandes d'indemnisation, le statut d'expédition, les dépôts bancaires et les retraits.
  • Réseaux sociaux, e-mail et SMS communications, qui peuvent inclure des indicateurs des réseaux sociaux, des données démographiques, des moments de la journée, des hashtags, des sujets et des types de contenu.
  • Les données d'événement décrivent les actions effectuées par des entités (essentiellement, des données comportementales) ; elles incluent l'action, l'horodatage et l'état (informations sur les entités liées à l'événement). Les données d'événement sont essentielles pour réaliser des analyses.

 Ces fichiers et dossiers sont dispersés à plusieurs endroits, ce qui rend l’inventaire, la sécurisation et l’analyse de toutes ces données extrêmement difficiles.  

Comment la dispersion des données se produit-elle ?

La prolifération des données désigne la quantité toujours croissante de données produites chaque jour par les organisations. Amplifiée par la transition vers le cloud, les organisations peuvent évoluer plus rapidement, générant ainsi de plus en plus de données. De nouveaux usages de big data continuent d’émerger, nécessitant une augmentation de la quantité de données stockées dans les systèmes d’exploitation, les serveurs, les réseaux, les applications et d’autres technologies.

Pour compliquer encore les choses, les bases de données, les pipelines d'analyse et les flux de travail métier migrent rapidement vers le cloud, passant d'un fournisseur de services cloud (CSP) à un autre et entre des formats structurés et non structurés. Cette transition vers le cloud est en cours, et de nouveaux magasins de données sont créés en permanence. Les responsables de la sécurité et de la gestion des risques (SRM) peinent à identifier et à déployer de manière cohérente des contrôles de sécurité des données dans cet environnement.

« ...la prolifération des données non structurées (à la fois sur site et en environnement hybride/multi-cloud) est plus difficile à détecter et à contrôler que les données structurées. »

Gartner, Cycle de la Hype pour la sécurité des données, 2022

Les organisations génèrent de nouvelles données chaque heure de chaque jour. Les données clients dans les systèmes de gestion de la relation client (CRM) peuvent également inclure des données financières, qui se trouvent aussi dans une base de données comptable ou un système de planification des ressources d'entreprise (ERP). Les données de ventes et les données transactionnelles peuvent également se trouver dans ces systèmes, et être cloisonnées par différents départements, agences et appareils. Pour bénéficier des avantages promis par l'analyse de données, les analystes de données doivent croiser plusieurs sources et peuvent donc avoir des difficultés à prendre des décisions précises et éclairées.

En fin de compte, les organisations ont besoin de données pour faciliter les flux de travail quotidiens et générer des analyses permettant de prendre des décisions plus éclairées. Le problème, c'est que la quantité de données générées par les organisations devient incontrôlable. Selon une étude récente d'IDC, le Global DataSphere devrait plus que doubler entre 2022 et 2026. Le DataSphere mondial mesure la quantité de nouvelles données créées, capturées, répliquées et consommées chaque année, et il croît deux fois plus vite dans l'Enterprise DataSphere que dans le Consumer DataSphere.

Les défis de la dispersion des données

À mesure que les organisations génèrent des données à un rythme de plus en plus rapide, il devient plus difficile de gérer ces informations. Les organisations peuvent avoir des données stockées à divers endroits, ce qui complique l'accès aux informations essentielles à l'activité et la génération d'analyses précises. Les membres de l'équipe doivent croiser des données dans plusieurs formats provenant de différentes sources, ce qui rend l'analyse difficile. Gérer des informations dispersées dans différents silos fait perdre du temps et de l'argent. Les données peuvent être corrompues lors de la transmission, du stockage ou du traitement. La corruption des données compromet leur valeur, et la probabilité de corruption peut augmenter avec la prolifération des données.

De plus, l'effort est perdu lorsque des employés dupliquent des données parce qu'ils n'ont pas pu trouver les informations nécessaires là où ils s'y attendaient, ce qui peut également entraîner la création de données fantômes. Ces données dupliquées sont considérées comme redondantes. D'autres données peuvent être obsolètes (périmées) ou triviales (sans valeur pour les analyses métier). Cet excès de données entraîne une utilisation excessive des ressources et augmente les coûts de stockage dans le cloud.

Les employés peuvent manipuler les données de manière négligente, sans comprendre que leur façon de partager et de gérer les données peut introduire des risques. Des utilisateurs non autorisés peuvent également avoir accès à des informations sensibles, en particulier lorsque les données produites et stockées ne sont pas correctement gérées. La classification manuelle des données est chronophage et sujette à erreur, ce qui peut augmenter le risque d'exposition de données sensibles. Il est donc essentiel de trouver des solutions automatisées pour gérer de grands volumes de données.

La prolifération des données compromet la valeur des données et présente d'importants risques de sécurité. Il existe également des problèmes de sécurité car un excès de données peut être difficile à contrôler. Cela augmente les risques de violations de données et d'autres menaces pour la sécurité. De plus, les organisations qui ne gèrent pas la prolifération des données peuvent compromettre la confiance des clients et s'exposer à de lourdes sanctions en raison du Règlement Général sur la Protection des Données (RGPD), du California Consumer Privacy Act (CCPA) ou d'autres législations sur la protection des données en cas de non-conformité.

Gestion de la prolifération des données

Maîtriser la prolifération des données nécessite une approche structurée de la gestion des données. Il est essentiel de disposer d'une solution permettant de découvrir et classifier les données. Étant donné que les données sont réparties entre des environnements sur site et dans le cloud, il est crucial d’identifier les environnements où les données sont stockées afin de garantir que toutes les données soient identifiées et gérées. Les outils capables de découvrir et de classifier les données dans les environnements SaaS, IaaS et PaaS sont importants, tout comme ceux qui peuvent trouver et classifier les données structurées et non structurées. L'objectif de ces outils est de créer une vue unifiée de l'ensemble de l'environnement.

Identifier un emplacement central pour stocker les données est une façon de gérer la prolifération des données. Les normes de sécurité cloud continuent de s'améliorer, rendant un référentiel cloud centralisé attrayant pour de nombreuses organisations. Les plateformes de stockage cloud sont une excellente méthode pour stocker les données de manière à créer une source unique de vérité, plus accessible aux employés situés à différents endroits. Parallèlement, les entreprises doivent établir des politiques de gouvernance de l'accès aux données (DAG) qui définissent comment les données doivent être collectées, traitées et stockées. Ces politiques doivent également mettre en place des règles pour encadrer les données, notamment en ce qui concerne les contrôles d'accès, la conservation, la gestion des risques, la conformité et la disposition des données (comment elles sont éliminées à la fin de leur cycle de vie). Les politiques DAG complètent les programmes de prévention de la perte de données (DLP). La gestion de la posture de sécurité des données (DSPM) combine la découverte et la classification des données, la prévention de la perte de données et la gouvernance de l'accès aux données pour créer une approche de nouvelle génération de la sécurité des données dans le cloud.

Solutions contre la prolifération des données

Pour les organisations qui souhaitent gérer la prolifération des données, il est impératif de savoir quelles données existent dans l'environnement, où elles se trouvent et qui y a accès. Différents outils existent pour gérer toutes les données stockées par les organisations, mais peu peuvent empêcher la prolifération des données.

Les solutions automatisées de découverte et de classification des données doivent être capables d’identifier et de classer les données sensibles. L’intelligence artificielle (IA) et l’apprentissage automatique (ML) peuvent classer plus précisément les données difficiles à identifier, telles que la propriété intellectuelle et les données sensibles de l’entreprise.

Les solutions contre la prolifération des données peuvent également renforcer la sécurité globale des données en aidant à localiser et à identifier les données dupliquées et redondantes. Une fois que les données dispersées ont été identifiées et classifiées, il devient plus facile de se débarrasser des données obsolètes ou superflues. Cela permet de réduire les coûts de stockage et d’éliminer les données dupliquées et non pertinentes.

Les entreprises collectent des données quotidiennement et il est facile de créer plusieurs copies. La première étape pour les sociétés qui souhaitent gérer l'accès aux données et prévenir la perte de données est de bien comprendre leurs données — à la fois où elles se trouvent actuellement, que les équipes informatiques ou de sécurité soient conscientes des data stores ou non, ainsi que tous les data stores qui seront créés à l'avenir. Identifier les données sensibles et les personnes qui y ont accès peut aider à prévenir les violations de données en s'assurant que les contrôles de sécurité appropriés sont appliqués.