Table des matières

Découverte et classification des données sensibles

La découverte et la classification des données sensibles est un processus utilisé pour identifier et catégoriser les informations sensibles ou confidentielles au sein des actifs numériques d'une organisation. Ces informations peuvent inclure des [informations personnellement identifiables PII], des informations de carte de paiement (PCI), des données financières, des dossiers médicaux, de la propriété intellectuelle, des secrets commerciaux et d'autres types d'informations sensibles qui doivent être protégées contre tout accès ou divulgation non autorisés.

Forrester définit la découverte et la classification des données comme « La capacité à fournir une visibilité sur l'emplacement des données sensibles ; identifier quelles sont les données sensibles et pourquoi elles sont considérées comme sensibles ; et étiqueter ou marquer les données en fonction de leur niveau de sensibilité. La découverte et la classification des données sensibles sont précieuses car elles identifient ce que vous devez protéger et facilitent l'étape suivante de mise en place des contrôles de sécurité des données. Les organisations utilisent cette visibilité et cette compréhension des données pour optimiser les politiques d'utilisation et de gestion des données et identifier les contrôles appropriés de sécurité, de confidentialité et de gouvernance des données. Elles peuvent automatiser les capacités de correction pour protéger les données et faire émerger des informations qui éclairent les décisions relatives aux politiques, à la gestion des données et au cycle de vie des données. »

Selon Gartner, « Les solutions de découverte de données découvrent, analysent et classifient les données structurées et non structurées pour créer des résultats exploitables pour l'application de la sécurité et la gestion du cycle de vie des données. En utilisant des éléments de métadonnées, de contenu et d'informations contextuelles, combinés à des modèles de données basés sur l'expression et l'apprentissage automatique, les solutions de découverte de données fournissent des conseils et des processus exploitables pour faire progresser les initiatives de gestion et de sécurité des données. »

Le processus de découverte et de classification des données est crucial pour maintenir la sécurité, la confidentialité et la conformité des données. En identifiant et en catégorisant les informations sensibles, les organisations peuvent prendre des mesures appropriées pour les protéger, réduire le risque de violations de données et maintenir la confiance avec les clients, les partenaires et les organismes de réglementation. Des outils et technologies automatisés sont souvent utilisés pour rationaliser et améliorer l'efficacité de ce processus, compte tenu des vastes quantités de données que les organisations génèrent et stockent.

Dans cet article, vous découvrirez un aperçu de la découverte et de la classification des données sensibles : ce que c'est, comment cela est apparu et comment cela se déroule généralement. Nous identifierons certains des principaux défis auxquels les équipes de sécurité sont confrontées avec les approches traditionnelles de découverte et de classification, ainsi que la manière dont les outils de nouvelle génération innovent dans ce domaine grâce à des approches cloud-native et alimentées par l'IA. Vous apprendrez également le lien entre cette pratique et la gestion de la posture de sécurité des données (DSPM), ainsi que sa relation avec la tendance vers les pratiques de sécurité « zero trust ».

L'histoire de la classification des données

La classification des données a une longue histoire, débutant avec les systèmes de classification gouvernementaux et militaires utilisant des étiquettes telles que confidentiel, secret et très secret pour contrôler l'accès aux informations sensibles. À la fin des années 1970 et dans les années 1980, avec la popularisation des ordinateurs, la nécessité de protéger les données sensibles contre les accès non autorisés a conduit au développement de contrôles d'accès, tels que les noms d'utilisateur et les mots de passe.

Avec l'essor d'Internet et des plateformes de communication dans les années 1990, la protection des données pendant leur transmission est devenue essentielle, donnant naissance à des méthodes de chiffrement comme Secure Sockets Layer (SSL). Au début des années 2000, des réglementations gouvernementales, telles que la Health Insurance Portability and Accountability Act (HIPAA) en 2003 et la Payment Card Industry Data Security Standard (PCI DSS) en 2004, ont imposé la classification et la protection des données dans les secteurs de la santé et de la finance.

Plus récemment, des réglementations strictes en matière de protection des données, telles que le Règlement général sur la protection des données (RGPD), ont mis en évidence l'importance de la découverte et de la classification des données sensibles en raison des violations de données. Bien que le concept de base existe depuis les débuts de l'informatique, sa formalisation et son adoption généralisée ont évolué pour répondre à la complexité numérique et aux préoccupations en matière de confidentialité.

La nécessité de la découverte et de la classification des données sensibles

Dans sa forme la plus simple, les données sensibles sont des données qui doivent être protégées contre tout accès non autorisé.

Les données sensibles peuvent être réparties en plusieurs types parmi les suivants, dont certains ont déjà été mentionnés précédemment.

Informations personnelles identifiables

Les PII sont des données qui peuvent permettre d’identifier l’identité personnelle de quelqu’un. Ce type de données inclut généralement les numéros de sécurité sociale (SSN), les données biométriques comme les empreintes digitales ou les scans faciaux, ou toute combinaison de données qui, ensemble, pourraient permettre d’identifier un individu.

Informations personnelles

Les informations personnelles (IP) constituent une catégorie de données plus générale. Les IP peuvent inclure des IIP, mais aussi d'autres données clairement liées à une personne sans nécessairement permettre de l'identifier. Cette classification est beaucoup plus large et peut inclure des données telles que les suivantes :

  • Informations de localisation
  • Photographies
  • Origine raciale
  • Casier judiciaire
  • Informations de santé ou génétiques

Information importante non publique

Les informations importantes non publiques (MNPI) sont des données concernant une entreprise, y compris ses participations, filiales et toute autre information susceptible d’avoir un impact sur le cours de ses actions. Ces informations incluent notamment les éléments suivants :

N'importe laquelle de ces informations pourrait avoir un impact sur le cours d'une action et, par conséquent, ces informations peuvent être utilisées pour obtenir un avantage lors de la négociation d'actions, ce qui est fortement réglementé et généralement illégal.

Informations de santé protégées

Les informations de santé protégées (PHI) sont un type de données sensibles spécifiquement réglementées par la HIPAA et comprennent dix-huit identifiants, y compris, sans s'y limiter, les éléments suivants :

  • Noms
  • Numéros de téléphone
  • Informations sur l'emplacement
  • Numéros de compte
  • Numéros de dossier médical

Autres types de données

Il existe de nombreux autres types de données non couverts dans ce guide, mais comme vous pouvez le constater, la classification des données est importante, surtout si elle est réglementée par une réglementation nationale ou internationale, comme le RGPD.

Impact de la migration vers le cloud sur la découverte et la classification des données sensibles

Dans l'informatique moderne, de plus en plus d'entreprises et de services déplacent leurs données vers le cloud. Cette transition simplifie le processus de mise à l'échelle de votre solution, car il n'est plus nécessaire d'investir dans du matériel supplémentaire. De plus, les fournisseurs d'hébergement cloud offrent une redondance automatique, une grande fiabilité et des sauvegardes. La reprise après sinistre peut également être automatisée et intégrée à votre plan de stockage.

Cependant, cela ne signifie pas nécessairement qu’identifier, classer et protéger les données sensibles soit plus facile avec le stockage cloud. Dans un modèle de centre de données traditionnel, l’entreprise est responsable de la sécurité sur l’ensemble de son environnement opérationnel, y compris vos applications, serveurs physiques, contrôles utilisateurs et même la sécurité physique du bâtiment. Dans un environnement cloud, le fournisseur de solutions cloud (CSP) offre un soulagement précieux en prenant en charge une partie de nombreux fardeaux opérationnels, y compris la sécurité. Pour clarifier la répartition des responsabilités, les CSP ont introduit le concept de modèle de responsabilité partagée. Ce modèle définit les responsabilités qui incombent au CSP et à l’équipe de sécurité de l’entreprise lorsque les applications, les données, les conteneurs et les charges de travail sont déplacés vers le cloud. Définir la frontière entre vos responsabilités et celles des CSP est impératif pour réduire le risque d’introduire des vulnérabilités dans vos environnements cloud publics, hybrides et multi-cloud.

Illustration du modèle de responsabilité partagée pour la sécurité des données dans le cloud

L'entreprise moyenne gère aujourd'hui 10 environnements cloud ou plus, à travers les modèles de déploiement Information-as-a-Service (IaaS), Platform-as-a-Service (PaaS) et Software-as-a-Service (SaaS). Comme l'illustre l'image, un facteur commun à tous ces environnements cloud est que la responsabilité de sécuriser les données incombe à l'entreprise, et non au fournisseur de services cloud. Cela met en évidence une complexité majeure pour les équipes de sécurité lorsque les entreprises qu'elles soutiennent migrent leurs données vers le cloud. La nature permissive du cloud, en particulier dans les environnements SaaS, facilite la prolifération et le partage des données, rendant plus difficile pour les équipes informatiques et de sécurité de gérer et de maintenir la visibilité et le contrôle sur ces données.

Historiquement, les outils qui regroupaient des fonctionnalités de découverte et de classification des données dépendaient de l'intervention humaine pour fonctionner. Pour découvrir un entrepôt de données, des outils comme les catalogues de données, les systèmes de gestion de l'information et les outils de prévention de la perte de données (DLP) nécessitent que des personnes connectent manuellement l'outil à l'entrepôt de données. Cela se fait généralement à l'aide d'une connexion JDBC ou ODBC, d'une API ou d'un proxy réseau pour détecter le trafic entrant et sortant d'un entrepôt de données. Cela signifie que les personnes qui mettent en œuvre et administrent les systèmes doivent connaître l'existence des entrepôts de données, leur emplacement et la manière de connecter l'outil à ce système.

De même, pour la classification, les humains supportent une charge initiale importante pour établir les métadonnées et le balisage nécessaires à l'efficacité d'un outil de classification. Il faut définir les métadonnées, y compris les étiquettes de sensibilité Microsoft Information Protection (MIP) dans les environnements Microsoft 365, et créer manuellement des classificateurs pour définir le mécanisme de détection de la classe de données. Cette dernière étape nécessite des expressions régulières (RegEx), des exemples de données et des objets d'exemple auxquels l'outil peut comparer le modèle fourni avec les données de l'environnement connecté. Un grand nombre d'entreprises continuent de gérer manuellement leurs inventaires de données en utilisant ces méthodes et souffrent du manque d'automatisation offert par leurs outils de découverte de données.

La plupart des outils nécessitent une découverte manuelle des données

Aujourd'hui, des outils modernes et cloud-native mettent en place des processus automatisés pour suivre le rythme auquel les entreprises créent, consomment et utilisent les données. Historiquement, les administrateurs devaient acquérir manuellement les compétences nécessaires pour découvrir et organiser les données dans différents entrepôts de données. Il s'agissait d'une procédure extrêmement chronophage, qui était très probablement effectuée en plus des tâches habituelles d'un employé.

Les processus manuels ont conduit à ce que 74 % des décideurs en matière de sécurité estiment que les données sensibles de leur organisation ont été compromises au moins une fois en 2022. Dans une étude récente commandée par Cyera auprès de Forrester Consulting, 59 % des responsables de la sécurité admettent avoir du mal à maintenir un inventaire détaillé des données. La découverte et la classification manuelles des données sont souvent très sujettes aux erreurs et les employés doivent posséder une connaissance approfondie de l’organisation pour pouvoir effectuer cette tâche à un niveau acceptable.

Il y a plusieurs complexités supplémentaires à prendre en compte, notamment les suivantes :

  • Localisation et résidence des données : Certaines réglementations (comme le RGPD) encadrent spécifiquement l’emplacement de stockage des données, en particulier celles des résidents de l’Union européenne (UE). Avec le stockage dans le cloud, il se peut même que vous ne sachiez pas dans quels centres de données se trouvent les données de vos clients ou utilisateurs.
  • Chiffrement des données : Bien que le stockage dans le cloud offre un chiffrement, il peut être difficile d'assurer une politique de chiffrement cohérente pour tous vos différents types de données.
  • Intégration avec les outils de découverte de données : Il est fort probable que des configurations et adaptations supplémentaires soient nécessaires si vous souhaitez intégrer vos outils de découverte de données à votre stockage cloud.

En général, l’aspect technique du stockage des données est plus simple, mais la sécurité des données est exponentiellement plus complexe. Il est plus difficile de localiser (à la fois géographiquement et informatiquement) et de sécuriser les différents types d’informations sensibles que vous pouvez avoir dans l’ensemble de votre organisation. De plus, les classificateurs statiques, qui cherchent au mieux à définir une classe de données individuelle mais ne peuvent pas identifier le rôle, la région, l’identifiabilité ou le niveau de sécurité qui fournissent un contexte essentiel sur les données, ont historiquement ajouté de la complexité et nécessité un traitement manuel supplémentaire pour rendre les classifications exploitables par les équipes de sécurité et de confidentialité.

Rôle de la découverte et de la classification des données dans la sécurité et la conformité

Les différents types de données soulignent également la nécessité de découverte et de classification des données, en particulier en ce qui concerne votre posture de sécurité et votre conformité réglementaire.

Une nouvelle tendance en matière de sécurité, appelée DSPM, vise à répondre à plusieurs questions concernant vos données et leur sécurité, notamment les suivantes :

  • Où se trouvent mes données sensibles ?
  • Quelles sont les données sensibles à risque ?
  • Que peut-on faire pour atténuer ou remédier à ce risque ?

La découverte et la classification des données sensibles font partie de votre stratégie DSPM, comme illustré dans ce schéma :

Diagramme expliquant le cadre DSPM (Data Security Posture Management)

Comme vous pouvez le constater, il est important d'avoir une stratégie DSPM si votre organisation gère des données sensibles, et les outils de découverte et de classification des données, comme Cyera, sont un élément clé de cette stratégie.

Cas d'utilisation réels pour la découverte et la classification des données sensibles

Il existe de nombreux cas d'utilisation pour la découverte de données sensibles dans le monde réel. Quelques cas courants sont abordés dans les sections suivantes.

Conformité

Vos outils de découverte de données doivent reconnaître que différents types de données doivent se conformer à différentes réglementations et normes de sécurité. Si vous traitez des données de type HIPAA ou si vous faites des affaires dans l'UE, votre solution de découverte de données doit s'assurer que vos pratiques en matière de données respectent les exigences définies par ces réglementations.

Certaines juridictions et certains pays, comme l'UE et les Philippines, offrent à leurs utilisateurs un plus grand contrôle sur leurs propres données personnelles. Les lois et directives publiées dans ces régions accordent aux personnes concernées un certain pouvoir pour exercer leur « droit à l'oubli », du moins dans une certaine mesure.

En vertu du RGPD, plus précisément, les personnes concernées disposent également du \"droit d'être informées\", qu'un utilisateur peut utiliser pour interroger tout tiers sur l'emplacement de ses données personnelles que ce tiers pourrait stocker.

Un bon outil de découverte de données doit être conscient de ces normes et droits, et doit essayer de découvrir et de classer toute donnée trouvée en conséquence.

Fusions et acquisitions

L'achat ou la fusion d'une entreprise avec une autre peut apporter toutes sortes de complexités à votre DSPM. Vous n'avez aucune garantie que l'entreprise que vous souhaitez acquérir a respecté les pratiques réglementaires.

Un outil de découverte et de classification des données est essentiel pour évaluer la posture de sécurité de l'entreprise que vous envisagez d'acquérir ou de fusionner avec.

Au-delà de la sécurité, il est probable que vous héritiez également de l'ensemble des données de l'autre entreprise, y compris toute information sensible qu'elle pourrait détenir sur ses clients ou partenaires.

Le processus de découverte et de classification de ces données est essentiel, non seulement pour les intégrer dans les bases de données de votre entreprise, mais aussi pour identifier d'éventuelles lacunes en matière de risque.

Réponse aux incidents

En cas de violation de données, une partie de la réponse à l'incident consiste à identifier et à classer les types de données qui ont été divulgués lors de la violation.

Ce processus définit la manière dont vous devez réagir à la violation, en tenant compte de tous ses aspects, y compris les obligations de divulgation de la violation et la communication à vos clients et/ou partenaires commerciaux.

Autres approches de la découverte et de la classification des données

Dans une grande organisation, il existe différentes stratégies que vous pouvez utiliser pour localiser et classer les données sensibles. Chaque approche présente ses propres avantages et inconvénients.

Approche en silos

En utilisant une approche cloisonnée, vous confiez aux différents départements la responsabilité d'identifier, de gérer et de localiser les différentes parties des données sensibles dont ils sont responsables.

Ceci est considéré comme une approche décentralisée, et cela présente quelques avantages :

  • Les équipes spécifiques comprennent mieux leurs propres données plutôt que d'essayer de comprendre les données de tout le monde.
  • Cela permet une personnalisation améliorée des outils qu'ils utilisent, en les adaptant aux types de données spécifiques qu'ils traitent.

Cependant, il existe aussi des inconvénients. Par exemple, les silos peuvent freiner la collaboration entre les départements et ne pas respecter les meilleures pratiques à l’échelle de l’entreprise. De plus, il devient de plus en plus probable que vos équipes dupliquent des efforts qui pourraient être gérés plus efficacement par un service dédié. Mais ce qui est peut-être le plus préoccupant, c’est que la visibilité et la gestion des données en silos masquent la dérive des données, la prolifération des données via des copies ou des données fantômes, des accès trop permissifs et une mauvaise utilisation des données. Dans tous ces cas, à mesure que les données circulent dans l’organisation, elles traversent des silos de visibilité et de gestion, ce qui augmente la probabilité que des erreurs de configuration, des abus ou des activités malveillantes passent inaperçus. Cela accroît donc le risque de violation de données.

Approche en étoile

En mettant en place une approche en étoile (hub-and-spoke), la responsabilité de la découverte, de la classification et de la gestion de vos données sensibles incombe à une équipe centrale dédiée à cette fonction.

Encore une fois, cette approche présente ses avantages et ses inconvénients. Du point de vue de la supervision, il est plus facile pour une équipe centrale de s'assurer que toutes les données sont couvertes par les politiques à l'échelle de l'entreprise concernant la classification et la sécurité des données. De plus, une équipe centralisée peut créer plus facilement une méthode standardisée et/ou des critères pour les efforts de classification. C'est également plus efficace car il n'y a pratiquement aucun risque que d'autres équipes effectuent le même type de travail pour les mêmes ensembles de données qui se chevauchent.

Cependant, si une équipe centralisée ne dispose pas de suffisamment de ressources, elle pourrait devenir un goulot d'étranglement pour l'intégration ou la classification de nouvelles sources de données, en particulier si votre organisation est grande et complexe. De plus, une équipe centralisée ne peut faire appliquer que ce que l'entreprise lui donne le pouvoir de faire appliquer. Si la politique officielle n'indique pas que l'équipe a le pouvoir d'imposer ses politiques de classification dans les autres départements, elle risque d'être ignorée ou perçue comme une gêne.

L'avenir de la découverte et de la classification des données sensibles

Bien que le DSPM soit une tendance relativement nouvelle et émergente, il est assez clair que l'industrie en aura besoin à l'avenir.

Il existe déjà des plateformes de sécurité des données, comme Cyera, qui mettent en œuvre des algorithmes d'apprentissage automatique pour comprendre les types de données spécifiques dans l'environnement d'un client. Leur logiciel peut également se connecter à l'infrastructure cloud d'une organisation en utilisant un seul rôle IAM, ce qui permet une analyse continue et sans agent de vos données résidant dans le cloud. C'est un facteur particulièrement important alors que de plus en plus d'organisations transfèrent leurs données vers le cloud.

Conclusion

La découverte et la classification des données sensibles sont des processus importants qui vous aident à identifier quelles données sensibles se trouvent dans votre environnement, ce qui vous informe sur la stratégie de sécurité des données à adopter. C'est également une partie intégrante du cadre DSPM, qui vous aide à identifier et à atténuer les risques associés à toute donnée sensible que vous pourriez gérer. Les responsables de la sécurité s'attendent à obtenir les bénéfices les plus transformateurs en améliorant la sécurité des données grâce à l'automatisation intelligente. Pour y parvenir, ils investissent dans la détection d'exposition en temps réel et la gestion de la posture de sécurité des données.

Ce changement promet d'améliorer l'automatisation et l'orchestration des politiques de sécurité, avec des impacts démontrables dans les domaines suivants :

Réduction du délai de rentabilité

78 % des responsables de la sécurité déclarent qu'accélérer le délai de rentabilisation de leurs solutions de sécurité des données est crucial ou très important. Cyera est déployé avec un seul rôle IAM qui permet la découverte dynamique des bases de données à travers différents modèles de déploiement. Cela signifie qu'il détecte en continu les bases de données nouvelles ou modifiées sans intervention humaine, ce qui permet de suivre le rythme rapide des évolutions dans les environnements cloud.

Amélioration de la précision de classification et de détection

74 % des responsables de la sécurité investissent dans la création et la maintenance automatiques de l’inventaire des données, et 71 % accordent la priorité à l’amélioration de la précision de la classification des données. La plateforme de sécurité des données alimentée par l’IA de Cyera rend la classification entièrement autonome, utilisant le ML et l’IA pour atteindre plus de 95 % de précision sans intervention humaine.

Activation des contrôles de sécurité dynamiques

81 % des responsables de la sécurité souhaitent mettre en place des contrôles de sécurité dynamiques. Pour garantir que les équipes de sécurité puissent implémenter les bons contrôles en toute confiance, Cyera utilise des LLM pour détecter les entités nommées et extraire des sujets des environnements afin d'obtenir un contexte approfondi des données, notamment en identifiant le rôle, la région, l'identifiabilité et la sécurité des données pour définir des contrôles spécifiques et adaptés.

Découvrez comment la plateforme de sécurité des données alimentée par l'IA de Cyera applique ces capacités à toutes les données d'une entreprise, partout.

Si vous souhaitez en savoir plus sur la gestion de la posture de sécurité des données, consultez ce glossaire pour plus d'informations.

Auteur : Thinus Swart