Exploiter les données organisationnelles pour l’IA/ML et les LLM : un cadre stratégique

Dans le précédent article, j'ai souligné que les Large Language Models (LLMs) ne sont pas simplement une démarche technique, mais un impératif stratégique. Dans cette discussion, j'explorerai comment les entreprises peuvent exploiter efficacement les données pour les cas d'usage en IA/ML et LLM. Fort de ma vaste expérience en tant que CISO et désormais conseiller en stratégie IA/ML, j'ai constaté que de nombreuses organisations manquent d'une approche globale de la gestion des données.
Le dilemme des données
Les données sont souvent considérées comme uniformément sensibles dans de nombreuses organisations, c'est-à-dire que tout sous le soleil est important. Cependant, il existe un décalage flagrant : les équipes de sécurité et les unités commerciales doivent clairement comprendre où résident les données ou comment elles sont utilisées. Chaque département fonctionne en silos, créant, utilisant et stockant des données indépendamment, souvent sans processus standardisés. Ce scénario est tout aussi répandu dans les cas d'utilisation d'IA/ML et de LLM, où les équipes techniques ont besoin d'une meilleure visibilité sur le paysage des données de l'organisation. La question se pose : qui est responsable de l'organisation, de la structuration et de la protection des données organisationnelles ?
Le besoin d’un Data Steward
Il est urgent de créer un poste dédié à la gestion du cycle de vie des données de l'organisation, de leur création à leur suppression, en conformité avec les exigences légales. Ce rôle doit être distinct de celui du DSI ou du RSSI. Le DSI se concentre sur l'efficacité opérationnelle, et la réduction des coûts peut entrer en conflit avec la nécessité d'une gestion complète des données. De même, l'accent mis par le RSSI sur la protection des données peut limiter l'utilisation innovante de celles-ci. Par conséquent, un nouveau rôle, idéalement celui de Data Steward, est essentiel. Cette personne doit avoir une connaissance approfondie de l'entreprise et la capacité de relier les différentes étapes de la création, de l'utilisation et de la suppression des données.
Une étape « zéro » cruciale : comprendre le paysage des données
Avec la structure organisationnelle en place, il est essentiel de comprendre le paysage global des données. Les organisations doivent réaliser un audit complet des données afin de cartographier l'état actuel des données dans l'ensemble des départements, ce qui implique :
- Sources de données du catalogue : Cataloguez toutes les sources de données, y compris les données d'ingénierie, les bases de données, les applications, les services tiers et les points de saisie manuelle de données.
- Formats de données : Reconnaître les différents formats dans lesquels les données existent, tels que structuré, non structuré, semi-structuré, etc.
- Flux de données : Comprenez comment les données circulent à travers les différents processus de l'organisation, en mettant en évidence les points d'intégration et les éventuels goulets d'étranglement.
Étapes pratiques pour libérer tout le potentiel de vos données
Étape 1 : Identifier les emplacements de stockage de données
- La première étape consiste pour chaque département à définir clairement ses données importantes. Les départements sont les mieux placés pour identifier les données qu'ils produisent et utilisent, ainsi que les conditions de leur suppression. Cette étape vise à déterminer les « joyaux de la couronne » au niveau du département et à localiser précisément leurs emplacements de stockage.
Étape 2 : Découvrir et classer les données
- Définissez des classifications de données claires et simples, idéalement limitées à trois niveaux, pour garantir leur utilisation dans toute l'organisation. Les schémas de classification simples ont plus de chances de réussir et sont plus faciles à gérer. Une fois les données critiques, ou "joyaux de la couronne", classifiées et identifiées, lancez le processus de découverte et de balisage. Choisir la bonne technologie pour cette étape est crucial, car de nombreuses organisations peinent à atteindre ce stade, ce qui fait de sa réalisation une étape importante. L'utilisation de solutions DSPM (Data Security Posture Management) peut automatiquement baliser les données découvertes, simplifiant davantage le processus. De plus, les données classifiées et balisées simplifient la tâche de l'équipe de prévention des pertes de données (DLP) dans l'identification des écarts et des tentatives d'exfiltration, offrant un avantage tangible pour les RSSI.
Étape 3 : Plateforme centralisée de visibilité des données
- Les organisations devraient se concentrer sur la mise en œuvre d'une plateforme centralisée qui offre une visibilité complète sur toutes leurs données. Cette approche aide à réduire les risques identifiés, comme l'utilisation par inadvertance de données sensibles par des modèles qui ne devraient pas y avoir accès ou des utilisateurs accédant à des outils d'IA et des données auxquels ils ne devraient pas avoir accès. Par exemple, une plateforme de visibilité centralisée peut alerter les administrateurs si un utilisateur non autorisé tente d'accéder à des informations confidentielles sur les clients via un outil d'IA.
Il y a quelques années, en aidant un géant majeur des télécommunications, nous avons mis en évidence un problème important où les données clients étaient stockées à différents endroits selon les besoins de chaque département. Le marketing, les finances et l'ingénierie avaient chacun leurs propres espaces de stockage, ce qui entraînait de multiples copies du même ensemble de données. Cette situation créait un écosystème complexe, posant d'énormes problèmes de sécurité et de conformité. S'ils avaient mis en place une plateforme centrale avec une visibilité complète, ce problème aurait été plus simple. En évitant les silos de données, en assurant la conformité et en renforçant la sécurité, une telle plateforme offre une vue d'ensemble complète de l'accès aux données et de leur utilisation, protégeant ainsi les actifs de données de l'organisation.
Étape 4 : Mettre en œuvre les meilleures pratiques techniques de base
- Mettre en œuvre la normalisation et l'obfuscation des données depuis les environnements de production vers les environnements de développement.
- Sauvegardez régulièrement les données afin de garantir leur intégrité et leur disponibilité.
- Utilisez le contrôle d'accès basé sur les rôles (RBAC) et l'authentification à deux facteurs (2FA) pour renforcer la sécurité des données.
- Réalisez des audits périodiques et des tests de pénétration afin d’identifier les vulnérabilités du système et les accès non autorisés.
Adopter cette approche structurée permettra aux organisations de poser des bases solides pour exploiter les données organisationnelles dans leur parcours d’IA/ML. Ce cadre atténue les risques de sécurité et limite l’accumulation de dette technique.
Comment aideriez-vous les organisations à exploiter pleinement le potentiel de leurs actifs de données, à stimuler l'innovation et à obtenir un avantage concurrentiel ? Discutons-en.
Obtenez une visibilité complète
avec notre évaluation des risques liés aux données.