Descubrimiento y clasificación de datos sensibles
El descubrimiento y la clasificación de datos sensibles es un proceso utilizado para identificar y categorizar información sensible o confidencial dentro de los activos digitales de una organización. Esta información puede incluir [personally identifiable information PII, información de tarjetas de pago (PCI), datos financieros, registros de salud, propiedad intelectual, secretos comerciales y otros tipos de información sensible que deben protegerse contra el acceso o la divulgación no autorizados.
Forrester define el descubrimiento y la clasificación de datos como: "La capacidad de proporcionar visibilidad sobre dónde se encuentra la información sensible; identificar qué es la información sensible y por qué se considera sensible; y etiquetar o rotular los datos según su nivel de sensibilidad. El descubrimiento y la clasificación de datos sensibles son valiosos porque identifican qué debes proteger y facilitan el siguiente paso de habilitar controles de seguridad de datos. Las organizaciones utilizan esta visibilidad y comprensión de los datos para optimizar el uso de los datos y las políticas de manejo, e identificar los controles adecuados de seguridad, privacidad y gobernanza de datos. Pueden automatizar capacidades de remediación para proteger los datos y generar conocimientos que informen las decisiones de políticas, manejo de datos y ciclo de vida de los datos."
Según Gartner, "Las soluciones de descubrimiento de datos descubren, analizan y clasifican datos estructurados y no estructurados para crear resultados accionables para la aplicación de la seguridad y la administración del ciclo de vida de los datos. Mediante el uso de elementos de metadatos, contenido e información contextual, combinados con modelos de datos basados en expresiones y aprendizaje automático, las soluciones de descubrimiento de datos brindan orientación y procesos accionables para impulsar las iniciativas de administración y seguridad de datos."
El proceso de descubrir y clasificar datos es crucial para mantener la seguridad, la privacidad y el cumplimiento normativo. Al identificar y categorizar información sensible, las organizaciones pueden tomar medidas adecuadas para protegerla, reducir el riesgo de filtraciones de datos y mantener la confianza de clientes, socios y organismos reguladores. Dado el enorme volumen de datos que las organizaciones generan y almacenan, a menudo se emplean herramientas y tecnologías automatizadas para agilizar y mejorar la eficiencia de este proceso.
En este artículo, obtendrás una visión general del descubrimiento y la clasificación de datos sensibles, incluyendo qué es, cómo surgió y cómo se lleva a cabo normalmente. Identificaremos algunos de los principales desafíos que enfrentan los equipos de seguridad con los enfoques heredados de descubrimiento y clasificación, y cómo las herramientas de próxima generación están utilizando enfoques nativos de la nube y con tecnología de IA para innovar en este espacio. También aprenderás sobre su relación con la gestión de la postura de seguridad de datos (DSPM) y cómo se relaciona con la tendencia hacia prácticas de seguridad de confianza cero.
La historia de la clasificación de datos
La clasificación de datos tiene una larga historia, que comenzó con esquemas gubernamentales y militares que usaban etiquetas como confidencial, secreto y alto secreto para controlar el acceso a información crítica. A finales de los años setenta y en la década de 1980, a medida que las computadoras se popularizaron, la necesidad de proteger los datos sensibles contra accesos no autorizados llevó al desarrollo de controles de acceso, como nombres de usuario y contraseñas.
Con el auge de Internet y las plataformas de comunicación en la década de 1990, proteger los datos durante la transmisión se volvió esencial, dando lugar a métodos de cifrado como Secure Sockets Layer (SSL). A principios de la década de 2000, las regulaciones gubernamentales, como la Ley de Portabilidad y Responsabilidad de Seguros de Salud (HIPAA) en 2003 y el Estándar de Seguridad de Datos para la Industria de Tarjetas de Pago (PCI DSS) en 2004, hicieron cumplir la clasificación y protección de datos en los sectores de salud y financiero.
Más recientemente, regulaciones estrictas de privacidad de datos como el Reglamento General de Protección de Datos (GDPR) han resaltado la importancia del descubrimiento y la clasificación de datos sensibles debido a las brechas de datos. Si bien el concepto central existe desde los inicios de la computación, su formalización y adopción generalizada han evolucionado para abordar la complejidad digital y las preocupaciones de privacidad.
La necesidad de descubrir y clasificar datos sensibles
En su forma más simple, los datos sensibles son aquellos que deben protegerse contra el acceso no autorizado.
Los datos sensibles pueden dividirse en algunos de los siguientes tipos, varios de los cuales ya se mencionaron anteriormente.
Información de identificación personal
PII es información que puede llevar a identificar la identidad personal de alguien. Los datos de este tipo suelen incluir números del Seguro Social (SSN); biometría, como huellas dactilares o escaneos faciales; o cualquier combinación de datos que, en conjunto, pueda llevar a identificar a una persona.
Información personal
La información personal (PI) es una clasificación de datos más general. La PI puede incluir la PII, pero también puede incluir otros datos claramente relacionados con una persona que no necesariamente la identifican. Esta clasificación es mucho más amplia y puede incluir datos como los siguientes:
- Información de ubicación
- Fotografías
- Origen racial
- Antecedentes penales
- Información de salud o genética
Información no pública de carácter relevante
La información material no pública (MNPI) es cualquier dato relacionado con una empresa, incluidos sus activos, subsidiarias y cualquier otra información que pueda afectar el precio de sus acciones. Esta información incluye, entre otras cosas, lo siguiente:
- Informes de ganancias
- Próximas acciones corporativas, como ofertas públicas iniciales (OPI)
- Los resultados de los procesos legales
Cualquiera de esta información podría afectar el precio de las acciones de una empresa y, por lo tanto, puede utilizarse para obtener una ventaja al operar con acciones, lo cual está altamente regulado y normalmente es ilegal.
Información de Salud Protegida
La información de salud protegida (PHI) es un tipo de dato sensible específicamente regulado por HIPAA e incluye dieciocho identificadores, incluidos, entre otros, los siguientes:
- Nombres
- Números de teléfono
- Información de ubicación
- Números de cuenta
- Números de expediente médico
Otros tipos de datos
Existen muchos otros tipos de datos que no se cubren en esta guía, pero como puedes ver, la clasificación de datos es importante, especialmente si está regulada por una normativa nacional o internacional, como el GDPR.
Impacto de la migración a la nube en el descubrimiento y la clasificación de datos sensibles
En la informática moderna, cada vez más empresas y servicios están trasladando sus datos a la nube. Esta transición simplifica el proceso de escalar tu solución, ya que no es necesario invertir en hardware adicional. Además, los proveedores de alojamiento en la nube ofrecen redundancia automática, confiabilidad y respaldo. La recuperación ante desastres también puede automatizarse e integrarse en tu plan de almacenamiento.
Sin embargo, esto no necesariamente significa que identificar, clasificar y proteger los datos sensibles sea más fácil con el almacenamiento en la nube. En un modelo tradicional de centro de datos, la empresa es responsable de la seguridad en todo su entorno operativo, incluidas sus aplicaciones, servidores físicos, controles de usuarios e incluso la seguridad física del edificio. En un entorno de nube, el proveedor de soluciones en la nube (CSP) ofrece un valioso alivio al asumir parte de muchas cargas operativas, incluida la seguridad. Para aclarar cómo se dividen las responsabilidades, los CSP introdujeron el concepto del modelo de responsabilidad compartida. Este modelo establece las responsabilidades que corresponden al CSP y al equipo de seguridad de la empresa a medida que las aplicaciones, los datos, los contenedores y las cargas de trabajo se trasladan a la nube. Definir la línea entre tus responsabilidades y las del CSP es imperativo para reducir el riesgo de introducir vulnerabilidades en tus entornos de nube pública, híbrida y multinube.

Hoy en día, la empresa promedio administra 10 o más entornos en la nube, abarcando modelos de implementación de Infraestructura como Servicio (IaaS), Plataforma como Servicio (PaaS) y Software como Servicio (SaaS). Como muestra la imagen, un factor común en estos entornos de nube es que la responsabilidad de proteger los datos recae en la empresa, no en el proveedor de servicios en la nube (CSP). Esto resalta una complejidad clave para los equipos de seguridad a medida que las empresas a las que apoyan migran datos a la nube. La naturaleza permisiva de la nube, especialmente en entornos SaaS, facilita que los datos se multipliquen y se compartan, y complica que los equipos de TI y de seguridad administren y mantengan la visibilidad y el control sobre esos datos.
Históricamente, las herramientas que combinaban capacidades de descubrimiento y clasificación de datos dependían de la interacción humana para habilitarlas. Para descubrir un almacén de datos, herramientas como catálogos de datos, sistemas de gestión de información, y herramientas de prevención de pérdida de datos (DLP), requieren que las personas conecten manualmente la herramienta al almacén de datos. Esto normalmente se logra usando una conexión JDBC o ODBC, una API o un proxy de red para detectar el tráfico que va hacia y desde un almacén de datos. Esto significa que las personas que implementan y administran los sistemas deben conocer la existencia de un almacén de datos, dónde se encuentra y cómo conectar la herramienta a ese sistema.
De manera similar, para la clasificación, las personas asumen una carga inicial significativa al establecer los metadatos y el etiquetado necesarios para que una herramienta de clasificación sea efectiva. Definir metadatos, incluidos los etiquetas de sensibilidad de Microsoft Information Protection (MIP) en entornos de Microsoft 365, y crear manualmente clasificadores para definir el mecanismo de detección para la clase de datos, es necesario. Esto último requiere expresiones regulares (RegEx), datos de muestra y objetos de muestra con los que la herramienta pueda comparar el patrón proporcionado con los datos en el entorno conectado. Una gran cantidad de empresas aún mantienen manualmente sus inventarios de datos usando estos métodos y se ven perjudicadas por la falta de automatización que ofrecen sus herramientas de descubrimiento de datos.
La mayoría de las herramientas requieren descubrimiento de datos manual
Hoy en día, las herramientas modernas y nativas de la nube están implementando procesos automatizados para mantenerse al ritmo de la forma en que las empresas crean, consumen y usan datos. Históricamente, los administradores tenían que desarrollar manualmente las habilidades para descubrir y organizar datos en distintos almacenes de datos. Esto sería un procedimiento increíblemente intensivo en tiempo que, muy probablemente, se realizaría además de las responsabilidades ya existentes del empleado.
Los procesos manuales han llevado a que un asombroso 74 por ciento de los responsables de decisiones de seguridad estimen que los datos sensibles de su organización se vieron comprometidos al menos una vez en 2022. En un estudio reciente que Cyera encargó a Forrester Consulting, el 59 por ciento de los líderes de seguridad admiten que les cuesta mantener un inventario de datos detallado. El descubrimiento y la clasificación de datos de forma manual tienden a ser muy propensos a errores, y los empleados individuales necesitan un amplio conocimiento institucional para poder realizar esta función a un nivel aceptable.
Hay varias complejidades adicionales que debes tomar en cuenta, incluidas las siguientes:
- Ubicación y residencia de los datos: Algunas regulaciones (como el RGPD) especifican dónde se pueden almacenar los datos, especialmente los de los residentes de la Unión Europea (UE). Con el almacenamiento en la nube, es posible que ni siquiera sepas en qué centros de datos se encuentran los datos de tu cliente o tus clientes.
- Cifrado de datos: Aunque el almacenamiento en la nube ofrece cifrado, garantizar una política de cifrado uniforme en todos tus diferentes tipos de datos puede ser difícil.
- Integración con herramientas de descubrimiento de datos: Es muy probable que se requiera configuración y adaptación adicionales si deseas integrar tus herramientas de descubrimiento de datos con tu almacenamiento en la nube.
En general, el lado de ingeniería del almacenamiento de datos es más sencillo, pero la seguridad de los datos es exponencialmente más compleja. Es más difícil ubicar (tanto geográfica como computacionalmente) y proteger distintos tipos de información sensible que podrías tener en toda tu organización. Además, los clasificadores estáticos que, en el mejor de los casos, buscan definir una clase de datos individual, pero no pueden identificar el rol, la región, la identificabilidad ni la seguridad que brindan el contexto crítico sobre los datos, históricamente han añadido complejidad adicional y procesamiento manual para hacer que las clasificaciones sean accionables para los equipos de seguridad y privacidad.
El papel del descubrimiento y la clasificación de datos en la seguridad y el cumplimiento
Los diferentes tipos de datos también resaltan la necesidad de descubrimiento y clasificación de datos, especialmente en lo que respecta a tu postura de seguridad y al cumplimiento normativo.
Hay una tendencia emergente de seguridad llamada DSPM que busca responder algunas preguntas sobre tus datos y su seguridad, incluyendo las siguientes:
- ¿Dónde se encuentra mi información sensible?
- ¿Qué datos sensibles están en riesgo?
- ¿Qué se puede hacer para mitigar o remediar ese riesgo?
El descubrimiento y la clasificación de datos sensibles forman parte de tu estrategia de DSPM, como se ilustra en este diagrama:

Como puedes ver, contar con una estrategia de DSPM es importante si tu organización maneja cualquier tipo de datos sensibles, y las herramientas de descubrimiento y clasificación de datos, como Cyera, son una parte importante de esa estrategia.
Casos de uso del mundo real para el descubrimiento y la clasificación de datos sensibles
Existen muchos casos de uso para el descubrimiento de datos sensibles en el mundo real. A continuación se analizan algunos de los más comunes.
Cumplimiento
Tus herramientas de descubrimiento de datos deben reconocer que distintos tipos de datos deben cumplir con diferentes normativas y estándares de seguridad. Si estás trabajando con datos del tipo HIPAA o haces negocios en la UE, tu solución de descubrimiento de datos debe asegurarse de que tus prácticas de datos se apeguen a lo establecido por estas regulaciones.
Algunas jurisdicciones y países, como la UE y Filipinas, otorgan a sus usuarios más control sobre sus propios datos personales. Las leyes y directrices publicadas en estas áreas dan a los titulares de los datos cierto poder para ejercer su "derecho al olvido", al menos hasta cierto punto.
Bajo el RGPD, específicamente, los interesados también tienen el "derecho a ser informados", que un usuario puede usar para consultar a cualquier tercero sobre la ubicación de sus datos personales que dicho tercero pudiera estar almacenando.
Una buena herramienta de descubrimiento de datos debe estar al tanto de estos estándares y derechos y debe intentar descubrir y clasificar cualquier dato encontrado en consecuencia.
Fusiones y adquisiciones
Comprar o fusionar una empresa con otra puede traer todo tipo de complejidades a tu DSPM. No tienes ninguna garantía de que la empresa que estás buscando adquirir haya seguido las prácticas regulatorias.
Una herramienta de descubrimiento y clasificación de datos es esencial para evaluar la postura de seguridad de la empresa que planeas adquirir o con la que te vas a fusionar.
Más allá de la seguridad, probablemente terminarás heredando el conjunto de datos de la otra empresa, incluida cualquier información sensible que puedan tener sobre sus clientes o socios.
El proceso de descubrir y clasificar estos datos es esencial, no solo para integrarlos en las bases de datos de tu empresa, sino también para identificar cualquier brecha en términos de riesgo.
Respuesta a incidentes
En caso de una violación de datos, parte de la respuesta al incidente es identificar y clasificar los tipos de datos que se filtraron durante la violación.
Este proceso determina cómo debes responder a la violación, en todos sus aspectos, incluyendo los requisitos de divulgación de la violación y la comunicación con tus clientes y/o socios comerciales.
Otros enfoques para el descubrimiento y la clasificación de datos
En una organización grande, hay distintas estrategias que puedes usar para localizar y clasificar datos sensibles. Cada enfoque tiene sus propias ventajas y desventajas.
Enfoque aislado
Con un enfoque en silos, haces que sea responsabilidad de los distintos departamentos identificar, gestionar y localizar las diferentes partes de los datos sensibles de los que son responsables.
Esto se considera un enfoque descentralizado y tiene algunos beneficios:
- Los equipos específicos entienden mejor sus propios datos que intentar entender los datos de todos.
- Esto conduce a una mejor personalización de las herramientas que utilizan, adaptándolas para que se ajusten a los tipos de datos específicos que manejan.
Sin embargo, también hay desventajas. Por ejemplo, los silos pueden obstaculizar la colaboración entre departamentos y quizá no se apeguen a las mejores prácticas a nivel de toda la empresa. Además, es cada vez más probable que tus equipos estén duplicando esfuerzos que podrían gestionarse con mayor eficiencia por un departamento dedicado. Tal vez lo más preocupante, sin embargo, es que la visibilidad y la gestión de datos en silos ocultan el desplazamiento de datos, la proliferación de datos mediante datos en la sombra y copias, el acceso excesivamente permisivo y el uso indebido de datos. En todos estos casos, a medida que los datos se mueven dentro de una organización, atraviesan silos de visibilidad y gestión, lo que hace cada vez más probable que las configuraciones incorrectas, el uso indebido y las actividades maliciosas pasen desapercibidas. Esto, a su vez, aumenta la probabilidad de una vulneración.
Enfoque de hub-and-spoke
Al implementar un enfoque de concentrador y radio, la responsabilidad del descubrimiento, la clasificación y la gestión de tus datos sensibles recae en un equipo central dedicado a esta función.
De nuevo, este enfoque tiene sus pros y contras. Desde una perspectiva de supervisión, es más fácil para un equipo central asegurarse de que todos los datos estén cubiertos por las políticas de la empresa en materia de clasificación y seguridad de datos. Además, un equipo centralizado puede crear con mayor facilidad un método y/o criterios estandarizados para los esfuerzos de clasificación. También es más eficiente, ya que hay muy poco riesgo de que otros equipos realicen el mismo tipo de trabajo para los mismos conjuntos de datos superpuestos.
Sin embargo, si un equipo centralizado no cuenta con suficientes recursos, podría convertirse en un cuello de botella para la incorporación o clasificación de nuevas fuentes de datos, especialmente si tu organización es grande y compleja. Además, un equipo centralizado solo puede hacer cumplir aquello para lo cual la empresa le otorga facultades. Si la política oficial no establece que el equipo tiene la autoridad para hacer cumplir sus políticas de clasificación dentro de otros departamentos, podrían ser ignorados o vistos como una molestia.
El futuro del descubrimiento y la clasificación de datos sensibles
Si bien DSPM es una tendencia relativamente nueva y emergente, está bastante claro que la industria la necesita de cara al futuro.
Ya existen plataformas de seguridad de datos, como Cyera, que implementan algoritmos de aprendizaje automático para conocer los tipos de datos específicos en el entorno de un cliente. Su software también puede conectarse a la infraestructura en la nube de una organización usando un solo rol de IAM, lo que permite un escaneo continuo y sin agentes de los datos que residen en la nube. Este es un factor especialmente importante a medida que más y más organizaciones trasladan sus datos a la nube.
Conclusión
El descubrimiento y la clasificación de datos sensibles son procesos importantes que te ayudan a identificar qué datos sensibles existen en tu entorno, lo que a su vez te indica cómo debe ser tu estrategia de seguridad de datos. También es una parte integral del marco de DSPM, que te ayuda a identificar y mitigar los riesgos asociados con cualquier dato sensible que puedas estar gestionando. Los líderes de seguridad esperan obtener los beneficios más transformadores al mejorar la seguridad de los datos mediante automatización inteligente. Para lograrlo, están invirtiendo en detección de exposición en tiempo real y en la gestión de la postura de seguridad de datos.
Este cambio promete mejorar la automatización y la orquestación de las políticas de seguridad, con impactos demostrables en:
Tiempo de obtención de valor reducido
El 78% de los líderes de seguridad dicen que acelerar el tiempo para obtener valor de sus soluciones de seguridad de datos es crítico o muy importante. Cyera se implementa con un único rol de IAM que habilita el descubrimiento dinámico de almacenes de datos en todos los modelos de implementación. Eso significa que detecta continuamente almacenes de datos nuevos y modificados sin intervención humana, lo que mantiene el ritmo del rápido ritmo de cambio en los entornos en la nube.
Mejor precisión en clasificación y detección
El 74 por ciento de los líderes de seguridad están invirtiendo en la creación y el mantenimiento automáticos del inventario de datos, y el 71 por ciento está priorizando mejoras en la precisión de la clasificación de datos. La Plataforma de Seguridad de Datos impulsada por IA de Cyera hace que la clasificación sea completamente autónoma, utilizando ML e IA para lograr más del 95 por ciento de precisión sin intervención humana.
Habilitar controles de seguridad dinámicos
El 81% de los líderes de seguridad desean habilitar controles de seguridad dinámicos. Para garantizar que los equipos de seguridad puedan implementar los controles adecuados con confianza, Cyera implementa LLM para detectar entidades con nombre y extraer temas de los entornos con el fin de obtener un contexto profundo de los datos, incluyendo la identificación del rol, la región, la identificabilidad y la seguridad de los datos para informar controles específicos y adecuados para su propósito.
Descubre cómo la plataforma de seguridad de datos impulsada por IA de Cyera aplica estas capacidades a todos los datos de una empresa en cualquier lugar.
Si deseas aprender más sobre la gestión de la postura de seguridad de datos, consulta este glosario para obtener más información.
Autor: Thinus Swart
Obtén visibilidad total
con nuestra Evaluación de Riesgos de Datos.