Tabla de contenido
Descripción general

3 requisitos esenciales para la clasificación avanzada de datos PII

3 requisitos esenciales para la clasificación avanzada de datos PII

La tecnología de clasificación de datos ha permanecido más o menos igual por más de una década. A pesar de incorporar algo de automatización, en gran medida ha sido un ejercicio impulsado por procesos que ha frustrado a los profesionales de seguridad, datos y TI, así como a otros empleados de la empresa. Si, por ejemplo, te topas con informes de investigación de analistas archivados o artículos antiguos sobre el tema de mediados de la década de 2010, notarás que los desafíos de los que se quejaban los profesionales entonces son similares a los que nos persiguen hoy.

Pero se está produciendo un cambio importante en el ámbito de la seguridad de datos, impulsado por tecnología nativa de la nube y sin agentes. Llegaremos a eso en un minuto, pero primero cubramos la clasificación de datos que muchos profesionales han experimentado y analicemos por qué está convirtiéndose rápidamente en un enfoque heredado.

Clasificación de datos de ayer

¿Cuáles son los desafíos de la clasificación de datos de ayer?

Difícil de implementar

La clasificación de datos de ayer es difícil de implementar. Los equipos primero deben inventariar sus datos, decidir qué almacén de datos quieren clasificar y luego involucrar al equipo de desarrollo para ayudar a configurar manualmente las conexiones a ese almacén de datos.

Debido a que la herramienta tiene que señalar almacenes de datos específicos, solo se pueden clasificar los almacenes de datos conocidos. Y como el proceso consume mucho tiempo, los equipos limitan el alcance de su iniciativa de clasificación a un subconjunto pequeño del entorno. 

Proporciona información limitada

La clasificación de datos de ayer proporciona dos resultados principales: etiquetas de sensibilidad y etiquetas semánticas. 

La sensibilidad o confidencialidad indica el nivel de riesgo para los datos cuando estos se ven comprometidos. Las etiquetas de sensibilidad comunes incluyen "muy sensible", "sensible", "solo interno" y "público". Tanto la convención de nombres como la cantidad de etiquetas de sensibilidad varían ampliamente entre distintas organizaciones. En ausencia de una gobernanza adecuada y de alineación en torno a las etiquetas de sensibilidad, esa cantidad puede dispararse. Esto da como resultado un etiquetado de datos confuso e inconsistente.

Las clases semánticas o simplemente “clases de datos” son una breve descripción del tipo de datos. Muchas herramientas, incluidos los catálogos de datos, las soluciones de DLP y las nubes públicas, ofrecen capacidades básicas para la clasificación de datos. A menudo, el resultado de las clases de datos de estas herramientas son etiquetas que, en esencia, describen o reflejan lo que se encuentra en el nombre del encabezado de una columna dentro de una tabla. No hay contexto adicional para describir los datos en sí.

Requiere intervención humana constante

Incluso con solo dos salidas principales —sensibilidad y etiquetas semánticas— los resultados de la clasificación son incompletos e inexactos. No es raro ver que una herramienta de clasificación asigne etiquetas solo a parte de los datos, pero omita otros. Los patrones predefinidos en los que se apoyaba la clasificación de datos de ayer no pueden mantenerse al día con la creciente variedad y el formato de datos que se encuentran en data stores.

La falta de integridad y precisión en los resultados de clasificación implica que alguien tenga que revisar y validar los resultados manualmente. Esto impide que la iniciativa de clasificación escale para mantenerse al ritmo del crecimiento de los datos. 

¿Qué es la Clasificación Avanzada de Datos PII?

La clasificación de datos es el proceso de organizar la información en categorías relevantes para facilitar su recuperación, ordenamiento, uso, almacenamiento y protección. Además, la Clasificación Avanzada de PII es una solución nativa en la nube y sin agentes que no solo clasifica los datos, sino que también captura un contexto profundo sobre la información con alta precisión y velocidad.

Los tres requisitos esenciales de la Clasificación Avanzada de PII son:

  • Velocidad y precisión
  • Contexto profundo
  • Identificación dinámica

Velocidad y precisión

Debido a que los datos cambian y se trasladan constantemente, la clasificación debe ser fácil y rápida. 

  • En cuestión de minutos, se conecta a tus entornos en la nube
  • En cuestión de horas, obtendrás un inventario de almacenes de datos, incluidos aquellos de los que no estabas al tanto
  • En pocos día(s), recibirás clasificaciones junto con un contexto de datos detallado en torno a tus datos confidenciales

El proceso no requiere agentes ni sobrecarga, y no hay degradación del rendimiento. Está altamente automatizado y aprovecha el aprendizaje automático no supervisado para analizar petabytes de datos a velocidades increíbles.

Pero esa velocidad no es útil a menos que la clasificación de datos sea muy precisa. La clasificación constituye la base de las políticas de Prevención de Pérdida de Datos (DLP) y de Gobernanza de Acceso a Datos (DAG). La clase de datos nos indica qué controles son más apropiados para el nivel de riesgo que presentan los datos. Nos dice qué protecciones aplican a los datos, quién debería tener acceso a ellos y cómo deben ser ofuscados. Una clasificación altamente precisa hace que las políticas de DLP y DAG funcionen de manera más efectiva para proteger los datos sensibles. 

Las políticas de DLP funcionan detectando la sensibilidad o clasificación de los datos y aplicando acciones protectoras predefinidas sobre ellos. Por ejemplo, puedes configurar una política de DLP para bloquear que los datos etiquetados como de alto riesgo se copien o se trasladen a un entorno no aprobado. Si la etiqueta de sensibilidad es incorrecta —cuando datos de alto riesgo se marcan como públicos— entonces la política de DLP no tomará medidas cuando los datos se copien o se trasladen.

Al igual que las políticas de DLP, las políticas de DAG utilizan etiquetas de sensibilidad o clasificación como condiciones para la acción. Las políticas de DAG determinan quién debe tener acceso a los datos y cómo se deben ofuscar los datos, ya sea en texto sin formato o cifrados. Por ejemplo, puedes configurar una política de DAG para cifrar datos altamente sensibles y restringir el acceso solo al departamento que es propietario de los datos. Cuando una etiqueta de sensibilidad es incorrecta, entonces el método de ofuscación y los controles de acceso para los datos no se aplicarán correctamente. 

Al garantizar que la clasificación sea fácil de implementar, se ejecute rápidamente y produzca clases de datos altamente precisas, Cyera ayuda a las empresas a mantenerse al ritmo del cambio en la nube.

Contexto profundo

El contexto puede desglosarse en cuatro categorías: datos, superficie, controles y riesgo. 

  • Contexto de los datos: nos indica las características que definen los datos
  • Contexto de superficie: nos dice sobre el entorno donde se almacenan los datos
  • Contexto de controles: nos indica qué protecciones existen para garantizar la seguridad e integridad
  • Contexto de riesgo: nos indica los marcos que regulan los datos 

Exploremos cómo el contexto profundo de los datos, dividido en estas categorías, informa nuestra postura de seguridad, utilizando ejemplos recientes de violaciones de datos.

Ejemplo 1: News Corp 2022

Los hackers apuntaron a periodistas de News Corp que cubrían temas geopolíticos polémicos. Los hackers se infiltraron en la red de News Corp durante dos años, lo que les dio amplia oportunidad para realizar reconocimientos e identificar vulnerabilidades. A decenas de empleados les comprometieron su PII.

Contexto de datos:

  • Rol del titular de los datos: Los hackers apuntaron específicamente a empleados.
  • Residencia: Es probable que los periodistas en ciertas regiones, como en EE. UU. o Taiwán, hayan sido objetivo.
  • Identificabilidad: Algunas clases de datos, como el nombre de pila, el género o la edad, pueden considerarse sensibles, pero de forma aislada no se vinculan a una persona específica. La identificabilidad de los datos nos indica si los datos comprometidos pueden vincularse a una persona específica. Y, de ser así, son más valiosos para los hackers.
  • Singularidad: El contexto revela clases de datos únicas de un negocio. Por ejemplo, las “áreas temáticas” de un periodista como clase de datos probablemente sean exclusivas de News Corp y de las empresas de medios masivos.

Ejemplo 2: Bonobos, una subsidiaria de Walmart 2021

Hackers obtuvieron acceso a una base de datos de respaldo en un entorno de nube externo, robando un archivo SQL de 70 GB que contenía direcciones de clientes, números parciales de tarjetas de crédito e historiales de contraseñas.

Contexto de controles:

  • Método de protección: Afortunadamente, solo se almacenaron los últimos cuatro dígitos de los números de tarjeta de crédito y las contraseñas estaban con hash. El contexto nos indica si los datos fueron redactados, cifrados, transformados por otro método o expuestos como texto sin formato.
  • Copias de seguridad: Unos hackers se infiltraron en una copia de seguridad. El contexto revela la existencia de copias de seguridad y si esas copias contienen o no datos sensibles.

Contexto de riesgo:

  • Riesgos regulatorios: Cumplimiento de PCI establece requisitos sobre el almacenamiento seguro de la información de tarjetas de crédito.

Ejemplo 3: Capital One 2019

Una hacker escaneó en busca de cuentas de AWS mal configuradas, obtuvo acceso y descargó los datos. Robó más de 140,000 números de Seguro Social y causó daños por $250 millones.

Controles contexto:

  • Acceso: El hacker apuntó a cuentas mal configuradas que probablemente tenían permisos de acceso excesivos, lo que las convirtió en un blanco fácil.

Contexto de datos:

  • Combinaciones tóxicas: Se robaron números de Seguro Social con detalles de cuentas bancarias vinculadas. La combinación de estas dos clases de datos aumenta la probabilidad de que la información pueda utilizarse para actividades fraudulentas.

Contexto de la superficie:

  • Implementación en la nube: El hacker escaneó los almacenes de datos de AWS.
  • Tipo de entorno y volumen de datos: Es probable que el hacker haya realizado tareas de reconocimiento para identificar los objetivos de mayor valor, que probablemente fueran entornos de producción con grandes volúmenes de datos sensibles.

Identificación dinámica

Si los datos son fluidos, entonces nuestra comprensión de los datos y sus riesgos también debe ser fluida. La clasificación de datos de ayer ofrece una descripción estática de los datos: si esos datos fueron etiquetados como no sensibles, entonces siguen siendo no sensibles a pesar de los cambios en los datos y su entorno. 

La identificación dinámica ofrece un grado extremadamente alto de precisión en nuestra comprensión de los datos, ya que registra los cambios en los datos al analizar la relación entre las clases de datos dentro de un conjunto de datos. Por ejemplo, una clase de datos que contiene:

  • "nombre de pila" no se vincula a una persona
  • "nombre" + "apellido" + "edad" combinados se vinculan a una persona
  • "nombre" + "apellido" + "edad" + "número de seguro social" hace que los datos sean confidenciales o privados

Con esa capacidad, la identificación dinámica de cuándo la proximidad genera información privada y sensible nos ayuda a priorizar los problemas para la defensa y el aseguramiento del cumplimiento, al informarnos sobre los niveles de riesgo cambiantes de los datos y señalar combinaciones de datos tóxicas que representan el mayor potencial de uso indebido.

La clasificación de datos de ayer no logra capturar los matices de los datos: ¿es PII de clientes o PII de empleados? Las soluciones basadas en expresiones regulares de DLP y otros proveedores pueden representar mal los datos, etiquetando clases de datos individuales como correo electrónico o nombre como PII porque no tienen el contexto para descifrar qué es realmente PII o no. Por ejemplo, el correo electrónico personal es PII, pero el correo electrónico corporativo no lo es.

Cyera es la única plataforma de seguridad de datos que te ofrece identificación dinámica que se traduce en una detección avanzada de PII, brindándote una visión completa del PII en todo tu panorama de datos y una visibilidad, gestión de riesgos y reportes de cumplimiento más precisos. Esto te permite tanto fortalecer tu postura de seguridad de datos como operacionalizar una respuesta efectiva a incidentes.

Dejando atrás el ayer

Se hacen muchas afirmaciones sobre lo que los proveedores de tecnología realmente pueden ofrecer en Clasificación Avanzada de PII.

Aquí tienes preguntas clave que debes hacer al buscar una Clasificación avanzada de PII:

  • ¿Cuáles son ejemplos concretos de contexto que la tecnología puede revelar?
  • ¿Qué tan rápido se puede clasificar la información?
  • ¿Cómo detectas y clasificas datos de los que aún no tengo conocimiento?
  • ¿Qué tan precisas son las salidas de clasificación?
  • ¿Y puedes mostrármelo en menos de 5 minutos?

O simplemente pregunta: "¿Qué dirías que haces aquí (para dar contexto a los datos)?"

Flujo de datos animado que muestra el enfoque de Cyera para proteger información sensible en entornos de nube

Avanzando con la clasificación avanzada de PII

La plataforma de seguridad de datos de Cyera ofrece un contexto profundo sobre tus datos y aplica controles correctos y continuos para garantizar la ciberresiliencia y el cumplimiento.

Cyera adopta un enfoque centrado en los datos para la seguridad, evaluando la exposición de tus datos en reposo y en uso y aplicando múltiples capas de defensa. Como Cyera aplica un contexto profundo de los datos de manera holística en todo tu panorama de datos, somos la única solución que puede capacitar a los equipos de seguridad para saber dónde están sus datos, qué los expone a riesgos y tomar medidas inmediatas para remediar exposiciones y garantizar el cumplimiento sin interrumpir el negocio.

Descubre qué clases de datos y contexto puede revelar Cyera sobre tu entorno al programar una demostración hoy mismo.

Experimente Cyera

Para proteger su universo de datos, primero necesita descubrir qué contiene. Permítanos ayudar.

Obtenga una demostración →
Decorative