Dispersión de datos
La proliferación de datos se refiere a las grandes cantidades de datos que muchas organizaciones crean a diario. La proliferación de datos puede definirse como la generación de datos, o información digital, creada por las empresas. Los datos son un recurso valioso porque permiten a los líderes empresariales tomar decisiones basadas en datos sobre cómo servir mejor a su base de clientes, hacer crecer su negocio y mejorar sus procesos. Sin embargo, gestionar cantidades vastas de datos y tantas fuentes de datos puede ser un desafío serio.
Las grandes empresas, en particular las de nivel empresarial, están generando una cantidad asombrosa de datos debido a la gran variedad de productos de software en uso, así como a los formatos de datos recién introducidos, múltiples sistemas de almacenamiento en la nube y en entornos locales, y enormes cantidades de datos de registro generados por las aplicaciones. Hay una abrumadora cantidad de datos que se están generando y almacenando en el mundo moderno.
¿De dónde viene la información?
A medida que las organizaciones escalan y utilizan cada vez más los datos para análisis e investigación, esos datos se almacenan en sistemas operativos, servidores, aplicaciones, redes y otras tecnologías. Muchas organizaciones generan enormes cantidades de datos nuevos todo el día, todos los días, incluidos:
- Datos financieros, incluidos tipos de datos como transacciones bancarias, datos web, datos de geolocalización, tarjeta de crédito y datos de transacciones en punto de venta de los proveedores.
- Datos de ventas, que pueden incluir ingresos por vendedor, tasa de conversión, duración promedio de un ciclo de ventas, tamaño promedio de los acuerdos, número de llamadas realizadas, antigüedad y estado de los prospectos de ventas, tasas de pérdida y número de correos electrónicos enviados.
- Datos transaccionales, que pueden incluir datos de clientes, información de órdenes de compra, horas trabajadas por empleados, costos de seguros, reclamaciones de seguros, estado de envío, depósitos bancarios y retiros.
- Redes sociales, correo electrónico y SMS comunicaciones, que pueden incluir métricas de redes sociales, datos demográficos, horas del día, hashtags, temas y tipos de contenido.
- Los datos de eventos describen acciones realizadas por entidades (esencialmente, datos de comportamiento); incluyen la acción, la marca de tiempo y el estado (información sobre entidades relacionadas con el evento). Los datos de eventos son fundamentales para realizar análisis.
Estos archivos y registros están dispersos en múltiples ubicaciones, lo que hace que inventariar, proteger y analizar todos esos datos sea extremadamente difícil.
¿Cómo ocurre la dispersión de datos?
La proliferación de datos se describe como la cantidad en constante expansión de datos que las organizaciones producen cada día. Impulsado por la migración a la nube, las organizaciones pueden escalar más rápido, generando cada vez más datos. Siguen surgiendo nuevos usos para big data, lo que exige aumentar la cantidad de datos que se almacenan en sistemas operativos, servidores, redes, aplicaciones y otras tecnologías.
Para complicar aún más las cosas, las bases de datos, los pipelines de analítica y los flujos de trabajo empresariales han estado migrando rápidamente a la nube, moviéndose entre múltiples proveedores de servicios en la nube (CSP) y entre formatos estructurados y no estructurados. Esta transición a la nube continúa, y se crean nuevos almacenes de datos todo el tiempo. Los líderes de seguridad y gestión de riesgos (SRM) están teniendo dificultades para identificar e implementar controles de seguridad de datos de forma constante en este entorno.
"...la proliferación de datos no estructurados (tanto en las instalaciones como en entornos híbridos/multinube) es difícil de detectar y controlar en comparación con los datos estructurados."
Gartner, Ciclo de Hype para la Seguridad de Datos, 2022
Las organizaciones generan nuevos datos cada hora de cada día. Los datos de clientes en los sistemas de gestión de relaciones con clientes (CRM) también pueden incluir datos financieros, que también están en una base de datos de contabilidad o en un sistema de planificación de recursos empresariales (ERP) . Los datos de ventas y los datos transaccionales también pueden estar en esos sistemas, y quedar aislados por distintos departamentos, sucursales y dispositivos. Para obtener los beneficios prometidos por el análisis de datos, los analistas de datos necesitan cotejar múltiples fuentes y, por lo tanto, pueden tener dificultades para tomar decisiones precisas e informadas.
En última instancia, las organizaciones necesitan datos para facilitar los flujos de trabajo cotidianos y generar conocimientos analíticos que permitan tomar decisiones más inteligentes. El problema es que la cantidad de datos que generan las organizaciones está fuera de control. Según un estudio reciente de IDC, se espera que la Global DataSphere más que se duplique de 2022 a 2026. La DataSphere mundial es una medida de cuántos datos nuevos se crean, capturan, replican y consumen cada año, y está creciendo el doble de rápido en la DataSphere Empresarial en comparación con la DataSphere del Consumidor.
Desafíos de la proliferación de datos
A medida que las organizaciones generan datos a un ritmo más rápido, se está volviendo más difícil administrar esta información. Es posible que las organizaciones tengan datos almacenados en varios lugares, lo que dificulta el acceso a información crítica para el negocio y la generación de ideas precisas. Los miembros del equipo deben cotejar datos en múltiples formatos y de múltiples fuentes, lo que hace que el análisis sea difícil. Administrar información dispersa en diferentes silos desperdicia tiempo y dinero. Los datos pueden corromperse durante la transmisión, el almacenamiento y el procesamiento. La corrupción de datos compromete el valor de los datos, y la probabilidad de corrupción puede aumentar junto con la expansión de datos.
Además, el esfuerzo se desperdicia cuando los empleados duplican datos porque no pudieron encontrar la información necesaria donde esperaban, lo que también puede generar datos fantasma. Estos datos duplicados se consideran redundantes. Otros datos pueden estar obsoletos (desactualizados) o ser triviales (sin valor para obtener información de negocio). Este exceso de datos provoca un uso excesivo de recursos y aumenta los costos de almacenamiento en la nube.
Es posible que los empleados estén manejando los datos de manera descuidada, sin entender que la forma en que comparten y manejan la información puede introducir riesgos. Los usuarios no autorizados también pueden tener acceso a información sensible, especialmente cuando los datos que se generan y almacenan no se administran adecuadamente. La clasificación manual de datos consume mucho tiempo, es propensa a errores y puede aumentar el riesgo de exposición de datos sensibles, por lo que encontrar soluciones automatizadas es esencial para gestionar grandes volúmenes de datos.
La proliferación de datos compromete el valor de los datos y presenta riesgos de seguridad significativos. También existen preocupaciones de seguridad porque demasiados datos pueden ser difíciles de controlar. Esto aumenta las probabilidades de filtraciones de datos y otros riesgos de seguridad. Además, las organizaciones que no gestionan la proliferación de datos pueden poner en peligro la confianza de los clientes y enfrentarse a sanciones estrictas debido al Reglamento General de Protección de Datos (GDPR), la Ley de Privacidad del Consumidor de California (CCPA) u otras leyes de protección de datos por incumplimiento.
Gestión de la proliferación de datos
Controlar la proliferación de datos requiere un enfoque estructurado para la gestión de datos. Es esencial contar con una solución para descubrir y clasificar datos. Dado que los datos están distribuidos entre entornos locales y en la nube, es fundamental identificar los entornos donde se almacenan los datos para garantizar que todos sean identificados y gestionados. Son importantes las herramientas que pueden descubrir y clasificar datos en entornos SaaS, IaaS y PaaS, así como aquellas que pueden encontrar y clasificar datos estructurados y no estructurados. El objetivo de estas herramientas es crear una vista unificada en todo el entorno.
Identificar un lugar central para almacenar datos es una forma de gestionar la proliferación de datos. Los estándares de seguridad en la nube siguen mejorando, lo que hace que un repositorio centralizado en la nube sea una opción atractiva para muchas organizaciones. Las plataformas de almacenamiento en la nube son un método excelente para almacenar datos de manera que se cree una única fuente de verdad, más accesible para empleados en muchos lugares. Al mismo tiempo, las empresas deben establecer políticas de gobierno de acceso a los datos (DAG) que describan cómo deben recopilarse, procesarse y almacenarse los datos. Estas políticas también deben establecer reglas para gobernar los datos, incluyendo controles de acceso, retención, gestión de riesgos, cumplimiento y disposición de datos (cómo se eliminan al final de su ciclo de vida). Las políticas de DAG complementan los programas de prevención de pérdida de datos (DLP). La gestión de la postura de seguridad de datos (DSPM) combina el descubrimiento y la clasificación de datos, la prevención de pérdida de datos y el gobierno de acceso a los datos para crear un enfoque de próxima generación para la seguridad de datos en la nube.
Soluciones para la Dispersión de Datos
Para las organizaciones que quieren controlar la proliferación de datos, es imprescindible saber qué datos existen en el entorno, dónde se encuentran y quién tiene acceso a ellos. Existen distintas herramientas para gestionar todos los datos que almacenan las organizaciones, pero pocas pueden evitar la proliferación de datos.
Las soluciones automatizadas de descubrimiento y clasificación de datos deben ser capaces de identificar y clasificar datos sensibles. La inteligencia artificial (IA) y el aprendizaje automático (ML) pueden clasificar con mayor precisión datos difíciles de identificar, como la propiedad intelectual y los datos corporativos sensibles.
Las soluciones para la proliferación de datos también pueden aumentar la seguridad general de los datos al ayudar a localizar e identificar datos duplicados y redundantes. Una vez que se ha identificado y clasificado la proliferación de datos, es más fácil desechar stale data o datos superfluos. Esto puede ahorrar en costos de almacenamiento y eliminar datos duplicados e irrelevantes.
Las empresas recopilan datos a diario y es fácil crear múltiples copias. El primer paso para las compañías que desean gestionar el acceso a los datos y prevenir su pérdida es comprender plenamente sus datos: dónde están ahora, si los equipos de TI o de seguridad están al tanto de los data stores o no, y cualquier data stores que se creen en el futuro. Identificar los datos sensibles y quién tiene acceso a ellos puede ayudar a prevenir filtraciones de datos al garantizar que se apliquen los controles de seguridad adecuados.
Obtén visibilidad total
con nuestra Evaluación de Riesgos de Datos.