Dispersão de Dados
A proliferação de dados refere-se às quantidades significativas de dados que muitas organizações criam diariamente. A proliferação de dados pode ser definida como a geração de dados, ou informações digitais, criadas por empresas. Os dados são um recurso valioso porque permitem que os líderes empresariais tomem decisões baseadas em dados sobre como melhor atender sua base de clientes, expandir seus negócios e aprimorar seus processos. No entanto, gerenciar grandes quantidades de dados e tantas fontes de dados pode ser um desafio sério.
Grandes empresas, particularmente as corporações, estão gerando uma quantidade impressionante de dados devido à ampla variedade de produtos de software em uso, bem como formatos de dados recém-introduzidos, múltiplos sistemas de armazenamento na nuvem e em ambientes locais, e enormes quantidades de dados de log gerados por aplicações. Há uma quantidade avassaladora de dados sendo gerados e armazenados no mundo moderno.
De Onde Vêm os Dados?
À medida que as organizações crescem e usam cada vez mais dados para análise e investigação, esses dados estão sendo armazenados em sistemas operacionais, servidores, aplicativos, redes e outras tecnologias. Muitas organizações geram quantidades massivas de novos dados durante todo o dia, todos os dias, incluindo:
- Dados financeiros, incluindo tipos de dados como transações bancárias, dados da web, dados de geolocalização, cartão de crédito e dados de transações de ponto de venda de fornecedores.
- Dados de vendas, que podem incluir receita por vendedor, taxa de conversão, duração média de um ciclo de vendas, tamanho médio de negócio, número de chamadas realizadas, idade e status de leads de vendas, taxas de perda e número de e-mails enviados.
- Dados transacionais, que podem incluir dados de clientes, informações de pedidos de compra, horas trabalhadas de funcionários, custos de seguro, sinistros de seguro, status de envio, depósitos bancários e saques.
- Mídias sociais, e-mail e SMS comunicações, que podem incluir métricas de mídias sociais, dados demográficos, horários do dia, hashtags, assunto e tipos de conteúdo.
- Dados de eventos descrevem ações realizadas por entidades (essencialmente, dados de comportamento); incluem a ação, o registro de data e hora e o estado (informações sobre entidades relacionadas ao evento). Dados de eventos são essenciais para realizar análises.
Esses arquivos e registros estão dispersos em vários locais, o que torna extremamente difícil inventariar, proteger e analisar todos esses dados.
Como Acontece a Proliferação de Dados?
A proliferação de dados é descrita como a quantidade cada vez maior de dados produzidos pelas organizações todos os dias. Amplificada pela mudança para a nuvem, as organizações podem escalar mais rapidamente, produzindo cada vez mais dados. Novos usos para big data continuam a se desenvolver, exigindo um aumento na quantidade de dados armazenados em sistemas operacionais, servidores, redes, aplicativos e outras tecnologias.
Complicando ainda mais as coisas, bancos de dados, pipelines de análise e fluxos de trabalho empresariais têm migrado rapidamente para a nuvem, movendo-se entre múltiplos provedores de serviços em nuvem (CSPs) e entre formatos estruturados e não estruturados. Essa mudança para a nuvem está em andamento, e novos armazenamentos de dados são criados o tempo todo. Líderes de segurança e gerenciamento de riscos (SRM) estão lutando para identificar e implantar controles de segurança de dados de forma consistente neste ambiente.
"...a proliferação de dados não estruturados (tanto on-premises quanto híbrido/multinuvem) é difícil de detectar e controlar quando comparada aos dados estruturados."
Gartner, Hype Cycle for Data Security, 2022
As organizações geram novos dados a cada hora de cada dia. Os dados de clientes em sistemas de gerenciamento de relacionamento com o cliente (CRM) também podem incluir dados financeiros, que também estão em um banco de dados de contabilidade ou sistema de planejamento de recursos empresariais (ERP). Dados de vendas e dados transacionais podem estar nesses sistemas também, e isolados por diferentes departamentos, filiais e dispositivos. Para obter os benefícios prometidos pela análise de dados, os analistas de dados precisam fazer referência cruzada de múltiplas fontes e, portanto, podem ter dificuldade em tomar decisões precisas e informadas.
Em última análise, as organizações precisam de dados para facilitar os fluxos de trabalho do dia a dia e gerar insights analíticos para uma tomada de decisão mais inteligente. O problema é que a quantidade de dados que as organizações geram está saindo do controle. De acordo com um estudo recente da IDC, espera-se que a DataSphere Global mais que duplique de 2022 a 2026. A DataSphere mundial é uma medida de quantos dados novos são criados, capturados, replicados e consumidos a cada ano, crescendo duas vezes mais rápido na DataSphere Empresarial em comparação com a DataSphere do Consumidor.
Desafios da Dispersão de Dados
À medida que as organizações geram dados em um ritmo mais acelerado, está se tornando mais difícil gerenciar essas informações. As organizações podem ter dados armazenados em vários locais, dificultando o acesso a informações críticas para os negócios e a geração de insights precisos. Os membros da equipe precisam fazer referências cruzadas de dados em vários formatos de várias fontes, tornando a análise difícil. Gerenciar informações dispersas em diferentes silos desperdiça tempo e dinheiro. Os dados podem ser corrompidos durante a transmissão, armazenamento e processamento. A corrupção de dados compromete o valor dos dados, e a probabilidade de corrupção pode aumentar junto com o crescente espalhamento de dados.
Além disso, o esforço é desperdiçado quando os dados são duplicados por funcionários que não conseguiram encontrar os dados necessários onde esperavam, o que também pode resultar em dados fantasma. Esses dados duplicados são considerados redundantes. Outros dados podem estar obsoletos (desatualizados) ou triviais (sem valor para insights de negócios). Esse excesso de dados resulta em utilização excessiva de recursos e aumenta os custos de armazenamento em nuvem.
Os funcionários podem estar lidando com dados de forma descuidada, sem entender como a maneira pela qual compartilham e manipulam dados pode introduzir riscos. Usuários não autorizados também podem ter acesso a informações confidenciais, particularmente quando os dados produzidos e armazenados não são gerenciados adequadamente. Classificar dados manualmente é demorado e propenso a erros, podendo aumentar o risco de exposição de dados confidenciais, portanto, encontrar soluções automatizadas é essencial para gerenciar grandes volumes de dados.
A proliferação de dados compromete o valor dos dados e apresenta riscos significativos de segurança. Também há preocupações de segurança porque dados em excesso podem ser difíceis de controlar. Isso aumenta as chances de violações de dados e outros riscos de segurança. Além disso, organizações que não gerenciam a proliferação de dados podem comprometer a confiança dos clientes e enfrentar penalidades rigorosas devido ao Regulamento Geral de Proteção de Dados (GDPR), Lei de Privacidade do Consumidor da Califórnia (CCPA), ou outra legislação de proteção de dados por não conformidade.
Gerenciando a Dispersão de Dados
Colocar a proliferação de dados sob controle requer uma abordagem estruturada para o gerenciamento de dados. É essencial ter uma solução implementada para descobrir e classificar dados. Como os dados estão espalhados em ambientes locais e na nuvem, é fundamental identificar os ambientes onde os dados são armazenados para garantir que todos os dados sejam identificados e gerenciados. Ferramentas que podem descobrir e classificar dados em ambientes SaaS, IaaS e PaaS são importantes, assim como aquelas que podem encontrar e classificar dados estruturados e não estruturados. O objetivo dessas ferramentas é criar uma visão unificada em todo o ambiente.
Identificar um local central para armazenar dados é uma maneira de gerenciar a dispersão de dados. Padrões de segurança em nuvem continuam a melhorar, tornando um repositório centralizado na nuvem uma opção atraente para muitas organizações. Plataformas de armazenamento em nuvem são um excelente método de armazenar dados de forma a criar uma única fonte de verdade que é mais acessível aos funcionários em diversos locais. Ao mesmo tempo, as empresas devem estabelecer políticas de governança de acesso a dados (DAG) que descrevam como os dados devem ser coletados, processados e armazenados. Essas políticas também devem implementar diretrizes para governar os dados, incluindo controles de acesso, retenção, gerenciamento de riscos, conformidade e disposição de dados (como são descartados ao final de seu ciclo de vida). As políticas de DAG complementam os programas de prevenção contra perda de dados (DLP). Gerenciamento de postura de segurança de dados (DSPM) combina descoberta e classificação de dados, prevenção contra perda de dados e governança de acesso a dados para criar uma abordagem de próxima geração para segurança de dados na nuvem.
Soluções para Dispersão de Dados
Para organizações que desejam gerenciar a proliferação de dados, é imperativo saber quais dados existem no ambiente, onde estão localizados e quem tem acesso a eles. Existem diferentes ferramentas para gerenciar todos os dados que as organizações armazenam, mas poucas podem prevenir a proliferação de dados.
As soluções automatizadas de descoberta e classificação de dados devem ser capazes de identificar e classificar dados confidenciais. A inteligência artificial (IA) e o aprendizado de máquina (ML) podem classificar com mais precisão dados difíceis de identificar, como propriedade intelectual e dados corporativos confidenciais.
As soluções de dispersão de dados também podem aumentar a segurança geral dos dados ao ajudar a localizar e identificar dados duplicados e redundantes. Uma vez que os dados dispersos tenham sido identificados e classificados, torna-se mais fácil descartar dados obsoletos ou dados supérfluos. Isso pode economizar custos de armazenamento, além de eliminar dados duplicados e irrelevantes.
As empresas coletam dados diariamente e é fácil criar várias cópias. O primeiro passo para as empresas que desejam gerenciar o acesso aos dados e prevenir a perda de dados é compreender totalmente seus dados — tanto onde eles estão agora, se as equipes de TI ou segurança estão cientes dos armazenamentos de dados ou não, e quaisquer armazenamentos de dados que sejam criados no futuro. Identificar dados sensíveis e quem tem acesso a eles pode ajudar a prevenir violações de dados, garantindo que os controles de segurança apropriados sejam aplicados.
Obtenha visibilidade completa
com nossa Avaliação de Risco de Dados.