Sumário

Descoberta e Classificação de Dados Sensíveis

A descoberta e classificação de dados sensíveis é um processo usado para identificar e categorizar informações sensíveis ou confidenciais dentro dos ativos digitais de uma organização. Essas informações podem incluir [informações de identificação pessoal PII, informações de cartão de pagamento (PCI), dados financeiros, registros de saúde, propriedade intelectual, segredos comerciais e outros tipos de informações sensíveis que precisam ser protegidas contra acesso ou divulgação não autorizados.

Forrester define descoberta e classificação de dados como: "A capacidade de fornecer visibilidade sobre onde os dados confidenciais estão localizados; identificar quais são os dados confidenciais e por que são considerados confidenciais; e marcar ou rotular dados com base em seu nível de confidencialidade. A descoberta e classificação de dados confidenciais é valiosa porque identifica o que você deve proteger e facilita a próxima etapa de habilitar controles de segurança de dados. As organizações usam essa visibilidade e compreensão dos dados para otimizar políticas de uso e manuseio de dados e identificar controles apropriados de segurança, privacidade e governança de dados. Elas podem automatizar recursos de remediação para proteger os dados e revelar insights que informam decisões sobre políticas, manuseio de dados e ciclo de vida dos dados."

De acordo com Gartner, "As soluções de descoberta de dados descobrem, analisam e classificam dados estruturados e não estruturados para criar resultados acionáveis para aplicação de segurança e gerenciamento do ciclo de vida dos dados. Usando elementos de metadados, conteúdo e informações contextuais, combinados com modelos de dados baseados em expressões e aprendizado de máquina, as soluções de descoberta de dados fornecem orientação acionável e processos para avançar iniciativas de gerenciamento e segurança de dados."

O processo de descoberta e classificação de dados é crucial para manter a segurança, privacidade e conformidade dos dados. Ao identificar e categorizar informações sensíveis, as organizações podem tomar medidas apropriadas para protegê-las, reduzir o risco de violações de dados e manter a confiança com clientes, parceiros e órgãos reguladores. Ferramentas e tecnologias automatizadas são frequentemente empregadas para agilizar e aprimorar a eficiência desse processo, dada a vasta quantidade de dados que as organizações geram e armazenam.

Neste artigo, você terá uma visão geral sobre descoberta e classificação de dados sensíveis, incluindo o que é, como surgiu e como é normalmente realizada. Identificaremos alguns dos principais desafios que as equipes de segurança enfrentam com abordagens legadas de descoberta e classificação, e como ferramentas de próxima geração estão usando abordagens nativas da nuvem e baseadas em IA para inovar nesse espaço. Você também aprenderá sobre sua relação com gerenciamento de postura de segurança de dados (DSPM) e como isso se relaciona com a tendência em direção às práticas de segurança de confiança zero.

A História da Classificação de Dados

A classificação de dados tem uma longa história, começando com esquemas de dados governamentais e militares usando rótulos como confidencial, secreto e ultrassecreto, para controlar o acesso a informações críticas. No final dos anos 1970 e 1980, à medida que os computadores se tornaram populares, a necessidade de proteger dados sensíveis contra acesso não autorizado levou ao desenvolvimento de controles de acesso, como nomes de usuário e senhas.

Com o surgimento da internet e das plataformas de comunicação na década de 1990, proteger dados durante a transmissão tornou-se essencial, dando origem a métodos de criptografia como o Secure Sockets Layer (SSL). No início dos anos 2000, regulamentações governamentais, como a Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA) em 2003 e o Padrão de Segurança de Dados da Indústria de Cartões de Pagamento (PCI DSS) em 2004, impuseram a classificação e proteção de dados nos setores de saúde e financeiro.

Mais recentemente, regulamentações rigorosas de privacidade de dados como o Regulamento Geral de Proteção de Dados (GDPR) destacaram a importância da descoberta e classificação de dados sensíveis devido a violações de dados. Embora o conceito central exista desde os primórdios da computação, sua formalização e adoção generalizada evoluíram para abordar a complexidade digital e as preocupações com privacidade.

A Necessidade da Descoberta e Classificação de Dados Sensíveis

Em sua forma mais simples, dados sensíveis são dados que devem ser protegidos contra acesso não autorizado.

Dados sensíveis podem ser divididos em alguns dos seguintes tipos, alguns dos quais foram mencionados anteriormente.

Informações de Identificação Pessoal

PII são dados que podem levar à identificação da identidade pessoal de alguém. Dados deste tipo geralmente incluem números de Seguro Social (SSN); biometria, como impressões digitais ou escaneamentos faciais; ou qualquer combinação de dados que, juntos, possam levar à identificação de um indivíduo.

Informações Pessoais

Informações pessoais (IP) são uma classificação mais geral de dados. IP podem incluir IIP, mas também podem incluir outros dados que estão claramente relacionados a uma pessoa, mas não necessariamente identificam uma pessoa. Essa classificação é muito mais ampla e pode incluir dados como os seguintes:

  • Informações de localização
  • Fotografias
  • Origem racial
  • Antecedentes criminais
  • Informações de saúde ou genéticas

Informações Materiais Não Públicas

Informações materiais não públicas (MNPI) são dados relacionados a uma empresa, incluindo suas participações, subsidiárias e quaisquer outras informações que possam ter impacto no preço das ações da empresa. Essas informações incluem itens como os seguintes:

Qualquer uma dessas informações pode ter um efeito sobre o preço das ações de uma empresa e, portanto, essas informações podem ser usadas para obter vantagem ao negociar ações, o que é altamente regulamentado e geralmente ilegal.

Informações de Saúde Protegidas

Informações de saúde protegidas (PHI) são um tipo de dado sensível especificamente regulamentado pela HIPAA e incluem dezoito identificadores, incluindo, mas não se limitando a, o seguinte:

  • Nomes
  • Números de telefone
  • Informações de localização
  • Números de conta
  • Números de prontuário médico

Outros Tipos de Dados

Existem muitos outros tipos de dados não abordados neste guia, mas como você pode ver, a classificação de dados é importante, especialmente se for regulamentada por uma regulamentação nacional ou internacional, como o GDPR.

Impacto da Migração para a Nuvem na Descoberta e Classificação de Dados Sensíveis

Na computação moderna, cada vez mais empresas e serviços estão migrando seus dados para a nuvem. Essa transição simplifica o processo de dimensionamento da sua solução, pois não há necessidade de investir em hardware adicional. Além disso, os provedores de hospedagem em nuvem oferecem redundância automática, confiabilidade e backup. A recuperação de desastres também pode ser automatizada e integrada ao seu plano de armazenamento.

No entanto, isso não significa necessariamente que identificar, classificar e proteger dados confidenciais seja mais fácil com o armazenamento em nuvem. Em um modelo tradicional de data center, a empresa é responsável pela segurança em todo o seu ambiente operacional, incluindo seus aplicativos, servidores físicos, controles de usuário e até mesmo a segurança física do prédio. Em um ambiente de nuvem, o provedor de soluções em nuvem (CSP) oferece um alívio valioso ao assumir uma parte de muitos encargos operacionais, incluindo segurança. Para esclarecer como as responsabilidades são divididas, os CSPs introduziram o conceito do modelo de responsabilidade compartilhada. Este modelo estabelece as responsabilidades que cabem ao CSP e à equipe de segurança da empresa à medida que aplicativos, dados, contêineres e cargas de trabalho são movidos para a nuvem. Definir a linha entre suas responsabilidades e as dos CSPs é imperativo para reduzir o risco de introduzir vulnerabilidades em seus ambientes de nuvem pública, híbrida e multinuvem.

Ilustração do modelo de responsabilidade compartilhada para segurança de dados na nuvem

A empresa média gerencia 10 ou mais ambientes de nuvem atualmente, entre os modelos de implantação de Infraestrutura como Serviço (IaaS), Plataforma como Serviço (PaaS) e Software como Serviço (SaaS). Como a imagem ilustra, um fator comum entre esses ambientes de nuvem é que a responsabilidade de proteger os dados cabe à empresa, não ao CSP. Isso destaca uma complexidade fundamental para as equipes de segurança à medida que as empresas que elas apoiam migram dados para a nuvem. A natureza permissiva da nuvem, especialmente em ambientes SaaS, facilita a proliferação e o compartilhamento de dados, e torna mais desafiador para as equipes de TI e segurança gerenciar e manter a visibilidade e o controle sobre esses dados.

Historicamente, ferramentas que agrupavam recursos de descoberta e classificação de dados dependiam da interação humana para habilitá-las. Para descobrir um armazenamento de dados, ferramentas como catálogos de dados, sistemas de gerenciamento de informações e ferramentas de prevenção contra perda de dados (DLP), exigem que humanos conectem manualmente a ferramenta ao armazenamento de dados. Isso é normalmente alcançado usando uma conexão JDBC ou ODBC, uma API ou um proxy de rede para detectar o tráfego que vai e vem de um armazenamento de dados. Isso significa que as pessoas que implementam e administram os sistemas devem ter conhecimento da existência de um armazenamento de dados, onde ele está localizado e como conectar a ferramenta a esse sistema.

Da mesma forma, para classificação, os humanos arcam com um ônus inicial significativo ao estabelecer os metadados e marcação necessários para que uma ferramenta de classificação seja eficaz. É necessário definir metadados, incluindo rótulos de sensibilidade do Microsoft Information Protection (MIP) em ambientes Microsoft 365, e criar manualmente classificadores para definir o mecanismo de detecção para a classe de dados. Este último requer expressões regulares (RegEx), dados de amostra e objetos de amostra que a ferramenta possa corresponder ao padrão fornecido aos dados no ambiente conectado. Um grande número de empresas ainda mantém manualmente seus inventários de dados usando esses métodos e estão sendo prejudicadas pela falta de automação oferecida por suas ferramentas de descoberta de dados.

A Maioria das Ferramentas Requer Descoberta Manual de Dados

Hoje, ferramentas modernas e nativas da nuvem estão implementando processos automatizados para acompanhar a forma como as empresas criam, consomem e usam dados. Historicamente, os administradores tinham que desenvolver manualmente as habilidades para descobrir e organizar dados em diferentes armazenamentos de dados. Este seria um procedimento incrivelmente demorado que, muito provavelmente, seria realizado além da descrição de cargo existente de um funcionário.

Processos manuais levaram impressionantes 74 por cento dos tomadores de decisão em segurança a estimar que os dados confidenciais de sua organização foram violados pelo menos uma vez em 2022. Em um estudo recente que a Cyera encomendou com a Forrester Consulting, 59 por cento dos líderes de segurança admitem que têm dificuldade em manter um inventário detalhado de dados. A descoberta e classificação manual de dados tende a ser muito propensa a erros e os funcionários individuais precisam de amplo conhecimento institucional para conseguir desempenhar a função em um nível aceitável.

Existem várias complexidades adicionais que você precisa levar em consideração, incluindo as seguintes:

  • Localização e residência de dados: Algumas regulamentações (como o GDPR) regulamentam especificamente onde os dados podem ser armazenados, especialmente os dados de residentes da União Europeia (UE). Com o armazenamento em nuvem, você pode nem saber em quais data centers os dados de seus clientes ou consumidores estão localizados.
  • Criptografia de dados: Embora o armazenamento em nuvem ofereça criptografia, garantir uma política de criptografia consistente em todos os seus diferentes tipos de dados pode ser difícil.
  • Integração com ferramentas de descoberta de dados: Muito provavelmente, configuração e adaptação extras serão necessárias se você quiser integrar suas ferramentas de descoberta de dados com seu armazenamento em nuvem.

Em geral, o lado da engenharia do armazenamento de dados é mais fácil, mas a segurança de dados é exponencialmente mais complexa. É mais difícil localizar (tanto geograficamente quanto computacionalmente), bem como proteger diferentes tipos de informações confidenciais que você pode ter em toda a sua organização. Além disso, os classificadores estáticos que, na melhor das hipóteses, visam definir uma classe de dados individual, mas não conseguem identificar a função, região, identificabilidade ou segurança que fornece contexto crítico sobre os dados, historicamente adicionaram complexidade adicional e processamento manual para tornar as classificações acionáveis para as equipes de segurança e privacidade.

Papel da Descoberta e Classificação de Dados na Segurança e Conformidade

Os diferentes tipos de dados também destacam a necessidade de descoberta e classificação de dados, especialmente no que se refere à sua postura de segurança e conformidade regulatória.

Há uma tendência emergente de segurança chamada DSPM que visa responder algumas perguntas sobre seus dados e sua segurança, incluindo as seguintes:

  • Onde estão localizados meus dados confidenciais?
  • Quais dados sensíveis estão em risco?
  • O que pode ser feito para mitigar ou remediar esse risco?

A descoberta e classificação de dados sensíveis fazem parte da sua estratégia de DSPM, conforme ilustrado neste diagrama:

Diagrama explicando o framework DSPM (Data Security Posture Management)

Como você pode ver, ter uma estratégia de DSPM é importante se sua organização lida com qualquer tipo de dados sensíveis, e ferramentas de descoberta e classificação de dados, como Cyera, são uma parte importante dessa estratégia.

Casos de Uso do Mundo Real para Descoberta e Classificação de Dados Sensíveis

Existem muitos casos de uso para descoberta de dados sensíveis no mundo real. Alguns dos mais comuns são discutidos nas seções a seguir.

Conformidade

Suas ferramentas de descoberta de dados precisam reconhecer que diferentes tipos de dados precisam estar em conformidade com diferentes regulamentações e padrões de segurança. Se você está lidando com dados do tipo HIPAA ou fazendo negócios na UE, sua solução de descoberta de dados precisa garantir que suas práticas de dados estejam em conformidade com as práticas estabelecidas por essas regulamentações.

Algumas jurisdições e países, como a UE e as Filipinas, dão aos seus usuários mais controle sobre seus próprios dados pessoais. Leis e diretrizes publicadas nessas áreas conferem aos titulares de dados algum poder para exercer seu "direito ao esquecimento", pelo menos até certo ponto.

De acordo com o GDPR, especificamente, os titulares de dados também têm o "direito de ser informado," que um usuário pode usar para consultar qualquer terceiro sobre a localização de seus dados pessoais que o terceiro possa estar armazenando.

Uma boa ferramenta de descoberta de dados deve estar ciente desses padrões e direitos e deve tentar descobrir e classificar quaisquer dados encontrados de acordo.

Fusões e Aquisições

Comprar ou fundir uma empresa com outra pode trazer todo tipo de complexidade para o seu DSPM. Você não tem garantia de que a empresa que está buscando adquirir tem seguido práticas regulatórias.

Uma ferramenta de descoberta e classificação de dados é essencial para avaliar a postura de segurança da empresa que você está procurando adquirir ou com a qual deseja se fundir.

Além da segurança, você provavelmente acabará herdando o conjunto de dados da outra empresa, incluindo quaisquer informações confidenciais que ela possa ter sobre seus clientes ou parceiros.

O processo de descoberta e classificação desses dados é essencial, não apenas para fins de integração nas bases de dados da sua empresa, mas também para identificar quaisquer lacunas em termos de risco.

Resposta a Incidentes

No caso de uma violação de dados, parte da resposta ao incidente é identificar e classificar os tipos de dados que foram vazados na violação.

Este processo determina como você precisa responder à violação, considerando todas as suas facetas, incluindo os requisitos de divulgação da violação e a comunicação com seus clientes e/ou parceiros de negócios.

Outras Abordagens para Descoberta e Classificação de Dados

Em uma organização de grande porte, existem diferentes estratégias que você pode usar para localizar e classificar dados confidenciais. Cada abordagem vem com seus próprios prós e contras.

Abordagem em Silos

Usando uma abordagem isolada, você torna responsabilidade dos diferentes departamentos identificar, gerenciar e localizar diferentes partes de dados confidenciais pelos quais são responsáveis.

Esta é considerada uma abordagem descentralizada e tem alguns benefícios:

  • Equipes específicas entendem seus próprios dados melhor do que tentar entender os dados de todos.
  • Isso leva à personalização aprimorada das ferramentas que utilizam, adaptando-as para atender aos tipos específicos de dados que manipulam.

No entanto, também há desvantagens. Por exemplo, os silos podem dificultar a colaboração entre departamentos e podem não aderir às melhores práticas de toda a empresa. Além disso, torna-se cada vez mais provável que suas equipes estejam duplicando esforços de trabalho que poderiam ser gerenciados de forma mais eficiente por um departamento dedicado. Talvez o mais preocupante, no entanto, seja o fato de que a visibilidade e o gerenciamento de dados isolados mascaram o desvio de dados, a proliferação de dados por meio de dados paralelos e de cópia, acesso excessivamente permissivo e uso indevido de dados. Em todos esses casos, à medida que os dados se movem por uma organização, eles atravessam silos de visibilidade e gerenciamento, o que torna cada vez mais provável que configurações incorretas, uso indevido e atividades maliciosas passem despercebidos. Isso, por sua vez, aumenta a probabilidade de uma violação.

Abordagem Hub-and-Spoke

Ao implementar uma abordagem hub-and-spoke, a responsabilidade pela descoberta, classificação e gerenciamento de seus dados confidenciais fica a cargo de uma equipe central dedicada a essa função.

Novamente, essa abordagem tem seus prós e contras. Do ponto de vista da supervisão, é mais fácil para uma equipe central garantir que todos os dados estejam cobertos pelas políticas de toda a empresa em relação à classificação e segurança de dados. Além disso, uma equipe centralizada pode criar mais facilmente um método e/ou critérios padronizados para os esforços de classificação. Também é mais eficiente, pois há pouco risco de outras equipes realizarem o mesmo tipo de trabalho para os mesmos conjuntos de dados sobrepostos.

No entanto, se uma equipe centralizada não tiver recursos suficientes, ela pode se tornar um gargalo para a integração ou classificação de novas fontes de dados, especialmente se sua organização for grande e complexa. Além disso, uma equipe centralizada só pode impor aquilo que a empresa lhe dá poder para impor. Se a política oficial não determinar que a equipe tem o poder de impor suas políticas de classificação dentro de outros departamentos, ela pode ser ignorada ou vista como um inconveniente.

O Futuro da Descoberta e Classificação de Dados Sensíveis

Embora o DSPM seja uma tendência relativamente nova e emergente, está bastante claro que o setor precisa dele daqui para frente.

Já existem plataformas de segurança de dados, como a Cyera, que implementam algoritmos de aprendizado de máquina para aprender sobre os tipos específicos de dados no ambiente de um cliente. Seu software também pode se conectar à infraestrutura de nuvem de uma organização usando uma única função IAM, o que permite a varredura contínua e sem agente dos seus dados residentes na nuvem. Este é um fator especialmente importante à medida que cada vez mais organizações estão movendo seus dados para a nuvem.

Conclusão

A descoberta e classificação de dados sensíveis são processos importantes que ajudam você a identificar quais dados sensíveis estão em seu ambiente, o que, por sua vez, informa qual deve ser sua estratégia de segurança de dados. Também é parte integrante da estrutura DSPM, que ajuda você a identificar e mitigar os riscos associados a quaisquer dados sensíveis que você possa estar gerenciando. Os líderes de segurança esperam obter os benefícios mais transformacionais ao melhorar a segurança de dados usando automação inteligente. Para alcançar isso, eles estão investindo em detecção de exposição em tempo real e gerenciamento de postura de segurança de dados.

Esta mudança promete melhorar a automação e orquestração de políticas de segurança, com impactos demonstráveis em:

Redução do Tempo para Obter Valor

78% dos líderes de segurança afirmam que acelerar o tempo de retorno para suas soluções de segurança de dados é crítico ou muito importante. A Cyera é implementada com uma única função IAM que permite a descoberta dinâmica de armazenamentos de dados em todos os modelos de implantação. Isso significa que ela detecta continuamente armazenamentos de dados novos e alterados sem envolvimento humano, o que acompanha o ritmo acelerado de mudanças nos ambientes de nuvem.

Precisão Aprimorada de Classificação e Detecção

74% dos líderes de segurança estão investindo na criação e manutenção automática de inventário de dados, e 71% estão priorizando melhorias na precisão da classificação de dados. A Plataforma de Segurança de Dados da Cyera, alimentada por IA, torna a classificação totalmente autônoma, usando ML e IA para alcançar mais de 95% de precisão sem intervenção humana.

Habilitando Controles de Segurança Dinâmicos

81% dos líderes de segurança desejam habilitar controles de segurança dinâmicos. Para garantir que as equipes de segurança possam implementar os controles corretos com confiança, a Cyera implementa LLMs para detectar entidades nomeadas e extrair tópicos de ambientes para derivar contexto profundo dos dados, incluindo a identificação da função, região, identificabilidade e segurança dos dados para informar controles específicos e adequados à finalidade.

Veja como a Plataforma de Segurança de Dados com IA da Cyera aplica esses recursos a todos os dados de uma empresa, em qualquer lugar.

Se você quiser saber mais sobre gerenciamento de postura de segurança de dados, confira este glossário para mais informações.

Autor: Thinus Swart