3 Requisitos Essenciais da Classificação Avançada de Dados PII

A tecnologia de classificação de dados permaneceu mais ou menos a mesma por bem mais de uma década. Apesar de introduzir alguma automação na tecnologia, ela tem sido em grande parte um exercício orientado por processos que tem frustrado profissionais de segurança, dados, TI e outros funcionários corporativos. Se você, por exemplo, se deparar com relatórios de pesquisa de analistas arquivados ou artigos antigos sobre o tema de meados da década de 2010, notará que os desafios lamentados pelos profissionais naquela época são semelhantes aos que nos assombram hoje.
Mas uma grande mudança está acontecendo no espaço de segurança de dados, impulsionada por tecnologia nativa da nuvem e sem agentes. Chegaremos a isso em um minuto, mas vamos abordar a classificação de dados que muitos profissionais experimentaram e discutir por que ela está rapidamente se tornando uma abordagem legada.
Classificação de Dados de Ontem
Quais são os desafios da classificação de dados de ontem?
Difícil de implementar
A classificação de dados de ontem é difícil de implementar. As equipes devem primeiro fazer um inventário de seus dados, decidir sobre o armazenamento de dados que desejam classificar e, em seguida, envolver a equipe de desenvolvimento para ajudar a configurar manualmente as conexões com esse armazenamento de dados.
Como a ferramenta precisa apontar para armazenamentos de dados específicos, apenas armazenamentos de dados conhecidos podem ser classificados. E como o processo é tão demorado, as equipes limitam o escopo de sua iniciativa de classificação a um pequeno subconjunto do ambiente.
Fornece informações limitadas
A classificação de dados de ontem fornece dois resultados principais: rótulos de sensibilidade e semânticos.
Sensibilidade ou confidencialidade indica o nível de risco aos dados quando os dados são comprometidos. Rótulos comuns de sensibilidade incluem "muito sensível", "sensível", "somente interno" e "público". Tanto a convenção de nomenclatura quanto o número de rótulos de sensibilidade variam amplamente entre diferentes organizações. Na ausência de governança adequada e alinhamento em torno dos rótulos de sensibilidade, esse número pode aumentar descontroladamente. Isso resulta em rotulagem de dados confusa e inconsistente.
Semântica ou simplesmente "classes de dados" é uma breve descrição do tipo de dados. Muitas ferramentas, incluindo catálogos de dados, DLP e nuvens públicas, oferecem recursos básicos para classificação de dados. Frequentemente, a saída das classes de dados dessas ferramentas são rótulos que essencialmente descrevem ou refletem o que é encontrado no nome do cabeçalho da coluna dentro de uma tabela. Não há contexto adicional para descrever os dados em si.
Requer intervenção humana constante
Mesmo com apenas duas saídas principais – sensibilidade e rótulos semânticos – os resultados da classificação são incompletos e imprecisos. Não é incomum ver uma ferramenta de classificação atribuir rótulos a apenas alguns dos dados, mas perder outros. Os padrões predefinidos que a classificação de dados de ontem utiliza não conseguem acompanhar a crescente variedade e formato de dados encontrados em armazenamentos de dados.
A falta de completude e precisão na saída da classificação significa que alguém precisa revisar e validar manualmente os resultados. Isso impede que a iniciativa de classificação seja dimensionada para acompanhar o crescimento dos dados.
O que é Classificação Avançada de Dados PII?
A classificação de dados é o processo de organizar dados em categorias relevantes para tornar mais simples a recuperação, classificação, uso, armazenamento e proteção. Indo além, a Classificação Avançada de PII é uma solução nativa da nuvem e sem agentes que não apenas classifica dados, mas captura contexto profundo sobre os dados com alta precisão e velocidade.
Os três requisitos essenciais da Classificação Avançada de PII são:
- Velocidade e precisão
- Contexto profundo
- Identificação dinâmica
Velocidade e precisão
Como os dados estão em constante mudança e movimento, a classificação precisa ser fácil e rápida.
- Em minutos, ele se conecta aos seus ambientes de nuvem
- Em poucas horas, você terá um inventário de armazenamento de dados, incluindo aqueles dos quais você não tinha conhecimento
- Em questão de dia(s), você receberá classificações juntamente com contexto profundo de dados envolvendo seus dados confidenciais
O processo não requer agentes, sobrecarga, e não há degradação de desempenho. É altamente automatizado, aproveitando aprendizado de máquina não supervisionado para escanear petabytes de dados em velocidades incríveis.
Mas essa velocidade não é útil a menos que a classificação de dados seja altamente precisa. A classificação forma a base para as políticas de Prevenção de Perda de Dados (DLP) e Governança de Acesso a Dados (DAG). A classe de dados nos diz quais controles são mais apropriados para o nível de risco que os dados apresentam. Ela nos diz quais proteções se aplicam aos dados, quem deve ter acesso aos dados e como eles devem ser ofuscados. A classificação altamente precisa faz com que as políticas de DLP e DAG funcionem de forma mais eficaz para proteger dados sensíveis.
As políticas DLP funcionam detectando a sensibilidade ou classificação dos dados e tomando ações protetivas pré-definidas sobre os dados. Por exemplo, você pode definir uma política DLP para bloquear dados rotulados como de alto risco de serem copiados ou movidos para um ambiente não aprovado. Se o rótulo de sensibilidade estiver errado – quando dados de alto risco são marcados como públicos – então a política DLP falhará em tomar ação quando os dados estiverem sendo copiados ou movidos.
Semelhante às políticas DLP, as políticas DAG utilizam rótulos de sensibilidade ou classificação como condições para ação. As políticas DAG determinam quem deve ter acesso aos dados e como os dados devem ser ofuscados, seja deixados em texto simples ou criptografados. Por exemplo, você pode definir uma política DAG para criptografar dados altamente sensíveis e restringir o acesso apenas ao departamento que possui os dados. Quando um rótulo de sensibilidade está errado, o método ofuscado e os controles de acesso para os dados não serão aplicados corretamente.
Ao garantir que a classificação seja fácil de implementar, execute rapidamente e resulte em classes de dados altamente precisas, a Cyera ajuda as empresas a acompanhar o ritmo de mudança na nuvem.
Contexto profundo
O contexto pode ser dividido em quatro categorias: dados, superfície, controles e risco.
- Contexto de dados – nos informa as características que definem os dados
- Contexto de superfície – nos informa sobre o ambiente onde os dados são armazenados
- Contexto de controles – informa quais proteções estão em vigor para garantir segurança e integridade
- Contexto de risco – informa os frameworks que regulam os dados
Vamos explorar como o contexto profundo de dados, dividido nessas categorias, informa nossa postura de segurança, usando exemplos recentes de violações de dados.
Exemplo 1: News Corp 2022
Hackers visaram jornalistas da News Corp que cobriam tópicos geopolíticos controversos. Os hackers haviam se infiltrado na rede da News Corp por dois anos, dando-lhes ampla oportunidade de conduzir reconhecimento e identificar vulnerabilidades. Dezenas de funcionários tiveram suas informações pessoais identificáveis comprometidas.
Contexto de Dados:
- Função do titular dos dados: Os hackers visaram especificamente funcionários.
- Residência: Os jornalistas em certas regiões, digamos nos EUA ou em Taiwan, foram provavelmente alvos.
- Identificabilidade: Algumas classes de dados, como nome, gênero ou idade, podem ser consideradas sensíveis, mas isoladamente não se vinculam a um indivíduo específico. A identificabilidade dos dados nos diz se os dados comprometidos podem ser vinculados a um indivíduo específico. E, se for o caso, são mais valiosos para hackers.
- Exclusividade: O contexto revela classes de dados exclusivas de uma empresa. Por exemplo, "áreas temáticas" de jornalistas como uma classe de dados é provavelmente exclusiva da News Corp e de empresas de mídia de massa.
Exemplo 2: Bonobos, uma subsidiária do Walmart 2021
Hackers obtiveram acesso a um banco de dados de backup em um ambiente de nuvem externo, roubando um arquivo SQL de 70GB contendo endereços de clientes, números parciais de cartão de crédito e históricos de senhas.
Contexto de controles:
- Método de proteção: Felizmente, apenas os últimos quatro dígitos dos números de cartão de crédito foram armazenados e as senhas foram transformadas em hash. O contexto nos informa se os dados foram ocultados, criptografados, transformados por outro método ou expostos como texto simples.
- Backups: Hackers infiltraram um backup. O contexto revela a existência de backups e se esses backups contêm ou não dados confidenciais.
Contexto de risco:
- Riscos regulatórios: A conformidade com PCI estabelece requisitos sobre o armazenamento seguro de informações de cartão de crédito.
Exemplo 3: Capital One 2019
Uma hacker escaneou contas da AWS mal configuradas, obteve acesso e baixou os dados. Ela roubou mais de 140.000 números de Seguro Social e causou US$ 250 milhões em danos.
Contexto dos controles:
- Acesso: O hacker teve como alvo contas mal configuradas que provavelmente tinham acesso excessivamente permissivo, tornando-as um alvo fácil.
Contexto de dados:
- Combinações tóxicas: Números de Seguro Social com detalhes de contas bancárias vinculadas foram roubados. A combinação das duas classes de dados aumenta a probabilidade de que os dados possam ser usados para atividades fraudulentas.
Contexto da superfície:
- Implantação na nuvem: O hacker escaneou armazenamentos de dados da AWS.
- Tipo de ambiente e volume de dados: O hacker provavelmente conduziu um reconhecimento para determinar os alvos de maior valor, que provavelmente eram ambientes de produção com grandes volumes de dados confidenciais.
Identificação dinâmica
Se os dados são fluidos, então nossa compreensão dos dados e seus riscos também deve ser fluida. A classificação de dados de ontem fornece uma descrição estática dos dados: se esses dados foram rotulados como não sensíveis, então permanecem não sensíveis apesar das mudanças nos dados e em seu ambiente.
A identificação dinâmica fornece um grau extremamente alto de precisão ao nosso entendimento dos dados porque registra mudanças nos dados analisando o relacionamento entre classes de dados dentro de um conjunto de dados. Por exemplo, uma classe de dados contendo:
- "nome" não vincula a um indivíduo
- "primeiro nome" + "sobrenome" + "idade" combinados vinculam-se a um indivíduo
- "nome" + "sobrenome" + "idade" + "número de seguridade social" torna os dados confidenciais ou privados
Com essa capacidade, a identificação dinâmica de quando a proximidade cria informações privadas e sensíveis nos ajuda a priorizar questões de defesa e garantia de conformidade, informando-nos sobre os níveis de risco em constante mudança dos dados e identificando combinações tóxicas de dados que representam o maior potencial de uso indevido.
A classificação de dados de ontem falha em capturar as nuances dos dados: são PII de clientes ou PII de funcionários? Soluções baseadas em expressões regulares de DLP e outros provedores podem facilmente representar dados de forma incorreta, rotulando classes de dados individuais como e-mail ou nome como PII porque não têm o contexto para decifrar o que é verdadeiramente PII ou não. Por exemplo, e-mail pessoal é PII, mas e-mail corporativo não é.
A Cyera é a única plataforma de segurança de dados que oferece identificação dinâmica, resultando em detecção avançada de PII, proporcionando uma visão completa das PII em todo o seu cenário de dados e maior precisão em visibilidade, gerenciamento de riscos e relatórios de conformidade. Isso permite que você aborde sua postura de segurança de dados e operacionalize uma resposta eficaz a incidentes.
Superando o Passado
Há muitas alegações sendo feitas sobre o que os fornecedores de tecnologia podem realmente entregar em Classificação Avançada de PII.
Aqui estão as principais perguntas a fazer ao procurar por Classificação Avançada de PII:
- Quais são exemplos concretos de contexto que a tecnologia pode revelar?
- Com que rapidez os dados podem ser classificados?
- Como você detecta e classifica dados que eu ainda não conheço?
- Qual é a precisão dos resultados de classificação?
- E você pode me mostrar em menos de 5 minutos?
Ou simplesmente pergunte: "o que você diria que faz aqui (para dar contexto aos dados)?"

Avançando com a Classificação Avançada de PII
A plataforma de segurança de dados da Cyera fornece contexto profundo sobre seus dados, aplicando controles corretos e contínuos para garantir resiliência cibernética e conformidade.
A Cyera adota uma abordagem centrada em dados para segurança, avaliando a exposição de seus dados em repouso e em uso e aplicando múltiplas camadas de defesa. Como a Cyera aplica um contexto profundo de dados de forma holística em toda a sua paisagem de dados, somos a única solução que pode capacitar as equipes de segurança a saber onde seus dados estão, o que os expõe a riscos e tomar ações imediatas para remediar exposições e garantir a conformidade sem interromper os negócios.
Veja quais classes de dados e contexto a Cyera pode revelar sobre seu ambiente agendando uma demonstração hoje.
Obtenha visibilidade completa
com nossa Avaliação de Risco de Dados.



