Aproveitando Dados Organizacionais para IA/ML e LLMs: Uma Estrutura Estratégica

No artigo anterior, enfatizei que os Modelos de Linguagem de Grande Escala (LLMs) não são meramente uma busca técnica, mas um imperativo estratégico. Nesta discussão, explorarei como as empresas podem aproveitar efetivamente os dados para casos de uso de IA/ML e LLM. Com base na minha vasta experiência como CISO e agora como consultor de estratégia de IA/ML, observei que muitas organizações carecem de uma abordagem holística para o gerenciamento de dados.
O Dilema dos Dados
Os dados são frequentemente considerados uniformemente sensíveis em muitas organizações, ou seja, tudo sob o sol é importante. No entanto, há uma desconexão gritante: as equipes de segurança e as unidades de negócios devem entender claramente onde os dados residem ou como são usados. Cada departamento opera em silos, criando, usando e armazenando dados de forma independente, muitas vezes sem processos padronizados. Este cenário é igualmente prevalente em casos de uso de IA/ML e LLM, onde as equipes técnicas precisam de mais visibilidade sobre o panorama de dados da organização. A questão que surge é: Quem é responsável por organizar, estruturar e proteger os dados organizacionais?
A Necessidade de um Gestor de Dados
Há uma necessidade urgente de uma posição dedicada responsável por gerenciar o ciclo de vida dos dados da organização—desde a criação até a exclusão, em conformidade com os requisitos legais. Esta função deve ser distinta da do CIO ou CISO. O CIO se concentra na eficiência operacional, e o corte de custos pode entrar em conflito com a necessidade de gerenciamento abrangente de dados. Da mesma forma, o foco do CISO na proteção de dados pode limitar o uso inovador de dados. Portanto, uma nova função, idealmente um Data Steward, é essencial. Este indivíduo deve possuir conhecimento íntimo do negócio e a capacidade de conectar os pontos entre a criação, uso e exclusão de dados.
Um "Passo Zero" Crítico: Compreendendo o Panorama de Dados
Com a estrutura organizacional estabelecida, é essencial compreender o panorama mais amplo dos dados. As organizações devem realizar uma auditoria abrangente de dados para mapear o estado atual dos dados em todos os departamentos, o que envolve:
- Fontes de Dados do Catálogo: Catalogar todas as fontes de dados, incluindo dados de engenharia, bancos de dados, aplicativos, serviços de terceiros e pontos de entrada de dados manuais.
- Formatos de Dados: Reconhecer os diferentes formatos nos quais os dados existem, como estruturados, não estruturados, semiestruturados, etc.
- Fluxo de Dados: Entenda como os dados fluem através de vários processos dentro da organização, destacando pontos de integração e possíveis gargalos.
Passos Práticos para Desbloquear Todo o Potencial dos Seus Dados
Etapa 1: Identificar Locais de Armazenamento de Dados
- O primeiro passo envolve cada departamento definir claramente seus dados importantes. Os departamentos estão melhor posicionados para identificar os dados que produzem e utilizam e as condições para sua exclusão. Esta etapa envolve determinar as 'joias da coroa' no nível departamental e identificar seus locais de armazenamento.
Etapa 2: Descobrir e Classificar Dados
- Defina classificações de dados claras e simples, idealmente limitadas a três níveis, para garantir a usabilidade em toda a organização. Esquemas de classificação simples têm maior probabilidade de sucesso e são mais fáceis de gerenciar. Uma vez que os dados críticos, ou 'joias da coroa', sejam classificados e identificados, inicie o processo de descoberta e marcação. Selecionar a tecnologia certa para esta etapa é crucial, pois muitas organizações têm dificuldade em alcançar este estágio, tornando sua conquista um marco significativo. A utilização de soluções de Data Security Posture Management (DSPM) pode marcar automaticamente os dados descobertos, simplificando ainda mais o processo. Além disso, dados classificados e marcados simplificam a tarefa da equipe de Data Loss Prevention (DLP) na identificação de desvios e tentativas de exfiltração, proporcionando um benefício tangível para os CISOs.
Etapa 3: Plataforma Centralizada de Visibilidade de Dados
- As organizações devem se concentrar na implementação de uma plataforma centralizada que forneça visibilidade abrangente de todos os seus dados. Essa abordagem ajuda a reduzir riscos identificados, como o uso inadvertido de dados sensíveis por modelos que não deveriam ter acesso ou usuários acessando ferramentas de IA e dados que não deveriam. Por exemplo, uma plataforma de visibilidade centralizada pode alertar os administradores se um usuário não autorizado tentar acessar informações confidenciais de clientes por meio de uma ferramenta de IA.
Há alguns anos, ao ajudar uma grande gigante de telecomunicações, destacamos um problema significativo em que os dados dos clientes eram armazenados em diferentes locais de acordo com as necessidades de cada departamento. Marketing, finanças e engenharia tinham seus próprios armazenamentos de dados, resultando em múltiplas cópias do mesmo conjunto de dados. Essa situação criou um ecossistema complexo, gerando enormes problemas de segurança e conformidade. Se eles tivessem implementado uma plataforma central com visibilidade abrangente, esse problema teria sido mais simples. Ao prevenir silos de dados, garantir conformidade e aprimorar a segurança, tal plataforma oferece uma visão completa do acesso e uso de dados, protegendo, em última análise, os ativos de dados da organização.
Etapa 4: Implementar as Melhores Práticas Técnicas Básicas
- Implementar normalização e ofuscação de dados de ambientes de produção para ambientes de desenvolvimento.
- Faça backup dos dados regularmente para garantir a integridade e disponibilidade dos dados.
- Empregue Controle de Acesso Baseado em Funções (RBAC) e Autenticação de Dois Fatores (2FA) para aprimorar a segurança dos dados.
- Realize auditorias periódicas e testes de penetração para identificar vulnerabilidades do sistema e acessos não autorizados.
Começar com essa abordagem estruturada ajudará as organizações a estabelecer uma base robusta para aproveitar os dados organizacionais em sua jornada de IA/ML. Essa estrutura mitiga riscos de segurança e minimiza o acúmulo de débito técnico.
Como você ajudaria as organizações a desbloquear todo o potencial de seus ativos de dados, impulsionar a inovação e obter uma vantagem competitiva? Vamos discutir.
Obtenha visibilidade completa
com nossa Avaliação de Risco de Dados.

.png)

