Tabla de contenido
Descripción general

Aprovechar los datos organizacionales para IA/ML y LLM: un marco estratégico

Aprovechar los datos organizacionales para IA/ML y LLM: un marco estratégico

En el artículo anterior, destaqué que los Modelos de Lenguaje de Gran Tamaño (LLMs) no son simplemente una iniciativa técnica, sino un imperativo estratégico. En esta discusión, exploraré cómo las empresas pueden aprovechar eficazmente los datos para casos de uso de IA/ML y LLM. A partir de mi amplia experiencia como CISO y ahora como asesor de estrategia en IA/ML, he observado que muchas organizaciones carecen de un enfoque holístico para la gestión de datos.

El dilema de los datos

En muchas organizaciones, a menudo se considera que todos los datos son uniformemente sensibles; es decir, todo bajo el sol es importante. Sin embargo, hay una desconexión evidente: los equipos de seguridad y las unidades de negocio deben entender claramente dónde reside la información o cómo se usa. Cada departamento opera en silos, creando, usando y almacenando datos de forma independiente, a menudo sin procesos estandarizados. Este escenario es igualmente común en casos de uso de IA/ML y LLM, donde los equipos técnicos necesitan mayor visibilidad del panorama de datos de la organización. Surge la pregunta: ¿quién es responsable de organizar, estructurar y proteger los datos de la organización?

La necesidad de un responsable de datos

Existe una necesidad apremiante de un puesto dedicado a gestionar el ciclo de vida de los datos de la organización, desde su creación hasta su eliminación, en cumplimiento con los requisitos legales. Este rol debe ser distinto del CIO o del CISO. El CIO se centra en la eficiencia operativa, y la reducción de costos puede entrar en conflicto con la necesidad de una gestión integral de datos. De manera similar, el enfoque del CISO en la protección de datos podría limitar el uso innovador de los datos. Por lo tanto, es esencial un nuevo rol, idealmente un Data Steward. Esta persona debe poseer un conocimiento profundo del negocio y la capacidad de conectar los puntos a lo largo de la creación, el uso y la eliminación de los datos.

Un "paso cero" crítico: comprender el panorama de datos

Con la estructura organizacional establecida, es esencial comprender el panorama de datos más amplio. Las organizaciones deben realizar una auditoría de datos integral para mapear el estado actual de los datos en todos los departamentos, lo cual implica:

  • Fuentes de datos del catálogo: Cataloga todas las fuentes de datos, incluyendo datos de ingeniería, bases de datos, aplicaciones, servicios de terceros y puntos de ingreso de datos manuales.
  • Formatos de datos: Reconoce los diferentes formatos en los que existen los datos, como estructurados, no estructurados, semiestructurados, etc.
  • Flujo de datos: Comprende cómo fluye la información a través de los distintos procesos dentro de la organización, destacando los puntos de integración y los posibles cuellos de botella.

Pasos prácticos para desbloquear todo el potencial de tus datos

Paso 1: Identificar ubicaciones de almacenamiento de datos

  • El primer paso consiste en que cada departamento defina con claridad sus datos importantes. Los departamentos están en la mejor posición para identificar los datos que producen y utilizan, así como las condiciones para su eliminación. Este paso implica determinar las “joyas de la corona” a nivel departamental y señalar sus ubicaciones de almacenamiento.

Paso 2: Descubrir y clasificar datos 

  • Define clasificaciones de datos claras y sencillas, idealmente limitadas a tres niveles, para garantizar la usabilidad en toda la organización. Los esquemas de clasificación simples tienen más probabilidades de éxito y son más fáciles de administrar. Una vez que los datos críticos, o “joyas de la corona”, estén clasificados e identificados, inicia el proceso de descubrimiento y etiquetado. Seleccionar la tecnología adecuada para este paso es crucial, ya que muchas organizaciones batallan para llegar a esta etapa, por lo que alcanzarla es un hito importante. Utilizar soluciones de Data Security Posture Management (DSPM) puede etiquetar automáticamente los datos descubiertos, optimizando aún más el proceso. Además, los datos clasificados y etiquetados simplifican la labor del equipo de Data Loss Prevention (DLP) para identificar desviaciones e intentos de exfiltración, lo que ofrece un beneficio tangible para los CISOs.

Paso 3: Plataforma centralizada de visibilidad de datos

  • Las organizaciones deben enfocarse en implementar una plataforma centralizada que brinde visibilidad integral de todos sus datos. Este enfoque ayuda a reducir riesgos identificados, como el uso involuntario de datos sensibles por parte de modelos que no deberían tener acceso, o que los usuarios accedan a herramientas de IA y a datos que no les corresponden. Por ejemplo, una plataforma centralizada de visibilidad puede alertar a los administradores si un usuario no autorizado intenta acceder a información confidencial de clientes a través de una herramienta de IA.

Hace unos años, mientras ayudábamos a un gigante de las telecomunicaciones, señalamos un problema importante: los datos de los clientes se almacenaban en distintos lugares según las necesidades de cada departamento. Mercadotecnia, finanzas e ingeniería tenían cada uno sus propios repositorios de datos, lo que resultaba en múltiples copias del mismo conjunto de datos. Esta situación creó un ecosistema complejo, con enormes riesgos de seguridad y cumplimiento. Si hubieran implementado una plataforma central con visibilidad integral, este problema habría sido más sencillo. Al evitar los silos de datos, garantizar el cumplimiento y reforzar la seguridad, una plataforma de este tipo ofrece una vista completa del acceso y uso de los datos, protegiendo en última instancia los activos de datos de la organización.

Paso 4: Implementa prácticas técnicas básicas recomendadas

  • Implementar la normalización y ofuscación de datos desde el entorno de producción al de desarrollo.
  • Realiza copias de seguridad periódicas para garantizar la integridad y la disponibilidad de los datos.
  • Emplea el Control de Acceso Basado en Roles (RBAC) y la Autenticación de Dos Factores (2FA) para mejorar la seguridad de los datos.
  • Realiza auditorías y pruebas de penetración periódicas para identificar vulnerabilidades del sistema y accesos no autorizados.

Comenzar con este enfoque estructurado ayudará a las organizaciones a sentar una base sólida para aprovechar los datos organizacionales en su viaje de IA/ML. Este marco mitiga los riesgos de seguridad y minimiza la acumulación de deuda técnica. 

¿Cómo ayudarías a las organizaciones a desbloquear todo el potencial de sus activos de datos, impulsar la innovación y obtener una ventaja competitiva? Hablemos.

Experimente Cyera

Para proteger su universo de datos, primero necesita descubrir qué contiene. Permítanos ayudar.

Obtenga una demostración →
Decorative