
“Un buen sistema acorta el camino hacia la meta”. Orison Sweet Marden
Todas las organizaciones tienen almacenados una gran cantidad de datos, algunos efímeros y otros permanentes, que necesitan un marco de referencia en el que moverse con el fin de ser útiles para la empresa. Para realizar esta labor contamos con una solución que está dando mucho de qué hablar en los últimos años, aunque todavía nos es desconocida: el Data Governance o Gobierno del Dato. Para conseguir entender a qué nos referimos cuando hablamos del Gobierno del Dato y ser conscientes de todo lo que abarca, hemos pedido ayuda a Eduardo Sánchez Carballo, Data Business Development Manager en Ibermática y experto en Gobierno del Dato.
El Data Governance en España
Como comentábamos al principio, el propósito principal del Gobierno del Dato es ofrecer un marco que aúne todas las buenas prácticas, metodologías y frameworks que atañen a cómo se trata el dato dentro de una empresa para así poder tenerlo gobernado, localizado y disponible. Para poder llevar este propósito a cabo, no solo es importante establecer este marco, sino también seguir cada fase del ciclo de vida del dato, es decir, desde la planificación antes de entrar en la compañía, el moldeado, saber dónde y cuándo se va almacenar, cómo explotarlo, la calidad, qué definiciones aceptan a ese dato, etc.
Como guía, uno de los frameworks de referencia Data Governance es el DAMA (Data Management Association) y señala que existen 9 dimensiones: modelado y diseño de datos, almacenamiento y operación de datos, seguridad de datos, integración e interoperabilidad de datos, gestión de documentos y contenido, datos maestros y referencia, Data Warehousing & Business Intelligence, metadatos, calidad de datos y arquitectura de datos. De todas ellas, una gran mayoría de las empresas en España realizan las siguientes:
- Almacenar el dato en bases de datos relacionales o en lagos de datos no relacionales.
- Contar con un modelo de datos más o menos bien hecho,
- Tener un Data Warehouse que permite hacer informes, etc.
Como se puede ver, la parte de application centric es la que se tiene más cubierta. Es decir, tenemos una aplicación, esta aplicación ofrece una captura y un modelo de datos concretos, los almacenamos, se hace una copia a un sistema de información y de ese sistema sacamos informes e incluso cuadros de mando. Es lo que se conoce como Business Intelligence. Pero la parte en la que hay que poner más esfuerzo es la relacionada directamente con el negocio. Para explicarlo un poco mejor, pongamos un ejemplo: una empresa tiene un CRM donde se almacenan datos del cliente y necesitan una dirección en concreto, pero dentro del CRM hay 6 direcciones. Las preguntas que surgen son: ¿Qué direcciones son esas? ¿Son direcciones de facturación o de marketing? ¿Cuál es la que necesita? Si no se pueden responder estas preguntas significa que no se está definiendo de manera adecuada el dato, lo que sin duda genera carencias y problemas. En otras palabras, para hacer un buen Gobierno del Dato, es importante tener identificados aspectos como:
- Cuál es la definición real de los datos.
- Cuántas copias de este dato hay en la empresa y si hay copia maestra de todas esas copias.
- Cuál es la calidad de ese dato.
Obviamente, en el momento de consolidar toda esta información, también pueden surgir varios problemas. Por eso es vital contar con mecanismos de normalización y de calidad ya que sin ellos, lo único que se hace es construir una idea holística de la realidad técnica y de negocio de una empresa. Es decir, una especie de monstruo Frankenstein con datos de diferentes partes a modo de parche con los que nunca se llega a tener nada bien organizado.
Por ello, a la hora de dar los primeros pasos en el proceso, lo recomendable es empezar por algún tipo de evaluación o consultoría que saque a la luz el ecosistema con el que se está trabajando y así plantear la iniciativa del Gobierno del Dato que mejor convenga. Esta primera consultoría es necesaria ya que permite a la empresa saber lo que tiene, incluir a las personas que están directamente relacionada con el negocio y buscar lo que se necesita.
Negocio vs IT
Las iniciativas del Gobierno del Dato son algo relativamente moderno, o por lo menos en España. Las primeras nacieron desde la gente de negocio para averiguar cómo solventar los fallos en la comunicación con el cliente, lo que les hacía perder dinero. Este tipo de iniciativa es conocida como Top-down y su funcionamiento consiste en crear un diccionario de definiciones de datos en base a los conocimientos de la gente de negocio, pero sin cotejar dónde están almacenadas las aplicaciones de estos datos. El problema que hay en todo este proceso es que nadie ha pensado que ese dato que se ha definido tiene que obedecer y estar registrado en un sistema corporativo o en una base de datos físico real.
Al surgir esta problemática, llega una segunda iniciativa: el enfoque Bottom-up. En él se establece que para poder gobernar los datos que están en los sistemas, es necesario iniciar el proceso desde IT, es decir desde las bases de datos hasta el negocio. Esto lo que significa es que desde la metadata técnica se va viendo todos los proceso de IT que mueven ese dato para tenerlo totalmente trazado. El problema que surge es que en el momento que se llega al negocio con muchos datos, puede darse el caso de que no se se encuentre el que se necesite, por lo que al igual que con el enfoque Top-Down, al no conciliar el mundo técnico con el de negocio, el dato no se puede gobernar.
Es por esto que existe un tercer enfoque y que es el que mejor funciona: el híbrido. Este enfoque lo que propone es realizar iniciativas tanto en Top-down como en Bottom-up con la ayuda también de una plataforma del Gobierno del Dato, con los que poder ir verificando que el proceso va por buen camino. Esto nos va a permitir que sea negocio el que se involucre en la toma de decisiones de qué direcciones de todas las que hay en IT son las que verdaderamente se necesitan.
Herramientas
Como hemos señalado en el enfoque híbrido, para poder hacer un buen Gobierno del Dato, es importante contar con herramientas que nos ayuden a gestionar el proceso. En este aspecto, en el mercado existen diferentes plataformas en función de las necesidades de cada compañía:
- Una de las más clásicas es Informática. Esta plataforma cuenta con muchas capacidades y cubre todo el proceso: data governance, ETL, movimientos de datos, etc. Aunque requiere de una gran inversión. En esta misma línea, está la herramienta de IBM, que además de contar con la capacidad de crear, transformar, administrar y compartir datos, también pone un gran esfuerzo en su integración. Por otro lado, existen soluciones no tan completas que se centran más en las iniciativas Bottom-Up o Top-Down como Collibra, Talend o Alation.
- Para empresas medianas o grandes que no busquen una gran inversión, existen tecnologías como Stratio, una solución española que permite trabajar en cloud y on-premise, ayudando así a la empresa a tener un mayor control. También es end-to-end con los que se puede trabajar procesos de analítica avanzada y de cuadros de mando. Otra herramienta que no necesita de una gran inversión inicial es Microsoft Azure. Esta plataforma es sin duda la que más ha invertido en la parte de gobierno del dato y además cuenta con una herramienta que se llama Purview que permite hacer gobierno del dato desde Azure Data Factory.
- Además de estas plataformas, también encontramos otro tipo de plataformas que open source. Si bien es cierto que entre las soluciones que hay, no hay ninguna que haga el proceso end-to-end, sí existen algunas que cubren un pequeño desarrollo propio a medida. Tokern, por ejemplo, permite realizar metadata, autodescubrimiento o gobierno de las fuentes de datos. Es más, si se engancha con Spark SQL, se pueden llegar a realizar visualizaciones y Big Data. Por otro lado está Apache Atlas, una plataforma que, aunque todavía le falta un poco de madurez en comparación con otras soluciones del mercado, tiene reglas de calidad, diccionarios, etc...
Si te has quedado con ganas de conocer mucho más sobre este tema, no te pierdas el episodio que le hemos dedicado en nuestro canal de podcast:
![]() |
![]() |
![]() |
Para una empresa tan grande e importante como la mia el data governance es una herramienta fundamental.