
"Lo importante es no dejar de hacerse preguntas"
Albert Einstein
Llegamos a la segunda parada de nuestra metodología, centrada en (A)dquirir los datos. A priori, puede parecer un paso sencillo y obvio, aunque requiere diferentes habilidades y destrezas, especialmente de corte técnico. Como ya explicamos al comienzo de esta serie, una vez que tenemos 100% claro el conocimiento del negocio, y lo que persigue el análisis que tenemos entre manos, llega el momento de hacernos con los datos que necesitamos para llevarlo a cabo.
Aquí el analista no puede sentarse a esperar a que le lleguen unos datos recopilados por alguien del área técnica, sino que debe involucrarse desde el principio en identificar las fuentes de datos que le van a aportan valor y generen utilidad para el negocio, además de, si es posible, encargarse de extraer dichos datos desde la fuente primaria. Esto es extrapolable incluso hasta en los análisis más simples.
Imaginemos algo tan simple como un análisis de todas las acciones digitales llevadas a cabo en un periodo: puede que en Google Analytics tengamos datos de captación, activación e incluso conversión de todas las clases de campañas realizadas, pero salvo para AdWords, probablemente tengamos que buscar los costes de todas las acciones fuera de la herramienta, consultando al área de Marketing. Esto será vital para obtener métricas básicas de retorno de la inversión, y valorar el éxito de las acciones llevadas a cabo.
Vamos a “recopilar los datos”
Vivimos en la llamada era de la Información, y los antiguos departamentos de informática de las empresas han pasado a llamarse “Departamentos de Sistemas de Información”. Esta transformación solo ha sido posible gracias a la capacidad cada vez mayor de adquirir y almacenar datos de una manera eficiente y sobre todo “barata”, utilizándose dichos datos para obtener el conocimiento que el negocio necesita para poder tomar decisiones.
Pero no todo es perfecto. Esta facilidad nos ha llevado en muchos casos a recopilar cantidades ingentes de datos sin un control o criterio claro, y desde luego sin un objetivo de utilidad específico. Es un error que, por suerte, cada vez se produce con menor frecuencia, pero que podemos encontrar en infinidad de organizaciones. Es decir, ¿tenemos datos? Sí, los tenemos. Pero, ¿tenemos lo que necesitamos? …pues a veces depende.
No basta con recopilar todos los datos que podamos, y lo más rápido posible sin reparar en su utilidad, sino que es necesario de un análisis previo que nos responda preguntas como:
- ¿En que fuente puedo encontrar los datos que necesito?
- ¿Qué proceso he de seguir para obtenerlos?
- ¿De qué forma se generan esos datos en origen?
- ¿Tengo mecanismos para interrelacionar los datos entre sí?
- ¿Dónde vuelco esta recopilación de datos para ir al siguiente paso?
La opción más simple para responder a estas preguntas es seguir una estrategia análoga a la seguida en la inteligencia de negocio: Extraer, Transformar y Cargar (en inglés, ETL – Extract, Transform & Load)
Orígenes de datos
En general, los orígenes de datos dependerán en gran medida de la estrategia y los objetivos que el Negocio hubiera definido previamente, así como de las limitaciones impuestas de forma externa al mismo.
En aquellos negocios que podríamos denominar User Centric, en los que ante todo se busca el conocimiento del Cliente de cara a ofrecerle servicios o productos personalizados a sus gustos o preferencias y que cubran sus expectativas, los datos relacionados con su actividad o con su percepción cobran especial importancia. En estos casos, sistemas de CRM (Customer Relationship Management), sistemas de gestión de incidencias, o de recopilación de encuestas de satisfacción son básicos. Pero puede no ser suficiente. En un mundo tan cambiante como en el que nos encontramos, la opinión del usuario varía continuamente y es preciso recopilarla a medida que se genera. El auge de las redes sociales, y el uso masivo de medios digitales nos han permitido recoger la actividad on-line de los usuarios a medida que se produce.
De igual forma, en aquellos negocios en los que el objetivo que se busca sea reducir costes a través de la optimización de procesos y/o recursos, o bien aumentar los beneficios focalizando los esfuerzos de inversión en unas parcelas del negocio en detrimento de otras, la información suministrada por sistemas ERP (Enterprise Resource Planning) o GIS (Sistemas de Información Geográfica) u obtenidos en tiempo real, nos pueden ayudar en dicho objetivo. Pero de igual forma pueden no ser suficientes, siendo necesario en muchos casos recopilar datos históricos que por su propia naturaleza pueden provenir de orígenes muy distintos (Bases de datos relacionales, sistemas de BI, ficheros planos, …) y en ocasiones incompletos.
Así, vemos que el “abanico” de fuentes puede ser amplísimo, dependiendo tanto de la naturaleza del propio dato como del sistema que los genera; e incluso del objetivo que se pretende buscar.
En este escenario, la labor del analista, con la ayuda de su entendimiento previo del negocio, es básica para la identificación de qué fuentes pueden ser las más idóneas para explotar, utilizando para ello criterios de calidad del dato, disponibilidad, o coste de obtención.
Accediendo a los datos
El siguiente problema a resolver, es “cómo” acceder a esos datos. Como hemos visto, los datos pueden estar almacenados tanto en sistemas legacy, como comerciales de propósito general; en sistemas aislados, o en sistemas interconectados y distribuidos; en sistemas de acceso público, o de acceso restringido; con almacenamiento persistente en sistemas físicos, o generados y recogidos en tiempo real; en soportes físicos distintos como ficheros planos, bases de datos relacionales, papel…etc
En el pasado, el acceso a estas fuentes de datos estaba muy limitado a las propias herramientas que los almacenaban, o a aquellas que formaban parte de una suite, resultando en una difícil integración con otras fuentes externas y dando lugar a lo que se denominaban “setas de información”. Afortunadamente, esta tendencia ha ido evolucionando hacia una búsqueda de conocimiento global a partir de información de muy distinta índole. Esto ha sido posible gracias a un proceso de “apificación” de las arquitecturas de información, entendiendo este proceso como la definición y publicación de funciones de API’s (Application Program Interface) por parte de los sistemas de información con un formato y un uso más o menos unificados. El uso extensivo en los últimos tiempos de servicios REST, es un ejemplo de esta apificación. El uso de estas funciones democratiza la consulta de datos de los sistemas y permiten extraerlos en formatos conocidos (XML, JSON, …) y de fácil almacenaje para su procesamiento posterior.
Así, actualmente es raro encontrar un sistema que no soporte métodos de consulta de datos a través de las correspondientes funciones de API. Es importante hacer notar que no todos los datos almacenados en los sistemas son accesibles vía API, por lo que nuevamente la función del Analista es importante a la hora de identificar las funciones que mejor se adaptan al objetivo buscado, así como las deficiencias técnicas o funcionales que impiden alcanzarlo.
Por otro lado, el hecho de que históricamente los datos se gestionasen en “islas de información”, y muy dependientes de los sistemas que los almacenaban, ha llevado a que el mismo dato sea almacenado en sistemas distintos con formatos distintos, y en muchos casos, hasta con conceptos funcionales distintos, aunque desde el punto del negocio sean iguales. Esta independencia en los datos, influye directamente en la calidad y el valor de la información que se genera, y es nuevamente el Analista de Negocio en colaboración con el Técnico quienes deben unificar criterios y transformar los datos en entidades de negocio con formato y características comunes que permitan interrelacionarlos. Aunque esto corresponde a la siguiente fase de nuestra metodología, así que entraremos en ello en el siguiente artículo de nuestra serie.
Carga de los datos
Por último, una vez identificadas las fuentes, podremos optar por acceder directamente a ellas para su procesamiento, o bien replicar las fuentes mediante un proceso de carga. La decisión depende en muchos casos de las características de las propias fuentes de datos, y de las limitaciones que estas soportan: indisponibilidad temporal de las fuentes, dependencias con sistemas internos en la generación de los datos, velocidad de generación vs velocidad de procesado, …
Como puede observarse, el proceso puede no resultar sencillo. Afortunadamente, actualmente es posible encontrar herramientas que permiten realizar todo el proceso de principio a fin, unificando distintas fuentes de datos – BBDD, RRSS, ficheros de texto, servicios REST, …), interrelacionándolas entre si y almacenándolas de forma eficiente para su posterior transformación en información y conocimiento.
Si quieres ampliar información al respecto, puedes escuchar nuestro podcast: