¿Qué datos son los que necesito? ¿Cuáles son realmente interesantes para mi negocio? ¿Dónde están? Muchas son las cuestiones que se plantean a la hora de abordar una estrategia de Big Data.
En realidad el volumen de datos que pueden llegar a manejar las organizaciones es cada día más ingente y para sacar beneficio a ese caudal de información, que ayuda a tomar las mejores decisiones o conocer más al cliente, lo primero que conviene comprender es cuáles son las categorías de datos a los que se enfrenta y las fuentes de origen de los mismos, lo que le ayudará a dirigirse a lo que verdaderamente necesita.
Se trata de identificar primero para capturar, evaluar y analizar sólo aquellos activos que propicien información relevante a su objetivo, ya que sin él la información que maneje probablemente no le lleven a ningún lado.
La primera división que nos encontramos en las compañías en función de la categoría de datos existentes son los datos no estructurados, estos conforman nada menos que el 80 por ciento de la información que manejamos en el entorno empresarial. Estos son: archivos de audio, vídeo, fotografías, formatos de texto, SMS, artículos, correos electrónicos…. Conviene saber que este tipo de datos no tiene campos fijos y normalmente se tiene poco control sobre ellos. Su manipulación requiere herramientas como Hadoop (la más popular), bases de datos NoSQL, entre otras.
De otro lado, están los llamados datos estructurados, son lo que se encuentran en un formato definido y bien especificado, son los datos tradicionales de las bases de datos relacionales, hojas de cálculo, archivos y cuentan con un orden claro. Ejemplo: fecha de nacimiento, DNI, el número de la cuenta corriente de un banco…
Luego están los datos semiestructurados que si bien no tienen formatos fijos, sí contienen etiquetas u otros marcadores que permiten su comprensión. Ejemplo: las etiquetas XML y HTML.
Es importante saber si quiere sacar beneficios del Big Data, que la procedencia de estos datos viene de un total de cinco fuentes, lo que le ayudará a su estrategia de identificación para lograr una buena analítica de Big Data y con la que podrá descubrir realmente aquellos datos que han cambiado para reaccionar o conseguir mayores oportunidades de negocio, e incluso aumento de ingresos.
- Biométricos. Son los referidos a la identificación automática de una persona basada en sus características anatómicas o trazos personales, como la firma biométrica. Hablamos tanto de reconocimiento facial pero también genético (ADN).
- Máquina a máquina. Se refiere a Internet de las Cosas, son aquellas tecnologías que permiten la conexión de diferentes dispositivos entre sí. Un ejemplo son los GPS, pero también los denominados chips NFC (aquella tecnología que se sustenta en la comunicación inalámbrica y que permite la transmisión de datos de forma segura: integrada fundamentalmente en smarphone y tablets) . Todo un mundo de posibilidades que puede hallarse también en parquímetros, cajeros, máquinas expendedoras…
- Datos de transacciones. Los datos que se registran en los departamentos de facturación forman parte de las operaciones normales que se producen en las transacciones habituales. También están los centros de llamada, mensajería, reclamaciones, presentación y registro de documentos y los que se generan con los pagos por tarjeta, pago online.
- Generados por los humanos. Todas aquellas grabaciones a operadores de atención al cliente: Call Center, también los e-mail o los registros médicos electrónicos.
- Web y medios sociales. Son los que se originan en la red y configuran, según los expertos, el trozo más grande del pastel llamado Big Data y es una de las fuentes de datos más utilizadas en la actualidad. Hablamos de la información que se genera sobre clicks en vínculos y elementos. Pero también de toda aquella contenida en las búsquedas que realizamos por ejemplo en Google, las publicaciones en las Redes sociales (Twitter, Facebook, Linkedin…) y el contenido web como páginas, enlaces o imágenes.
En conclusión: una vez hayamos identificado cuáles son las fuentes de datos necesarias para nuestra estrategia, aplicaremos la técnicas de analítica para operar sobre ellos y sacar así, valor a la información o lo que es lo mismo: tener la capacidad de traducir los datos en valor de negocio, algo que sólo será posible sabiendo gestionar tanto la información que nos ofrecen los datos estructurados, como no estructurados de la organización con la ayuda de las herramientas de analítica adecuadas.