Análisis de datos utilizando Big Data.
Ing. Oliver Quixchan, MBA
En los últimos años la generación de datos en
el mundo ha crecido vertiginosamente. Si
nos ponemos a pensar cuanta información es generada por las personas a través
de plasmar sus opiniones sobre diversos temas en la red, creo que podríamos
cometer un error de estimación porque a lo mejor quedaríamos muy debajo de la
realidad.
Se estima que el volumen de datos en el mundo
en el año 2000 era de 800,000 petabytes. Se espera que para el año 2020 sean 35,000 zetabytes. Claro está, mucha de esta información no está
siendo analizada, en otras palabras no se ha obtenido valor. Solo entre Twitter y Facebook se estima que
generan más de 17 Terabytes de información diaria.
El mundo cada vez está más instrumentado. Hoy en día estamos guardando información de
muchas fuentes, por ejemplo, comercio, finanzas, clima, tráfico, vigilancia,
salud, etc.
Cada etiqueta RFID que esté en uso, puede tener
una gran cantidad de información sobre el producto etiquetado; no toda esta
información está siendo analizada en conjunto para obtener más valor.
El tema central de Big Data es precisamente
esto. Tener la capacidad de analizar la
mayor cantidad de datos para obtener conocimiento y tomar decisiones mejor
cimentadas. Decisiones desde el punto de vista de comercio, cadena de valor,
política económica, fraude, cumplimiento, prevención de crimen, ordenamiento de
la ciudad, etc.
Big Data se puede describir desde 3 conceptos
distintos conocidos como las 3 Vs.
Volumen, Variedad, Velocidad.
Algunos expertos están agregando una cuarta V de Veracidad.
Existe una brecha que cada día se hace más
grande entre el volumen de datos que una organización está generando, y lo que
realmente puede procesar, analizar y aprovechar para el cumplimiento de sus
objetivos. Tecnologías existentes hoy en
día, pueden ayudar a incrementar grandemente la capacidad de procesamiento de
esta información, tanto de datos guardados como de análisis de datos en línea
sin que esto implique una inversión significativa.
Se estima que el 80% de los datos de una
organización son datos no estructurados.
Típicamente las organizaciones analizan sus datos a través de soluciones
tradicionales de datawarehouse que
tienen la capacidad de analizar datos estructurados, léase base de datos. Esto significa que las organizaciones están
utilizando únicamente el 20% de sus datos para tomar decisiones, esto sin
mencionar que cuando los datos son utilizados por un datawarehouse ya fueron procesados para determinar la calidad de
los datos. La capacidad de analizar una
gran variedad
de datos tanto estructurados como no estructurados es una característica de Big
Data. Imaginen no tener que tomar
decisiones importantes sobre una muestra de los datos, sino de la
totalidad. En la actualidad los clientes
de las organizaciones utilizan las redes sociales tales como twitter, Facebook,
pinterest o blogs, para expresar sus experiencias ya sean positivas o negativas
con las organizaciones. Analizar
llamadas telefónicas al call center
hasta el punto de determinar si el tono de voz del cliente puede ser utilizado
para tomar una decisión, correos electrónicos, redes sociales, comportamiento
transaccional, perfil, etc. puede agregar mucho valor en el momento de poder
establecer patrones de comportamiento de los clientes y utilizar dicha
información en actividades como cross
selling, campañas, promociones, prevención de fraude, prevención de lavado
de dinero, etc.
Es muy importante contemplar que estos datos se
están generando a una gran velocidad. Si regresamos a pensar en
todas las fuentes que están generando información, la capacidad de poder
capturar esta información, analizarla en línea y en contexto con lo que ya se
tenía almacenado, y actuar acorde al resultado del análisis es una
característica de Big Data. Es posible
que para que una organización pueda tener ventaja sobre sus competidores, deba
poder identificar tendencias, problemas, u oportunidades en segundos, antes que
cualquiera.
En conjunto, Big Data provee a las
organizaciones una oportunidad para analizar TODOS los datos y obtener un mejor
entendimiento del negocio, riesgos, clientes, mercado, etc. Una complicación
latente es que de todos los datos que una organización posee o puede obtener,
existe una parte significativa de ruido o información no confiable (veracidad).
En las redes sociales puede levantarse una ola de social spam con el único objetivo crear tendencias de discusión
falsas para afectar cierta iniciativa o el análisis de cierto fenómeno.
Hoy en día ya existen organizaciones que están
utilizando Big Data para analizar y encontrar una ventaja competitiva
sostenible que les permita ser pioneros y líderes en sus diferentes
industrias. Desde crear ciudades más
inteligentes, pasando por crear oportunidades de negocio no identificadas con
el análisis tradicional, mitigar riesgos, prevenir fraude, crimen, mejorar la
calidad de vida de los ciudadanos a través de mejores planes de salud. Incluso en el campo de la medicina con el
análisis de la totalidad de la información se han podido encontrar patrones que
permiten emitir diagnósticos más acertados en un tiempo más corto y poder
intervenir más temprano mejorando así los resultados del tratamiento.
En el futuro cercano estaremos escuchando cada
vez más sobre los beneficios que el análisis de datos con Big Data está
produciendo en los distintos aspectos de nuestras vidas.