Big Data

La tecnología Big Data surge para plantear soluciones a los métodos de almacenamiento tradicionales. Esta tecnología es aplicada los conjuntos de datos que tienen un crecimiento bastante superior respecto al almacenamiento normal.

big-data

Algunos campos de aplicación para la tecnología Big Data son las investigaciones biológicas, estudios meteorológicos, simulaciones físicas y por supuesto, las redes sociales. Se estima que Facebook tenga almacenados alrededor de 100 pensabytes de vídeos y fotos, además de las ubicaciones geográficas recopiladas mediante el GPS.

Los smartphones o teléfonos inteligentes en general suelen generar alrededor de 2,5 quintillones de bytes diariamente en todo el mundo. Esta tasa de transmisión de datos en lugar de reducirse tenderá a incrementarse exponencialmente en una estimación que ronda el 78% según un estudio realizado por Cisco.

Además de los datos generados y recopilados por la información humana, existen otro tipo de datos que se almacenan utilizando la tecnología Big Data de forma masiva, tales como los datos generados por las máquinas denominados M2M que corresponden con las siglas machine to machine. El paquete de información generado por este tipo de datos también tiene un volumen nada despreciable. Entre la información más destacable recopilada por este formato cabe reseñar los sensores digitales instalados en diversos dispositivos como los contenedores que eligen o determinan una ruta especifica. Esta tecnología también se aplica a la electrónica mediante sensores que controlan y monitorizan el traspaso de energía en tiempo real y se estima que alrededor de 30 millones de sensores se encuentran interconectados generando esta información, cuya tasa de crecimiento se estima en un 30% anual.

¿Qué es exactamente el Big Data y cómo funciona?

El término acuñado como Big Data proviene de big data and next wave of infraestructure qué significa Big Data y la próxima ola de infratress que principalmente pone en evidencia la necesidad inminente de adaptación las infraestructuras de recogida de datos.

big-data

Las expectativas de crecimiento en toda la información generada pone de manifiesto esta necesidad inminente, puesto que tan sólo en la Unión Europea se generan alrededor de 1700 billones de bytes por minuto, lo que equivaldría aproximadamente a unos 360000 unidades en el antiguo formato DVD. La equivalencia por persona y día serían unos 6 MB y esto supone aproximadamente toda la cantidad que cualquier persona del siglo XVI generaba a lo largo de su vida.

Las expectativas para estas cifras megalíticas es que se multipliquen exponencialmente durante los próximos 5 años y en este punto, las redes sociales también han supuesto un punto de inflexión en la difusión de esta información. Pues además de la anteriormente mencionada Facebook que es la que a nivel general maneja flujos más grandes de información. Otra redes sociales le siguen muy de cerca como por ejemplo Twitter, con 800 millones de actualizaciones y aproximadamente unos 250 millones de tuits cada hora y Google que registra aproximadamente más de un billón de consultas.

Los datos se han postulado como un valioso recurso de marketing, especialmente aquellos recogidos por los smartphone o teléfonos inteligentes que permiten a las empresas vender de forma personalizada. No obstante, esto también ha planteado varias cuestiones referentes a la seguridad. La tecnología Big Data también propone varias aplicaciones prácticas, como por ejemplo, prevenir catástrofes meteorológicas o adaptar determinados aparatos y dispositivos al consumo eléctrico generado por cada usuario, entre otros.

Tipos de datos recopilados por Big Data

Como hemos comentado anteriormente la tecnología Big Data son infraestructuras adaptables para la recogida masiva de datos y en este punto, podemos distinguir entre cuatro clases fundamentales como se detalla a continuación.

Datos web y redes sociales

Las infraestructuras adaptables para recoger datos a través de la web y las redes sociales, recopilan contenido de las redes sociales principales tales como Twitter, Facebook y Linkedin etcétera.

Machine-to-machine

Como expusimos anteriormente las infraestructuras adaptadas para recoger datos machine-to-machine, es decir, de máquina a máquina se emplean fundamentalmente en medidores y sensores destinados a recopilar una información específica para un propósito particular, tales como la velocidad, presión, temperatura y otras variables meteorológicas empleadas para ser aplicadas en este ámbito. El estudio meteorológico y el campo de la sanidad son dos áreas fundamentales donde se benefician de esta tecnología de recogida masiva de datos.

Big transaction data

Esta tecnología de recogida de datos masiva también se aplica ampliamente en el ámbito médico, especialmente dentro del área de gestión y entre otros, recoge datos acerca de reclamaciones sobre el servicio de salud, detalles sobre las telecomunicaciones entre el sistema sanitario, los usuarios y sistemas de pago. Esta tecnología se emplea tanto en el sistema público de salud como privado.

Biometrics

Este área de la tecnología Big Data está íntegramente desarrollado para recopilar datos sobre el reconocimiento biométrico y el ecosistema tecnológico desarrollado en torno a él, tales como reconocimiento facial y de retina, escaneo de huellas digitales, recopilación de datos genéticos, aplicación de inteligencia artificial etcétera

Human generated

Esta sección de recogida dentro de la tecnología Big Data recopila información generada por personas a través de llamadas telefónicas. El principal ámbito de aplicación de esta tecnología son los Call Centers o registros de llamadas telefónicas en los cuales se deja notas de voz, datos, registro correos electrónicos y mucho más.

Tecnologías integradas en el Big Data

La evolución de la tecnología para recoger grandes cantidades de datos ha supuesto la necesidad adaptación de distintos recursos e infraestructuras, tales como las que se detallan a continuación.

 

big-data

Gestión y análisis de grandes volúmenes de datos

El Big Data ha supuesto un incremento dramático en la recogida de la información que afecta tanto al número de fuentes como a la variedad y el volumen de los datos recogidos para su posterior análisis. Para la utilización de esta tarea se han postulado dos formatos de bases de datos adaptadas al Big Data, tales como las de RBDMS o base de datos relacionados y sistemas no relacionados también llamados no SQL.

RDBMS

Una RDBMS presenta una solución integrada para analíticas de datos y generación de análisis simples que ofrecen una mejor relación entre el precio, el rendimiento, la gestión y la administración de esta información.

Estas mejoras se consiguen gracias al uso de procesamiento paralelo masivo en las estructuras de datos mejoradas y pueden clasificarse en dos grandes grupos que concentra los dispositivos de hardware, software y plataformas de software únicamente.

Aparatos de hardware y software empaquetado

Estos a su vez se dividen en dos grupos que son especialmente adaptados a plataformas de hardware y de software optimizadas y el objetivo en ambos casos es el de proporcionar un paquete integrado que puede ser instalado y mantenido como un sistema único.

Muchos de estos dispositivos fueron desarrollados inicialmente por pequeños vendedores y aplicados a proyectos específicos dentro de un área de negocio determinada. A medida que estos dispositivos se han ido desarrollando se han añadido nuevas capacidades en la gestión de carga de trabajo y se han expandido para manejarlas con mayor eficiencia.

Plataformas de software única

A diferencia de la solución integrada es puesta en el punto anterior, que presenta una combinación eficiente entre software y hardware. Las plataformas de software único consisten en un conjunto de componentes integrados para el manejo de carga de trabajos analíticos.

Bases de datos relacionales

La tecnología que presenta la base de datos única no puede satisfacer las necesidades de cada organización en la carga de trabajo. A pesar de su éxito y su adopción universal, la necesidad inminente en el incremento de recogida de información ha contribuido exponencialmente en la impulsión de nuevos formatos más versátiles para el mismo propósito. Algunas empresas como Google y Yahoo que disponen de un volumen significativo de información para indexar y analizar, son algunos ejemplos que han apostado por el desarrollo de sus propias soluciones optimizadas y al mismo tiempo han ofrecido estos sistemas para el dominio público poniendo sus plataformas disponibles mediante software de código abierto.

Sistemas no relacionales

Estos sistemas son útiles para el procesamiento de grandes volúmenes de datos donde la mayoría son multi estructurados. Estos sistemas son especialmente populares entre los desarrolladores que prefieren utilizar lenguaje de programación procedimental en lugar de un lenguaje declarativo como el SQL en el procesamiento de datos.

¿ Qué tipo de DBMS hay que utilizar y con qué propósitos?

Cada uno de los métodos y sistemas expuesto anteriormente tienen sus propias ventajas e inconvenientes. El sistema a elegir en cada situación depende la fundamentalmente de tres factores. El volumen de datos, los datos de tamaño y el almacenamiento requerido y la complejidad del procesamiento analítico en cuestión. Para proporcionar la plataforma adecuada en cada situación estos tres factores deben coexistir armónicamente para un mejor funcionamiento y desempeño.

Conclusión sobre el Big Data y su ámbito de aplicación

El Big Data se ha postulado como un término popular dentro del ámbito tecnológico en los últimos meses. No obstante, la utilidad de este término se pone de manifiesto en la necesidad de las tecnologías emergentes de incrementar su capacidad respecto al almacenamiento de datos en diversos ámbitos y aplicaciones. La tecnología creada para este propósito dependerá básicamente de las capacidades proporcionadas por los vendedores para gestionar, administrar y organizar la información obtenida a través de éstos.