Big data (en español, macrodatos) es un gran volumen de datos de diferentes fuentes que presentan diferentes estructuras y que cambian a una gran velocidad, por lo que se hace imposible procesar por los sistemas informáticos tradicionales, se necesita una gran capacidad de procesamiento como el ofrecido por el Cloud Computing o Servicios informáticos en la nube.
Los datos se han convertido en el nuevo petróleo del siglo XXI. Debido a la gran cantidad de datos que se generan hoy en día, se puede afirmar que la sociedad actual es rica en datos y pobre de conocimiento.
Entendemos que un dato es un valor que representa un fragmento de una descripción o palabra, cantidad o medida que por sí solo no tienen mucho significado.
Los datos son la mínima unidad de significado que por sí solos son irrelevantes y no dicen nada importante para la toma de decisiones.
Información son datos que han sido agrupados o clasificados para configurar un mensaje que puede ser entendido e interpretado por el receptor. Así que los datos sólo tienen utilidad después de ser procesados según su relevancia e interés.
Conocimiento integra los datos y la información con la experiencia, valores y personalidad, permitiendo ser aplicado por las personas en la toma de decisiones.
Estos tres términos se relacionan en la denominada pirámide del conocimiento:
Ejemplo:
Dato: número de personas, sexo, edad, estudios, nivel de estudio de los habitantes de una población.
Información: con este conjunto de datos se puede generar información sobre las características de los habitantes de esa población.
Conocimiento: se combinan esta información con otras y se utilizan para la planificación de acciones concretas sobre la población en estudio.
Datos estructurados: aquellos que ya se diseñan, están ordenados y normalmente provienen de una misma fuente, por ejemplo datos ordenados en una hoja de cálculo, fichas estandarizadas.
Datos semiestructurados: presentan cierto orden, aunque no siguen una estructura estandarizada.
Datos no estructurados: se reciben diversos datos de distintas fuentes que no están ordenados. Se reciben por email, documentos, encuestas...
Base de datos: es un conjunto organizado de información, de datos estructurados, existiendo motores de base de datos; software que permite almacenar, buscar, extraer información de estas bases de datos.
Se capturan los datos.
Almacenamiento de los datos.
Proceso y análisis de los datos. Aquí toca encontrar patrones, creamos un algoritmo para buscarlos o nos podemos servir del Machine Learning para encontrar patrones que ni siquiera nos imaginábamos
Exploración y visualización: todos lo datos se reportan en los patrones detectados sobre un tablero, gráfico...para que se tengan en cuenta en la toma de decisiones.
Datos por todas partes
En la sociedad actual, se están generando multitud de datos de distintas fuentes constantemente.
Imaginad que hablamos de millones de correos electrónicos, fotos, vídeos, operaciones de compra y venta, mensajes de texto, etc, que circulan diariamente por internet.
Cuando se empezó a hablar de la relevancia del Big Data, se hablaba de las 3 uves, con el paso del tiempo se han incorporado 4 más y no se descarta que siga aumentando en los próximos años.
Estas uves hacen referencia a que el big data puede definirse con 7 adjetivos. Pero ¿sabemos cuáles son las 7 uves del big data?
El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.
La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a la rapidez en la que son creados, almacenados y procesados en tiempo real. Para los procesos en los que el tiempo resulta fundamental, tales como la detección de fraude en una transacción bancaria o la monitorización de un evento en redes sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten útiles para el negocio y se consigan conclusiones efectivas.
Las compañías de comunicaciones implementan cada vez más velocidad en la transmisión de datos con el 4G, 5G ...
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las secuencias de click que hacemos en una misma página, formularios de registro e infinidad de acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador.
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra.
La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.
La inteligencia competitiva también se asocia con la innovación de los equipos de trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza, selecciona y monitoriza la información con el fin de conocer mejor el mercado en el que opera, a sus clientes y diseñar estrategias eficaces.
Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar.
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de información. El valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que sean accionables, es decir, que los responsable de la empresas puedan tomar una decisión (la mejor decisión) en base a estos datos.
A continuación hay una lectura que debes de realizar sobre BIG DATA. Una vez realizada la lectura en un documento de Google responde de forma adecuada a las 5 preguntas que se indican a continuación. El documento tenéis que ponerle como titulo BIG DATA_NOMBRE DEL ALUMNO y tenéis que tenerlo guardado en vuestro Google drive y entregarlo por Classroom en formato PDF:
1. ¿Cuáles son algunos ejemplos específicos de cómo el big data ha impactado la industria de la medicina?
2. ¿Qué desafíos éticos y de privacidad plantea el uso del big data, según el artículo?
3. ¿Cómo ha transformado el big data la toma de decisiones estratégicas en el comercio y la industria?
4. ¿Cuál es el papel esperado del big data en la sociedad en el futuro, según el artículo?
5. ¿Cuáles crees que son los beneficios más significativos del uso del big data en la sociedad moderna? ¿Y cuáles podrían ser algunas preocupaciones éticas que surgen del análisis de grandes cantidades de datos? Comparte tu opinión y ejemplos.
A continuación hay una video que visionar y a continuación debéis de contestar al formulario que se incluye en la actividad en Classroom.