MIGUELTECNOLOGÍA

I.E.S. JOSÉ SARAMAGO (Humilladero)

Tema 3: Datos masivos (Big Data)

El objetivo principal de toda empresa es crecer año tras año, multiplicando sus beneficios. Antiguamente se hacían encuestas orales para detectar los gustos de los clientes y poder de esa forma ofrecer los productos que más se iban a vender.

Esta método requería mucho tiempo, ya que después de realizar todas las encuestas "a mano ", había que recopilar todos los datos, digitalizarlos y analizarlos.

A las empresas les conviene recopilar y analizar esos datos lo antes posibles, para poder adelantarse  a las empresas de la competencia.

Con la aparición de los dispositivos electrónicos se vio que a través de los mismos podrían obtenerse más cantidad de datos en menos tiempo, por lo que las empresas empezaron a cambiar su método.

Cada día utilizamos muchos dispositivos mediante los cuales se emite una cantidad ingente de información: cada vez que hacemos clic en una página web, pagamos con tarjeta de crédito, publicamos imágenes en las redes sociales, encendemos el GPS, etc. Todas estas (y muchas más) acciones producen una gran cantidad de datos que deben ser tratados.

La enorme cantidad de datos que se obtiene hoy en día y la gran velocidad a la que se producen, sobrepasan la capacidad del software convencional para ser capturadas, procesadas y almacenadas en un tiempo razonable. 

Es lo que se conoce como BIG DATA.

Para resolver este problema, se utilizan varios ordenadores ubicados por todo el mundo que se reparten los datos en paquetes y los procesan; luego se ponen en común esos datos para obtener los resultados casi en tiempo real.

El procesamiento de datos se realiza mediante algoritmos informáticos que revisan rápidamente los datos y los clasifican o computan.

Si una empresa logra conseguir la suficiente cantidad de datos, puede lograr cosas tan asombrosas como la publicidad en las redes sociales, tanto así que incluso muchas personas creen que los espían por sus micrófonos por lo acertados que son los anuncios que les llegan; pero todo esto es posible gracias a Big Data. 

En la actualidad existen varias empresas que se dedican a ofrecer servicios de Big Data a otras empresas, por lo que se han creado nuevos oficios como Analista de datos.

Las universidades ya están ofertando grados relacionados con el Big Data; si todavía no tienes claro tu futuro, puedes plantearte trabajar en este campo que está en auge.

1.1. ¿Para qué sirve Big Data?

Big Data es extremadamente útil, tanto para las empresas como para mejorar la calidad de vida de las personas. De hecho puede dar respuestas a preguntas que ni siquiera se sabía que se tenían. Ayuda a comprender los problemas, darles solución e incluso predecir qué es lo que podría pasar a futuro en varios escenarios alternativos.

La importancia no está en la cantidad de datos, sino en lo que se puede hacer con ellos. Al fusionar Big Data con el análisis de datos, se puede llegar a hacer análisis predictivos (de esta forma se puede predecir el futuro, o al menos su probabilidad), gracias a los patrones de los datos.

Todo esto se resume en una serie de beneficios como reducir costos de manera considerable, tomar mejores decisiones basados en datos en tiempo real, aumentar las ganancias, reducir tiempos, dar servicios personalizados, encontrar áreas de oportunidad (por ejemplo nuevos productos o servicios) y un largo etcétera.


1.1.1. Ejemplos de uso de Big Data

Existe una infinidad de campos de aplicación de Big Data, no solo para aumentar los beneficios de una empresa, también tiene varias aplicaciones en el mundo real con cosas asombrosas como bajar la criminalidad de una ciudad, como veremos a continuación:


1.2. Casos de aplicación de Big Data en mundo real

Eventualmente tendremos ciudades inteligentes, podremos predecir muchos desastres naturales y estar preparados antes de que ocurran, tendremos una mejor optimización del tráfico e incluso será posible prevenir enfermedades ligadas a nuestros genes en específico. Estos son algunos ejemplos de los casos de uso actuales de Big Data para mejorar la calidad de vida de las personas:

ACTIVIDADES (1)

Rellena y envía el siguiente formulario con las respuestas:

https://docs.google.com/forms/d/e/1FAIpQLSdVsqeaL65dIokSC01e4BrVy1fG0mBA93z5eFCL0ERrmDo78g/viewform?usp=sf_link

1.3. Características más importantes del Big Data (Las 7 V)

Las características más importantes del Big Data perfectamente se pueden clasificar en cuatro magnitudes, más conocidas como las cuatro V del Big Data, relativas a volumen, variedad, velocidad y veracidad. A estas cuatro V, podemos añadir tres más, como pueden ser la de Viabilidad y Visualización. Pero si hablamos de V en Big Data no podemos dejar pasar la principal característica del análisis de datos que es la V de Valor de los datos. Así pues, en los últimos artículos se empieza a hablar, ya no de las tradicionales cuatro V de Big Data, sino de las 7 «V» del Big Data:

Volumen de información

El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.

Velocidad de los datos

La velocidad se refiere a los datos en movimiento por las constantes interconexiones que realizamos, es decir, a la rapidez en la que son creados, almacenados y procesados en tiempo real. Para los procesos en los que el tiempo resulta fundamental, tales como la detección de fraude en una transacción bancaria o la monitorización de un evento en redes sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten útiles para el negocio y se consigan conclusiones efectivas.

Las compañías de comunicaciones implementan cada vez más velocidad en la transmisión de datos con el 4G, 5G ...

Variedad de los datos

La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos,  o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las secuencias de click que hacemos en una misma página, formularios de registro e infinidad de acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador.

Veracidad de los datos

Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida.

Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra.

Viabilidad

La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan.

La inteligencia competitiva también se asocia con la innovación de los equipos de trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza, selecciona y monitoriza la información con el fin de conocer mejor el mercado en el que opera, a sus clientes y diseñar estrategias eficaces.

Visualización de los datos

Cuando hablamos de visualización nos referimos al modo en el que los datos son presentados. Una vez que los datos son procesados (los datos están en tablas y hojas de cálculo), necesitamos representarlos visualmente de manera que sean legibles y accesibles, para encontrar patrones y claves ocultas en el tema a investigar. 

Valor de los datos

El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de información. El valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que sean accionables, es decir, que los responsable de la empresas puedan tomar una decisión (la mejor decisión) en base a estos datos.

2. DATOS CUANTITATIVOS Y CUALITATIVOS

Como hemos visto, a diario se producen una enorme cantidad de datos de distinta índole, algunos de esos datos son cuantitativos y otros son cualitativos. Veamos las diferencias entre ambos.

2.1. Datos cuantitativos y datos cualitativos

3. METADATOS

Los metadatos son datos sobre datos, en otras palabras, es información que se usa para describir los datos contenidos en algo como una página web, documento, foto o archivo. Otra forma de pensar en los metadatos es como una breve explicación o resumen de lo que son los datos.

Los metadatos representan información detrás de escena que se utiliza en todas partes, por todas las industrias, de múltiples maneras. Es omnipresente en los sistemas de información, las redes sociales, los sitios web, el software, los servicios de música y la venta minorista en línea. Los metadatos se pueden crear manualmente para seleccionar y elegir lo que se incluye, pero también se pueden generar automáticamente en función de los datos.

Un ejemplo del uso de los metadatos son las canciones MP3, que incluyen información sobre el título de la canción, el autor, el álbum, el año de publicación, etc. También se usan en libros electrónicos en formato EPUB y en general en todas las páginas web.

El objetivo de los metadatos es el de localizar determinado tipo de archivos por medio de unas palabras clave, por ejemplo, localizar una canción por el autor, localizar en Internet una empresa de electricidad, la foto de un perro, etc.

Los metadatos tienen mucho que ver con el Big Data, cada vez que das un "like" a una canción en una red social, no solo se te asocia esa canción, sino ese estilo de música, ese autor, etc. Incluso se pueden desprender tu estado de ánimo según las canciones que escuchas.

Los metadatos de una foto de Whatsapp, como la anterior, nos dice la fecha y hora en la que fue tomada la foto, la localización donde fue tomada (Si teníamos activado la localización  en el móvil), la orientación del móvil, su configuración , etc.


3.1. Permisos de las aplicaciones

Cuando instalamos una aplicación en nuestro dispositivo, nos pide una serie de permisos para utilizar los sensores y funcionalidades del mismo. Algunos de esos permisos solo se piden para poder recopilar datos y metadatos de nuestros dispositivos, por lo que hay que tener cuidado con las aplicaciones que instalamos y los permisos que les concedemos.

Los permisos de las aplicaciones son uno de los sistemas de seguridad. Al instalar una aplicación o juego, nos pide tener acceso a ciertos recursos en el teléfono (a los archivos, al registro de llamadas o a la cámara, entre otros). En función del tipo de aplicación, es lógico que tenga acceso a determinados recursos, una aplicación de cámara necesitará tener acceso a la cámara del teléfono, por ejemplo. 

Así que al instalar una aplicación, es recomendable repasar los permisos que nos pide y desconfiar de aquellas que nos piden permisos "raros".

También podemos ver los permisos que tienen las aplicaciones ya instaladas y modificarlos:

ACTIVIDADES (2)

Rellena y envía el siguiente formulario con las respuestas:

https://docs.google.com/forms/d/e/1FAIpQLSfW3TAvdZdcpof-ttsKZVBDTZr0uq7GTHfvE0iF3XjLnJFRPg/viewform?usp=sf_link

4. RECOGIDA Y ANÁLISIS DE DATOS

Como vimos al principio del tema, desde la aparición de Internet, las empresas han cambiado sus métodos de obtención de datos. Ya no se suelen hacer encuestas por las calles o por teléfono, sino que los datos se obtienen a través de telemarketing, mensajes SMS, correos electrónicos… Existe una gran industria que se dedica a recopilar, limpiar, organizar y empaquetar estos datos para su uso publicitario. 

Muchas empresas crean sistemas de captación y retención con el fin de mantener a sus clientes activos. Regalos, ofertas especiales o rebajas logran atraer a personas que deben rellenar un formulario con sus datos. En ocasiones lo que estos clientes no saben es que están dando el consentimiento para ceder esta información a terceros y que puede acabar en manos de otras empresas. 

Las empresas hacen negocios con otras empresas vendiendo los datos de sus clientes a otras empresas.

Otras formas de recoger información es a través de nuestros teléfonos móviles, relojes digitales, asistentes domésticos, cámaras, etc. También a través de nuestros hábitos de navegación en Internet, nuestras redes sociales, servidores multimedia, etc.

Una vez concluidas las etapas de colección y procesamiento de datos se inicia con una de las más importantes fases de una investigación: el análisis de datos. En esta etapa se determina como analizar los datos y que herramientas de análisis estadístico son adecuadas para éste propósito. 

El análisis de grandes datos es el proceso de examinar grandes cantidades de datos de una variedad de tipos para descubrir patrones ocultos, correlaciones desconocidas y otra información útil. Tal información puede proporcionar ventajas competitivas a través de organizaciones rivales y resultar en beneficios para el negocio, tales como el marketing más efectivo y mayores ingresos.

Para analizar los datos se utilizan herramientas informáticas avanzadas. 

5. PERIODISMO DE DATOS

Hace algún tiempo, la única manera de conseguir información para un trabajo escolar era recurrir a una enciclopedia o a una biblioteca. Con el auge de Internet esto ha cambiado, ahora toda la información está en la red, por lo que los estudiantes solo acuden a la biblioteca para buscar un sitio tranquilo y silencioso donde poder estudiar.

El problema actual es que en Internet hay demasiada información (no toda veraz) y se encuentra muy dispersa, por lo que buscar datos para un trabajo de investigación o para elaborar una noticia es bastante complicado.

El periodismo de datos o data scraping (rascador de datos) consiste en la extracción de datos de manera masiva, desde sitios web para convertirlos a formatos más sencillos, más fáciles de procesar y gestionar, con el fin de ser almacenarlos, analizados y estudiarlos posteriormente con mayor facilidad.

Este proceso de minería de datos que recientemente ha atraído la atención de periodistas, investigadores académicos y otros interesados de diversas disciplinas que demandan información con fines específicos y que, por lo tanto, necesitan acceder y organizar los datos para sus actividades.

Existen webs y aplicaciones especializadas en realizar data scraping que analizar las páginas web en busca de información relevante de forma automática y la guarda.

Una opción muy usada es la de monitorizar el precio de un artículo en una web, para que nos avise si baja de precio.

6. EL INTERNET DE LAS COSAS (IoT)

El Internet de las cosas (IoT) es el proceso que permite conectar elementos físicos cotidianos a Internet: desde objetos domésticos comunes, como las bombillas de luz, hasta recursos para la atención de la salud, como los dispositivos médicos; también abarca prendas y accesorios personales inteligentes e incluso los sistemas de las ciudades inteligentes.


El término IoT hace referencia a todos los sistemas de dispositivos físicos que reciben y transfieren datos a través de redes inalámbricas con intervención humana mínima, lo cual es posible gracias a la integración de dispositivos informáticos en todo tipo de objetos.


Por ejemplo, un termostato inteligente (es decir, que utiliza el IoT) recibe datos de la ubicación de su automóvil inteligente mientras conduce para ajustar la temperatura de su casa antes de que llegue. Todo esto se logra sin su intervención e incluso ofrece un mejor resultado que si lo hiciera de forma manual.


Un sistema de IoT tradicional, como el hogar inteligente descrito anteriormente, funciona enviando, recibiendo y analizando datos de forma permanente en un ciclo de retroalimentación. Según el tipo de tecnología de IoT, las personas o los sistemas de inteligencia artificial y aprendizaje automático pueden analizar estos datos casi de inmediato o durante un cierto tiempo.


Piense en el ejemplo del hogar inteligente. Para predecir el momento ideal en el cual controlar el termostato antes de que usted llegue a casa, el sistema de IoT puede conectarse a Google Maps y, de este modo, obtener información actual sobre el tráfico en el área. Además, puede utilizar los datos a largo plazo que recopila el automóvil para conocer sus hábitos de conducción. 


Por otra parte, las empresas de servicios públicos tienen la posibilidad de analizar los datos de IoT de los clientes con termostatos inteligentes para optimizar el sistema a gran escala. Es lo que se llama Ciudad Inteligente (Smart city).


Todos los dispositivos de IoT (Relojes inteligentes, sensores en los automóviles, sensores domóticos, etc.) también envían datos al BIG DATA.

ACTIVIDADES (3)

Rellena y envía el siguiente formulario con las respuestas:

https://docs.google.com/forms/d/e/1FAIpQLSfc8JBo9PlYyifDMEQxAcnukl2Olo5IbuGMs1yhEtqeG8CeKQ/viewform?usp=sf_link

Actividad Final Paso a Paso

En Internet existen páginas web donde se ofrecen datos de forma gratuita. Una de esas web es https://www.worldometers.info/ , que es una curiosa página donde se ofrecen datos de la población mundial en tiempo real.

En esta actividad vamos a recopilar algunos datos de dicha web y vamos a presentarlos de forma que nos permita analizarlos fácilmente. 

La actividad consiste en investigar cómo ha evolucionado el número de habitantes en los pueblos y en las ciudades de España desde el año 1955 hasta el año 2022.

Para ello, sigue los siguientes pasos:

1º Entra en la web https://www.worldometers.info/ y echa un vistazo a los datos que ofrece la página principal.

2º  Pulsa en Population, busca y pulsa en Spain (Al final de la página). Verás los datos de España y algunas gráficas.

3º Desplázate hasta el final de la página y copia todos los datos de la tabla seleccionándolos con el ratón (Un analista de datos lo haría con un algoritmo).

4º Abre una hoja de calculo de Google (Tendrás que registrarte con la cuenta de correo del instituto).

Los datos copiados utilizan la coma para los separadores de miles y el punto para los decimales (Al contrario que nosotros), así que tendremos que cambiar de país en Archivo -> Configuración y elegir México (No olvides Guardar la configuración).

5º Pulsa sobre la celda A1 y pulsa la combinación de teclas Ctrl + May + V, para pegar correctamente todos los datos en nuestra hoja de cálculo.

Pulsa sobre el número de la fila 1 y selecciona del menú Insertar -> Filas -> Insertar 1 fila encima

6º Selecciona con el ratón las columnas C, D, E, F, G, H e I y pulsa con el botón derecho del ratón, eligiendo Eliminar columnas C -I (Verás que desaparecen).

Haz lo mismo con las tres últimas columnas ya que contienen datos que no nos interesan.

Rellena la primera fila con el nombre de los datos que contiene cada fila, como puedes ver a continuación.

8º La fila C (Que era la fila J antes de borrar las columnas) hace referencia a la urban population (población urbana). Para calcular la población en los pueblos habrá que restarle a la población total, la población urbana.

Para ello selecciona la celda D2y escribe =B2-C2 y luego pulsa Enter.

Pulsa en el icono Aceptar en el cuadro de diálogo de AUTOCOMPLETAR que aparece.

Esto nos hará la resta en todas las celdas.

(Si no aparece el cuadro de diálogo de AUTOCOMPLETAR, pulsa en la celda D2, acerca el ratón al cuadrito azul de la esquina de abajo, púlsalo y arrastra el ratón hacia abajo hasta la última celda)

9º Oculta la columna B pulsando con el botón derecho del ratón sobre la B de la columna  eligiendo Ocultar columna del menú. (Ya no nos hacen falta estos datos).

10º Selecciona los títulos y todos los datos arrastrando con el ratón y elige del menú Insertar -> Gráfico.

Nos aparece el gráfico asociado a los datos. Elige el tipo de Gráfico de líneas (si no lo está ya) de menú de configuración del gráfico de la derecha.

COMPARTE LA HOJA DE CÁLCULO CON EL GRÁFICO PULSANDO EL BOTÓN DE ARRIBA A LA DERECHA

COMPÁRTELA CON miguelangel.hidalgo@iesjosesaramago.es


En resumen, hemos hecho periodismo de datos o data scraping, extrayendo datos de una página Internet, filtrando los que nos interesa, calculando nuevos datos a partir de los que teníamos y representándolos en forma comprensible a partir de un gráfico de líneas.

Todo esto es el trabajo de un analista de datos, nos faltaría la interpretación de la gráfica obtenida haciéndonos ciertas preguntas a través del siguiente formulario:

ACTIVIDADES (4)

Rellena y envía el siguiente formulario con las respuestas:

https://docs.google.com/forms/d/e/1FAIpQLScKQoruaIadEshbZJiDjkzITL9T2OBJue-aAR71PCzoVxcmZQ/viewform?usp=sf_link