UD 7. BIG DATA E INTELIGENCIA ARTIFICIAL
UD 7. BIG DATA E INTELIGENCIA ARTIFICIAL
En esta tercera unidad trabajaremos contenidos relacionados con el Big data y la Inteligencia Artificial.
Desde el departamento de informática del I.E.S María Inmaculada queremos ayudar a crear un buen ambiente de trabajo y convivencia en nuestro centro. Para ello, vamos a encargar al alumnado de 1º de la ESO que cree un detector de buenos y malos alumn@s. Este detector debe determinar si un estudiante es bueno o malo en función de las acciones que realiza en su día a día. Pero.... ¿Cómo hacemos eso?.
A lo largo de esta unidad conoceremos la importancia de los datos. Aprenderemos como las personas transforman esos datos en información útil que permite optimizar los procesos y veremos como la Inteligencia Artificial realiza un proceso muy parecido al que pueda realizar una persona para aprender algo nuevo.
Cuando dominemos todos estos conceptos, seremos capaces de crear el detector y de esta forma ayudar al centro a conseguir un mejor ambiente de trabajo y a mejorar al alumnado.
A lo largo de esta situación de aprendizaje aprenderás a:
Conocer la naturaleza de los distintos tipos de datos generados hoy en día, siendo capaces de analizarlos, visualizarlos y compararlos, empleando a su vez un espíritu crítico y científico.
Comprender los principios básicos de funcionamiento de los agentes inteligentes y de las técnicas de aprendizaje automático, con objeto de aplicarlos para la resolución de situaciones mediante la Inteligencia Artificial de forma ética y responsable.
Big data (en español, macrodatos) es un gran volumen de datos de diferentes fuentes que presentan diferentes estructuras y que cambian a una gran velocidad, por lo que se hace imposible procesar por los sistemas informáticos tradicionales, se necesita una gran capacidad de procesamiento como el ofrecido por el Cloud Computing o Servicios informáticos en la nube.
Los datos se han convertido en el nuevo petróleo del siglo XXI. Debido a la gran cantidad de datos que se generan hoy en día, se puede afirmar que la sociedad actual es rica en datos y pobre de conocimiento.
Entendemos que un dato es un valor que representa un fragmento de una descripción o palabra, cantidad o medida que por sí solo no tienen mucho significado.
Los datos son la mínima unidad de significado que por sí solos son irrelevantes y no dicen nada importante para la toma de decisiones.
Información son datos que han sido agrupados o clasificados para configurar un mensaje que puede ser entendido e interpretado por el receptor. Así que los datos sólo tienen utilidad después de ser procesados según su relevancia e interés.
Conocimiento integra los datos y la información con la experiencia, valores y personalidad, permitiendo ser aplicado por las personas en la toma de decisiones.
Estos tres términos se relacionan en la denominada pirámide del conocimiento:
Ejemplo:
Dato: número de personas, sexo, edad, estudios, nivel de estudio de los habitantes de una población.
Información: con este conjunto de datos se puede generar información sobre las características de los habitantes de esa población.
Conocimiento: se combinan esta información con otras y se utilizan para la planificación de acciones concretas sobre la población en estudio.
Clasifica el siguiente conjunto de datos en tu cuaderno digital.
Crea una lista con todas las categorías que encuentres en la imagen y una sublista con cada uno de los datos a los que pertenecen.
Por ejemplo:
Números:
1
2
3
4
6
7
8
9
Datos estructurados: aquellos que ya se diseñan, están ordenados y normalmente provienen de una misma fuente, por ejemplo datos ordenados en una hoja de cálculo, fichas estandarizadas.
Datos semiestructurados: presentan cierto orden, aunque no siguen una estructura estandarizada.
Datos no estructurados: se reciben diversos datos de distintas fuentes que no están ordenados. Se reciben por email, documentos, encuestas...
Base de datos: es un conjunto organizado de información, de datos estructurados, existiendo motores de base de datos; software que permite almacenar, buscar, extraer información de estas bases de datos.
Se capturan los datos.
Almacenamiento de los datos.
Proceso y análisis de los datos. Aquí toca encontrar patrones, creamos un algoritmo para buscarlos o nos podemos servir del Machine Learning para encontrar patrones que ni siquiera nos imaginábamos
Exploración y visualización: todos lo datos se reportan en los patrones detectados sobre un tablero, gráfico...para que se tengan en cuenta en la toma de decisiones.
Datos por todas partes
En la sociedad actual, se están generando multitud de datos de distintas fuentes constantemente.
Imaginad que hablamos de millones de correos electrónicos, fotos, vídeos, operaciones de compra y venta, mensajes de texto, etc, que circulan diariamente por internet.
Cuando se empezó a hablar de la relevancia del Big Data, se hablaba de las 3 uves, con el paso del tiempo se han incorporado 4 más y no se descarta que siga aumentando en los próximos años.
Estas uves hacen referencia a que el big data puede definirse con 7 adjetivos. Pero ¿sabemos cuáles son las 7 uves del big data?
Define en tu cuaderno digital los siguientes conceptos:
Big Data.
Internet de las cosas.
Define las 7 uves del big data.
Metadatos.
Recuerda que debes definir con tus palabras los conceptos que pide el enunciado.
La inteligencia artificial (IA) se puede definir como un programa informático diseñado para realizar operaciones que se consideran propias de la inteligencia humana.
Entre ellas destaca el autoaprendizaje o capacidad de aprender por sí mismo, haciendo que las máquinas aprendan de la experiencia, se ajusten a entradas variables y realicen tareas similares a los seres humanos.
La inteligencia artificial funciona a través de algoritmos que actúan mediante reglas de programación y con ayuda del Machine Learning (ML) o Aprendizaje automático y las distintas técnicas ML como Deep Learning (DL) o Aprendizaje profundo.
El aprendizaje profundo hace referencia a una técnica de algorítmos que se agrupan como las redes neuronales humanas de tal forma que se consiga un análisis más profundo para el aprendizaje automático de las máquinas y un razonamiento no lineal, similar al que realizamos los seres humanos.
A continuación se presentan diferentes aplicaciones de la inteligencia artificial en las que se procesan u obtienen textos, en algunos casos directamente a partir del propio texto sobre su soporte y en otros los caracteres o textos se obtienen procesando imágenes.
Chatbot: es un software o programa informático muy utilizado en sitios web que simula y procesa una conversación con una persona.
Auxilio a personas con discapacidad visual: reconoce los textos y lo traduce a estímulos táctiles u ondas sonoras.
Reconocimiento de matrícula de vehículos: para el control de acceso a un establecimiento de los vehículos o para identificarlo en una carretera, autopista o en una población.
Logística de envíos: empresas de mensajería y logística utilizan el reconocimiento de texto de las direcciones de envío y poder realizar una clasificación automática, optimizando el proceso de envío
VENTAJAS
Automatización de procesos.
Reduce el error humano.
Potencia la creatividad.
Aporta precisión.
Agiliza la toma de decisiones.
DESVENTAJAS
Dificultad de acceso a los datos.
Falta de personal cualificado.
Su desarrollo es costoso
Como ves, las desventajas que se presentan son estructurales. Sin embargo, si salvásemos esas desventajas, ¿la IA sería perfecta? ¿Que opinas tu?
En el siguiente ejemplo, cada uno de vosotros se pondrá en la piel de una inteligencia artificial. ¿Qué harías en el siguiente caso?
Tal y como hemos visto hasta ahora, el reconocimiento de textos tiene es de vital importancia para la inteligencia artificial. Contesta a las siguientes preguntas en tu cuaderno digital:
¿Qué es el OCR?
¿Cómo funciona el OCR?
Recuerda que debes contestar con tus palabras a las preguntas.
Seguro que conoces estos términos, pero ¿de qué manera están relacionados con el aprendizaje automático y la inteligencia artificial?
Para comprender todo esto, te propongo la siguiente situación:
Imagínate que necesitamos enseñarle a una persona el significado de la palabra elefante ya que no la conoce.
Hacen referencia a la información que le ofrecemos a la persona para que pueda aprender lo que es por ejemplo, un elefante.
Esta información podría ser a través de otras palabras que le ayuden a definir el concepto de elefante.
Podemos empezar por aportar datos que ofrecen información sobre el aspecto de un elefante:
Es un animal terrestre grande, mamífero y herbívoro, se alimenta de hojas, hierbas, corteza y tallos. Normalmente son de color grisáceo y se organizan en manadas de varios ejemplares.
Características morfológicas.
Estos datos ofrecen información sobre las características físicas del elefante. Por ejemplo: tiene una larga trompa y enormes orejas en forma de abanico. Suelen tener colmillos de marfil.
Otros aspectos:
Estos datos que ofrecen más información: Para algunas culturas asiáticas, el elefante es considerado un animal sagrado. Habitan en bosques o sabanas boscosas y pastizales. Emiten un potente sonido gracias a su larga trompa.
Toda esta información serían datos, seguro que tú podrías añadir algunos más.
Es lógico pensar que el aprendizaje mejorará en función del número de datos que aportamos. Por lo tanto, podemos decir que permiten "aprender" mejor a la Inteligencia Artificial, haciéndola cada vez más eficiente.
El algoritmo está formado por el software encargado de relacionar todos los datos introducidos en la máquina y crear un modelo que de respuestas correctas.
Dicho de otra forma, los algoritmos son un conjunto de instrucciones de programa que van a permitir realizar una tarea determinada. En nuestro ejemplo, conseguirán que la "máquina" en función de los datos introducidos sea capaz de identificar la palabra relacionada con el texto.
Siguiendo con nuestro ejemplo, ¿qué pasará si la persona que acaba de aprender lo que es un elefante le enseñamos el texto: "emiten sonidos denominados barritos gracias a su larga nariz"?
La persona empezará a buscar similitudes con los datos que ya conoce: características físicas, morfológicas, otros aspectos, etc.
Seguramente llegará a la conclusión de que emitir un sonido denominado barrito es una de las características de un elefante.
En el caso de una máquina resulta que esta frase no coincide con ninguna de las introducidas como datos.
¿Qué ocurrirá en este caso? ¿Será capaz la máquina de identificar el texto?
La respuesta la encontramos en un concepto muy importante en la Inteligencia Artificial que es la generalización.
Gracias a la generalización, nuestro modelo será capaz de encontrar relaciones de coincidencia entre el nuevo texto y los que ya posee como datos. Seguramente la máquina nos dirá que se trata de un elefante.
El aprendizaje automático o Machine Learning es una rama de la Inteligencia Artificial que utilizando datos y algoritmos es capaz de imitar la inteligencia humana.
Continuando con nuestro ejemplo, vamos a analizar la siguiente palabra:
¿Qué pasará si a la persona que acaba de aprender lo que es un elefante le mostramos la frase: "el período de gestación de este animal es de casi 22 meses"?
Es posible que le cueste trabajo buscar una relación con los datos que acaba de aprender y no sepa decirnos de qué se trata. Cuando le digamos que se trata del período de gestación de un elefante, esta persona sabrá en un futuro identificar esta frase.
¿Qué pasará en el caso de una máquina?
En el caso de una máquina ocurrirá algo parecido.
El modelo no sabrá clasificar la frase como un elefante. En este caso deberemos introducir este texto como un nuevo dato para que lo clasifique como un elefante. El algoritmo deberá crear un nuevo modelo incorporando la información aportada por nosotros. La próxima vez que la máquina lea esta frase, el modelo nos dirá que se trata de un elefante.
Este proceso se conoce como: "Mahine Learning” o Aprendizaje automático. De forma específica, este tipo de aprendizaje automático se denomina aprendizaje supervisado, ya que se parte de un conjunto de datos que contienen ejemplos de entrenamiento con etiquetas asociadas.
El algoritmo aprende la relación entre los datos suministrados y sus etiquetas o clase de textos, aplicando esa relación para clasificar nuevos datos que la máquina no ha visto antes.
Define en tu cuaderno digital los siguientes conceptos en el ámbito de la inteligencia artificial.
Datos
Modelo
Generalización
Machine learning.
Recuerda que debes contestar con tus palabras.
En esta actividad vamos a enseñar a una inteligencia artificial a detectar buenos y malos alumnos mediante Machine Learning. Para ello deberás seguir los siguientes pasos y cumplimentar la plantilla:
Haz una copia de la plantilla.
Registrate en la página Learning ML.
Crea un proyecto para reconocer textos.
Crea dos etiquetas: BUEN ALUMNO y MAL ALUMNO
Haz una carga inicial con los textos que estimes en cada una de las categorías.
Prueba el modelo que has creado con las frases que estimes oportunas para las dos categorías.
Prueba tu modelo con las frases que te ha proporcionado tu profesor.
Recoge la información que te pide la plantilla cuando lo hagas.
Modifica tu modelo para mejorar el rendimiento de tu IA.
Vuelve a probar las frases que te proporcionó tu profesor.
Recoge la información que hayas obtenido en esta segunda prueba en la plantilla.
RECUERDA QUE DEBES DE CUMPLIMENTAR EL DIARIO CON EL TRABAJO QUE REALIZA CADA INTEGRANTE DEL GRUPO.