En el set de datos Tráfico Calle 30. Histórico de incidencias y accidentes hay un apartado de descripción de accidentes. Lamentablemente, en el formato actual no es muy útil.
Al estar escrito en lenguaje natural, extraer información de estos datos nos sería complicado. Lo ideal sería tener una serie de categorías cerradas en las cuales organizar los accidentes. Esto haría posible implementar estos datos en modelos como Heimdall30.
La velocidad es uno de los principales factores en un accidente de tráfico, pero actualmente no contamos con datos sobre la velocidad de los accidentados ni la velocidad media de los vehículos en cada tramo.
Ambas métricas podrían resultar de interés a la hora de predecir la probabilidad de accidentes, e incluso a la hora de crear nuevas aplicaciones centradas en el usuario, como recomendaciones personalizadas de velocidad para cada tramo.
Actualmente contamos con 4 estaciones meteorológicas generando datos abiertos en Madrid: En el aeropuerto, en Ciudad Universitaria, en Retiro y en Cuatro Caminos.
Lo ideal sería general datos propios de precipitaciones, humedad, temperatura y demás variables ligados a diversos tramos de la M-30.
La alternativa sería utilizar las estaciones actuales y calcular la media, o generar un sistema que estime la meteorología de cada tramo en función a los datos de esas 4 estaciones.
Los actuales datos de circulación en el dataset Tráfico Calle 30. Histórico de incidencias y accidentes simplemente hablan de circulación fluída, densa o congestionada.
Durante la generación del modelo final a implementar en toda la M-30, tendremos a un matemático trabajando con un ingeniero de caminos, juntos crearán un modelo matemático que estime el numero de vehículos circulando por cada tramo en todo momento.
Además de ser esencial para que nuestro modelo funcione (lo necesitamos para calcular la probabilidad de accidente), este dato en formato numerico podría añadirse a las variables que el modelo usa para generar su predicción.
Crear un mapa de la M-30 tramo a tramo, ligado un dataset con categorías como: Curvatura de la carretera, número de carriles, señalización o uniones de otros tramos.
Este tipo de datos podrían mejorar el porcentaje de acierto de nuestro modelo y abrir posibles nuevas aplicaciones alrededor de la ingeniería de caminos y distribución de señales.
Gracias a nuestro modelo, podríamos detectar posibles puntos negros de accidentes incluso antes de que se produzcan.
Esto tiene una complicación, ya que sería difícil de evaluar si queremos prevenir esos accidentes.
Si nuestro modelo predice que va a haber un mayor número de accidentes en cierto tramo y nosotros actuamos implementando medidas para prevenirlos de manera exitosa, eso significaría que hemos conseguido reducir los accidentes, es decir, nuestro modelo "ha fallado".
No por ello deberíamos dejar de intentar reducir los accidentes, pero no deberíamos actuar en función de lo que diga el modelo a no ser que la etapa de evaluación haya terminado y confiemos en sus resultados.
Al saber en que tramos hay mayor probabilidad de accidentes, podemos proyectar avisos electronicos para que las personas circulando aumenten su precaución al volante.
Nos encontramos con la misma problemática que el punto anterior, si conseguimos prevenir un accidente que hubiera ocurrido, eso perjudiacará a la evaluación de nuestro modelo, por lo que hay que tener estos avisos en cuenta a la hora de la evaluación.
Tanto la policía como SAMUR podrían utilizar los datos de nuestro modelo para distribuir sus recursos de una manera más eficiente, situando los remolques y vehículos de actuación rápida en las bases cercanas a los puntos con más peligro de accidente.
Si incluyéramos los datos de características de tramo anteriormente mencionados (Curvatura de la carretera, número de carriles...) podríamos utilizar este modelo para evaluar posibles configuraciones alternativas, o evaluar la mejora en los tramos recientemente cambiados.
¿Cómo influiría en los accidentes de tráfico si X tramo tuviera un mayor ángulo de curvatura? Podrás cambiar los parámetros en Heimdall30 y obtén una estimación sin tener que construir nada.
¿Cómo ha afectado a la seguridad vial la obra en X carretera comparado con su anterior configuración? Sí mantienes un "digital twin" con los datos de la anterior configuración y compara los resultados estimados con los datos reales del nuevo tramo podrás evaluar el éxito de la obra.
Su principal función sera crear el modelo predictivo.
Su principal función será crear la infraestructura de datos
Su principal función será estimar el numero de coches circulando en cada momento y asistir en la creación del modelo
Su principal función será la de "Business Translator", manteniendo la comunicación entre el Ayuntamiento y el equipo.
En esta primera fase el matemático y el ingeniero de caminos se dedicarán a crear la estimación de coches circulando en cada momento.
Por su lado, el científico y el ingeniero de datos comenzarán la preparación de datasets, algoritmos y servidores.
Una vez este todo listo, comenzará la producción del Proof of Concept.
Para entonces el matemático pasaría aun papel de ayundante del data scientist en la generación del modelo de predicción.
Por su lado el ingeriero de caminos entraría enteramente en su papel de business translator.
Antes de poner el modelo en producción, necesitamos saber con certeza que funciona los 365 días del año, con sus diferentes climatologías y festividades.
Durante este año el equipo ira analizando los resultados y mejorando el modelo en función de ellos.