Conclusões

Esse projeto desenvolveu um método para geração de casos críticos de condução veicular. A infraestrutura foi baseada na integração entre um simulador e algumas bibliotecas e implementações para a produção dos cenários de interesse. O simulador utilizado foi o Carla Simulator, a principal biblioteca de interface para a construção dos cenários foi o Scenic. No estudo de caso, foi feita uma comparação entre técncas de selação de parâmetros para o aumento da probabilidade de criação de um cenário de risco.

A utilização de AG apresentou um ganho positivo no nível de risco variando entre 4% (cenário F) e 37% (cenário A), com um ganho médio geral de todos os cenários de aproximadamente 23%. Para o experimento completo, a abordagem aleatória resultou na coleta de 2482 colisões, enquanto via AG 3249, um acréscimo de 4,26% de acidentes no conjunto completo de simulações. Do ponto de vista da distância mínima média, a redução de distâncias, considerando todas as simulações válidas de todos os cenários, passou de 1,806 m para 1,332 m quando o AG foi utilizado. Já as distâncias mínimas válidas, excluindo as simulações que resultaram em colisão, passou de 2,022 m para 1,496 m indicando um aumento do risco de condução pela proximidade dos veículos. Finalmente, nota-se que o AG também apresentou um impacto positivo na redução de geração de simulações inválidas, totalizando 5215 da abordagem aleatória para 4431 - redução de 784 simulações.

O principal resultado geral desse trabalho foi a construção da infraestrutura de simulação que consegue gerar cenários a partir de uma descrição similar a textual. Essa arquitetura possibilita a realização de diversos estudos que vão desde o desempenho do controle do VA na simulação, até a construção de novos controles baseados nos dados dos sensores de cada cenário executado. Nesse contexto, o estudo de caso, tem por objetivo validar o funcionamento correto da implementação, ao permitir o refinamento de parâmetros para a coleta de dados de risco.

Inicialmente, a primeira ideia do projeto era utilizar Redes Adversariais Generativas (GANs) para a construção de datasets orientados a acidentes. Essa técnica abstrai as principais caracteristicas de um conjunto de dados para a geração de novos dados. Nesse sentido, a implementação da técnica requer que exista um conjunto de dados relevantes de acidentes para que, de fato, seja possível construir um modelo que gere novos dados. A primeira parte do projeto - geração abundante de simulações com o envolvimento de risco - então, já se tornou um grande desafio. De fato, devido a alta complexidade da dinâmica de tráfego de veículos, a descrição e a enumeração de cenários de risco torna-se inviável. Os primeiros testes de implementação de cenários baseados na descrição geométrica da via indicaram ser uma alternativa inviável, uma vez que o projeto não seria escalável. um segundo aspecto relevante, é que o produto principal da estrutura eram os arquivos de logs de descrição dos cenários, pois, a partir deles, é possível fazer novas reproduções com a inclusão e coleta de dados dos sensores utilizados para o treinamento de controles inteligentes de VA. A utilização de um modelo GAN limitaria imporia uma restrição do tipo de dados gerado. Por exemplo, um modelo GAN de geração de imagens no padrão RGB, só consegue gerar novas imagens RGB. Além disso, essa abordagem possivelmente não permitiria a integração de diversos tipos de sensores, ou seja, modelos de geração de imagens, possivelmente não gerariam os respectivos dados complementares de outros sensores (lidares, radares, ou tipos de câmera). Por conta dessas restrições observadas, houve um direcionamento efetivo para o enfoque de otimização de parâmetros no próprio simulador. Essa decisão foi importante, porque entende-se que a solução atingida além de ser mais econômica, energética e computacionalmente, também é mais efetiva. Um banco de dados de logs reproduzíveis de simulação da ordem de 100k simulações ocupa aproximadamente 10 GB de espaço, enquanto que um banco de dados de apenas câmeras das simulações desses logs ocuparia na ordem de dezenas a centenas de Terabytes, a depender da qualidade de resolução das imagens. Assim, pode-se entender que a coleta de logs é a forma compacta de gerar os respectivos dados de sensores.

Do estudo de caso, apesar de ser um teste inicial de produção de cenários, conclui-se que, de fato, é possível automatizar o processo de geração de dados orientados a situações críticas. A arquitetura ainda necessita de algumas otimizações para que outros pesquisadores da área possam contribuir caso o projeto seja disponibilizado em um repositório de código aberto.

Trabalhos Futuros

A continuação do projeto futuro pode se dar em diversas frentes, sendo primeira delas é a realização de mais testes, variando os mapas do simulador (até utilizando trechos de mapas reais), as ações, com a execução de ultrapassagens, presença de pedestres animais e objetos e também a otimização dos parâmetros de controle do algoritmo genético e da função objetivo. A partir desse trabalho base, será realizado um estudo mais aprofundado sobre a influência de todos esses elementos. Possivelmente, com a geração massiva de logs de simulações, serão coletados e montados bancos com os dados dos sensores de cada simulação de interesse para a validação da hipótese de que a utilização dessa massa de dados mais arriscados melhora a eficiência, do ponto de vista da segurança do controle. A ideia anterior pode ser um tema interessante para o mestrado.

Outras implementações podem ser realizadas para permitir que estudos sobre o impacto das condições climáticas e de ambiente tem sobre a segurança de controles. O escopo principal dos estudos propostos anteriormente estão relacionados com a conduta dos motorista, excluído todos os elementos externos, que sabidamente influem sobre a qualidade dos dados dos sensores e da performance mecânica dos veículos.

Finalmente, com a geração massiva de \textit{logs} de simulações e uma atribuição de risco, é possível realizar um estudo de meta learning para gerar um modelo que consiga exprimir a relação entre os parâmetros de descrição de cenários e o seu risco correspondente, sem a necessidade de testar a descrição no simulador. O meta learning é uma abordagem de aprendizado de máquina que se concentra na capacidade de um modelo aprender a partir de um conjunto limitado de dados. Para o contexto de simulação de VAs, a principal ideia é conseguir extrair os padrões de risco associado a um conjunto de parâmetros, e, a partir daí, inferir o risco de novos conjuntos de parâmetros de maneira mais eficaz e barata computacionalmente.

APOIO

Este trabalho foi realizado com o apoio do Itaú Unibanco S.A., por meio do Programa de Bolsas Itaú (PBI), vinculado ao Centro de Ciência de Dados da Escola Politécnica da Universidade de São Paulo