Hidra: a Hidra foi uma inteligência artificial criada com o objetivo de tomar ações próximas a de humanos, foi motivada pela inteligência artificial presente em jogos. Seu objetivo era sair de um ambiente de atuação chamado Wumpus (labirinto 4x4, possuindo obstáculos e um agente predador) onde ela teria que aprender a se locomover e sair do ambiente de forma autônoma. Este trabalho (Hidra: uma inteligência artificial solucionadora de labirintos ) realizado por Guilherme N. M. Daudt e Fábio Y. Okuyama, teve duas abordagens, uma abordagem mais concreta, visando escolhas logicas que preservavam o agente, e outra abordagem mais abstrata, que visava explorar também os possibilidades danosas ao agente, os autores tiveram por conclusão que as ações mais concretas criavam um plano de política mais eficiente, enquanto para tornar as opções abstratas mais viáveis, eles teriam que montar um sistema mais complexo do que proposto.
O artigo Artificially intelligent maze solver robot escrito por M. Singh, R. Kumar, V. Giradkar, P. Bhole, M. Kumari, teve por objetivo criar um robô físico capaz de encontrar a saída de um labirinto (algo próximo aos robôs de competição micromouses) , o projeto deles visava a implementação de um robô autônomo que inicialmente andava pelo labirinto através do algoritmo da mão esquerda, armazenando todo o caminho circulado, a partir do local mapeado, os dados eram processado por IA para chegar ao caminho mais eficiente para a saída do labirinto, neste caso geralmente usado um labirinto físico, onde o robô se locomoveria por uma faixa branca (labirinto) em um quadro preto, os autores chegaram a uma eficiência e 70%, concluindo que poderia ser uma possibilidade de auxílio para o armazenamento em grandes galpões de itens na indústria têxtil, já que o robô poderia manter salvo a localização de cada item.
Mundo Wumpus
Labirinto físico
O sistema contará com uma matriz que inicialmente seria gerada de forma aleatória respeitando a dimensão solicitada pelo usuário, dentro desta matriz que será apresentada de forma gráfica se encontrará um agente que inicialmente estará em uma dada posição, o agente irá se locomover a partir de uma matriz de movimento que será somada a matriz do labirinto. Será implementado o método de aprendizado de máquina por reforço Q-leraning, onde cada ação do agente gera uma pontuação negativa ou positiva dependendo dos efeitos que essa ação gerou, foi optado por esse método ao invés do algoritmo genético por ser mais próximo da forma como os humanos interpretam as situações. O agente terá uma parcela de fator aleatório que o fará escolher uma opção que não seja sempre a melhor opção momentânea, para que assim, mesmo que ele já conheça uma ação que futuramente irá levá-lo a vitória, ele seja capaz de encontrar outro caminho que talvez possa ser mais vantajoso futuramente, mesmo que instantaneamente este caminho dê uma pontuação menor do que a escolha já mapeada, este fator fará com que o agente sempre busque o caminho ótimo para a saída mesmo que já conheça um caminho alternativo.
Treinamento de IA para completar o famoso jogo do "dinossauro do google", fazendo implementação de algoritmo genético para solucionar os obstáculos propostos no jogo.
Para o desenvolvimento deste software foi utilizada a linguagem python, linguagem recomendada para aplicações na área de inteligência artificial e aprendizado de máquina, dentro da linguagem bibliotecas como numpy foram indispensáveis para a implementação do projeto, outra biblioteca que foi de grande valia foi a matplotlib onde se implementou a parte visual do projeto. Como dito anteriormente na descrição técnica, o método que foi aplicado é o aprendizado por reforço Q- learning, para que dentro dos parâmetros deste método o agente seja capaz de fazer escolhas que o levem a sair do labirinto.