Composição Musical e IA

A língua portuguesa é resultado de anos de mistura, evolução e transformações culturais provenientes de diversos povos, etnias e origens. Este e outros motivos a tornam um dos idiomas mais flexíveis que existe e que se mantém em constante mudança, o que, obviamente, impacta nas letras musicais.

O trabalho de TCC do aluno da Engenharia da Computação, Gabriel Gonçalves, se propôs a criar letras musicais na língua portuguesa utilizando músicas do gênero pop e mpb através de redes deep learning do tipo LSTM e Cadeia de Markov. Foram desenvolvidos dois tipos de arquitetura, uma que recebe a entrada das letras como caracteres e outra que recebe como palavras.

Os resultados foram bem interessantes, com destaque para a LSTM que utiliza caracteres, que capturou bem o estilo de composição dos artistas, e para a Cadeia de Markov que utiliza palavras, que gerou o texto das letras de forma mais semelhante à músicas reais.

Cadeia de Markov com palavras

Como na deep learning de palavras, uma palavra ou frase é fornecida como sendo o evento atual, e a cadeia de Markov completa com palavras que tenham maior probabilidade de serem o próximo evento. O algoritmo foi alimentado com cento e vinte três músicas da cantora Anitta. O resultado do primeiro teste utilizando a palavra “Quem” como evento inicial é:

Quem foi que disse que eu vou te beijar a queima roupa

se eu sussurrar escuta se eu te olhar sorria se eu te pedi me da se for brigar pra que se esconder você deve saber

Deixa de de de de de

Se a saudade aumentou

O estilo da mina é top deixa a onda te levar

Tô nem aí

Até você vai ficar babando

Prepara

Homem do teu tipo eu uso mas se chega lá eu digo não

E pra te controlar

Hoje eu tô preparada pra atacar

E quando eu saio eu sei que tu mexe

Confessa o teu querer

Ela senta e rebola ao som do dj

Um novo teste foi feito utilizando cerca de dez mil músicas de todos os trezentos e setenta e um artistas do gênero mpb:

carro velho

que insiste em bater

deixa eu ser seu

e que vai vencer o tédio

para o necrotério

mas cuidado comigo

a escuridão

Um último teste utilizando quatrocentas e setenta e duas músicas do cantor Chico Buarque foi feito:

Deve ser o diabo

Eu só queria me lembrar

Mais te sujava amor tu fedia empesteava o ar

Vives num buraco

Liberdade ainda que tarde

Que fizeste da minha flor

Confesso que não sai de baixo do Equador

Aquela noite quem tava lá

Cheio de anseio e de cócega

A figura dela fosforesce

Será o ladrão

não sou feliz

Porque todos os quebrantos toda alquimia

O que era ela que vinha pedir

um velho marinheiro

LSTM com caracteres

Utilizando os arquivos da cantora de pop Anitta e do cantor de mpb Chico Buarque juntos, o resultado obtido foi:

bebida amarga

tragar a dor engolir a lada e dormir

quando eu penso da fenila de uma morena

erguei nem na calenta

e ando enganar

e agora eu sei que tu agüe

eu sei que tu agüe

eu senti ver o que hoje

eu vivi feliz

dos feijo as cortas de amor que o beijo

pra anseia por mim

amar em ver bem lário

que eu te alfandar

e eu sou de rosil

era de ladorete a sonhar com lia

meu amor a parar

como o homem serão de nome

chama só consta de lá do pente

Esse se mostrou o melhor resultado gerado com deep learning, que apesar dos erros ortográficos, apenas pequenos trechos de diferentes músicas foram copiados, deixando claro o sucesso da rede na captura do estilo e em ser "criativa" na geração de uma nova letra, ainda que o texto não seja equivalente a estrutura de uma música real.

A ideia é entender como uma máquina pode gerar esse estilo de arte, mesmo que como base para que compositores trabalhem e criem. Testes como LSTM bidirecional e redes adversarias generativas serão também realizados na busca de entender até onde vai a “criatividade” de um computador.