Capítulo 01: Aprendizado de máquina em finanças
O aprendizado de máquina promete abalar grandes setores das finanças. (The Economist, 2017)
O aprendizado de máquina promete abalar grandes setores das finanças. (The Economist, 2017)
Há uma nova onda de aprendizado de máquina e ciência de dados em finanças, e os aplicativos relacionados transformarão o setor nas próximas décadas.
Atualmente, a maioria das empresas financeiras, incluindo fundos de hedge, bancos de investimento e varejo e empresas de fintech, está adotando e investindo fortemente no aprendizado de máquina. Indo para esta área, as instituições financeiras precisarão de um número crescente de especialistas em aprendizado de máquina e ciência de dados.
O aprendizado de máquina em finanças tornou-se mais proeminente recentemente devido à disponibilidade de grandes quantidades de dados e poder de computação mais acessível. O uso da ciência de dados e do aprendizado de máquina está explodindo exponencialmente em todas as áreas das finanças.
O sucesso do aprendizado de máquina em finanças depende da construção de infraestrutura eficiente, usando o kit de ferramentas correto e aplicando os algoritmos corretos. Os conceitos relacionados a esses blocos de construção de aprendizado de máquina em finanças são demonstrados e utilizados ao longo do nosso estudo.
Neste capítulo, fornecemos uma introdução à aplicação atual e futura do aprendizado de máquina em finanças, incluindo uma breve visão geral de diferentes tipos de aprendizado de máquina. Este capítulo e os dois a seguir servem como base para os estudos de caso apresentados no restante do estudo.
Aplicações atuais e futuras de aprendizado de máquina em finanças
Vamos dar uma olhada em alguns aplicativos promissores de aprendizado de máquina em finanças. Os estudos de caso apresentados nestes capítulos cobrem todas as aplicações mencionadas aqui.
Negociação algorítmica
Negociação algorítmica é o uso de algoritmos para realizar negociações autonomamente. Com as origens que remontam à década de 1970, a negociação algorítmica (às vezes chamada de sistemas de negociação automatizada, que é sem dúvida uma descrição mais precisa) envolve o uso de instruções de negociação pré-programadas automatizadas para tomar decisões de negociação extremamente rápidas e objetivas.
O aprendizado de máquina pode impulsionar a negociação algorítmica para novos níveis. Não apenas as estratégias mais avançadas podem ser empregadas e adaptadas em tempo real, mas as técnicas baseadas em aprendizagem de máquinas podem oferecer ainda mais caminhos para obter informações especiais sobre os movimentos do mercado. A maioria dos fundos de hedge e instituições financeiras não fecha abertamente suas abordagens baseadas em aprendizado de máquina para negociar (por um bom motivo), mas o aprendizado de máquina está desempenhando um papel cada vez mais importante na calibração das decisões comerciais em tempo real.
Gerenciamento de portfólio e robôs consultores
As empresas de gestão de ativos e patrimônio estão explorando soluções potenciais de inteligência artificial (IA) para melhorar suas decisões de investimento e fazer uso de seus de dados históricos.
Um exemplo disso é o uso de robôs consultores, algoritmos criados para calibrar um portfólio financeiro para as metas e a tolerância ao risco do usuário. Além disso, eles fornecem orientação e serviço financeiro automatizados para financiar investidores e clientes.
Um usuário insere suas metas financeiras (por exemplo, para se aposentar aos 65 anos, com R$250.000 economizados), idade, renda e ativos financeiros atuais. O consultor (o alocador) divulga investimentos em classes de ativos e instrumentos financeiros para atingir as metas do usuário.
O sistema então se calibra para alterações nas metas do usuário e mudanças em tempo real no mercado, com o objetivo de sempre encontrar o melhor ajuste para os objetivos originais do usuário. Os robôs consultores ganharam tração significativa entre os consumidores que não precisam de um consultor humano para se sentirem confortáveis em investir.
Detecção de fraude
A fraude é um problema enorme para as instituições financeiras e uma das principais razões para alavancar o aprendizado de máquina em finanças.
Atualmente, existe um risco significativo em segurança de dados devido ao alto poder de computação, uso frequente da internet e uma quantidade crescente de dados da empresa que estão sendo armazenados online. Embora os sistemas anteriores de detecção de fraude financeira dependessem fortemente de conjuntos complexos e robustos de regras, a detecção moderna de fraudes vai além de uma lista de verificação de fatores de risco, aprende ativamente e calibra-se a novas ameaças de segurança em potencial (ou reais).
O aprendizado de máquina é ideal para combater transações financeiras fraudulentas. Isso ocorre porque os sistemas de aprendizado de máquina podem digitalizar através de vastos conjuntos de dados, detectar atividades incomuns e sinalizá-los instantaneamente. Dado o número incrivelmente alto de maneiras pelas quais a segurança pode ser violada, os sistemas de aprendizado de máquina genuínos serão uma necessidade absoluta nos próximos dias.
Empréstimos, cartão de crédito, subscrição de seguros
A subscrição pode ser descrita como um trabalho perfeito para o aprendizado de máquina em finanças e, de fato, há muita preocupação no setor de que as máquinas substituirão uma grande faixa de posições de subscrição que existem hoje.
Especialmente em grandes empresas (grandes bancos e empresas de seguros de capital aberto), os algoritmos de aprendizado de máquina podem ser treinados em milhões de exemplos de dados do consumidor e empréstimos financeiros ou resultados de seguros, como se uma pessoa possui inadimplência com seu empréstimo ou hipoteca.
As tendências financeiras subjacentes podem ser avaliadas com algoritmos e contínuas análises para detectar tendências que podem influenciar o risco de empréstimos e subscrição no futuro. Os algoritmos podem executar tarefas automatizadas, como registros de dados correspondentes, identificar exceções e calcular se um candidato se qualifica para um produto de crédito ou seguro.
Automação e chatbots
A automação é muito adequada para financiar. Reduz a tensão que as tarefas repetitivas e de baixo valor dedicam aos funcionários humanos. Ele aborda os processos de rotina e cotidiano, liberando equipes para terminar seu trabalho de alto valor. Ao fazer isso, ela salva um tempo enorme e economiza custos.
Adicionar aprendizado de máquina e IA ao mix de automação adiciona outro nível de suporte para os funcionários. Com o acesso a dados relevantes, o aprendizado de máquina e a IA podem provar uma análise aprofundada de dados para apoiar as equipes financeiras com decisões difíceis. Em alguns casos, pode até recomendar o melhor curso de ação para os empregados aprovarem e implementarem.
A IA e a automação no setor financeiro também podem aprender a reconhecer erros, reduzindo o tempo desperdiçado entre descoberta e resolução. Isso significa que os membros da equipe humana têm menos probabilidade de atrasar o fornecimento de seus relatórios e são capazes de completar seu trabalho com menos erros.
Os chatbots da IA podem ser implementados para apoiar os clientes financeiros e bancários. Com o aumento da popularidade do software de bate-papo ao vivo nas empresas bancárias e financeiras, os chatbots são a evolução natural.
Gerenciamento de riscos
As técnicas de aprendizado de máquina estão transformando como abordamos o gerenciamento de riscos. Todos os aspectos da compreensão e controle do risco estão sendo revolucionados através do crescimento de soluções impulsionadas pelo aprendizado de máquina. Os exemplos variam desde a decisão de quanto um banco deve emprestar a um cliente a melhorar a conformidade e reduzir o risco do modelo.
Previsão de preços de ativos
A previsão de preços dos ativos é considerada a área mais frequentemente discutida e mais sofisticada em finanças. A previsão dos preços dos ativos permite entender os fatores que impulsionam o mercado e especulam o desempenho dos ativos. Tradicionalmente, a previsão de preços dos ativos era realizada analisando relatórios financeiros passados e desempenho do mercado para determinar qual posição tomar para uma classe de segurança ou ativo específica. No entanto, com um tremendo aumento na quantidade de dados financeiros, as abordagens tradicionais para análises e estratégias de seleção de ações estão sendo complementadas com técnicas baseadas em aprendizado de máquina.
Preço derivado
Sucessos recentes de aprendizado de máquina, bem como o ritmo acelerado da inovação, indicam que os aplicativos de aprendizado de máquina para preços de derivativos devem se tornar amplamente utilizados nos anos de comunicação. Os modelos mundiais de Black-Scholes, sorriso de volatilidade e modelos de planilha do Excel devem diminuir à medida que os métodos mais avançados se tornam prontamente disponíveis.
Os modelos clássicos de preços derivados são construídos com várias premissas impraticáveis para reproduzir a relação empírica entre os dados de entrada subjacentes (preço de ataque, tempo de maturidade, tipo de opção) e o preço dos derivados observados no mercado. Os métodos de aprendizado de máquina não confiam em várias suposições; eles apenas tentam estimular uma função entre os dados de entrada e o preço, minimizando a diferença entre os resultados do modelo e o alvo.
Os tempos de implantação mais rápidos alcançados com as ferramentas de aprendizado de máquina de última geração são apenas uma das vantagens que acelerarão o uso do aprendizado de máquina nos preços dos derivativos.
Análise de sentimentos
A análise de sentimentos envolve a leitura de enormes volumes de dados não estruturados, como vídeos, transcrições, fotos, arquivos de áudio, postagens de mídia social, artigos e documentos de negócios, para determinar o sentimento do mercado. A análise de sentimentos é crucial para todas as empresas no local de trabalho de hoje e é um excelente exemplo de aprendizado de máquina em finanças.
O uso mais comum da análise de sentimentos no setor financeiro é a análise de notícias financeiras - em particular, prevendo os comportamentos e possíveis tendências do mercado. O mercado de ações se move em resposta a inúmeros fatores relacionados ao ser humano, e a esperança é que o aprendizado de máquina seja capaz de replicar e aprimorar a intuição humana sobre atividade financeira descobrindo novas tendências e retornando sinais.
No entanto, grande parte das aplicações futuras do aprendizado de máquina estará em mídias sociais, tendências de notícias e outras fontes de dados relacionadas à previsão dos sentimentos dos clientes em relação aos desenvolvimentos do mercado. Não se limitará à previsão dos preços e negócios das ações.
Liquidação comercial
A liquidação comercial é o processo de transferência de títulos para a conta de um comprador e dinheiro para a conta do vendedor após uma transação de um ativo financeiro.
Apesar da maioria das negociações ser liquidadas automaticamente e com pouca ou nenhuma ação dos seres humanos, cerca de 30% dos negócios precisam ser resolvidos manualmente.
O uso do aprendizado de máquina não apenas pode identificar o motivo das negociações com falha, mas também pode analisar por que as negociações foram rejeitadas, fornecer uma solução e prever quais negociações podem falhar no futuro. O que geralmente levaria de cinco a dez minutos para um humano consertar, o aprendizado de máquina pode fazer em uma fração de segundo.
Lavagem de dinheiro
Um relatório das Nações Unidas estima que a quantidade de dinheiro lavado em todo o mundo por ano é de 2% a 5% do PIB global. As técnicas de aprendizado de máquina podem analisar dados internos, existentes publicamente e transacionais da rede mais ampla de um cliente, na tentativa de identificar sinais de lavagem de dinheiro.
Aprendizado de máquina, aprendizado profundo, inteligência artificial e ciência de dados
Para a maioria das pessoas, os termos aprendizado de máquina, aprendizado profundo, inteligência artificial e ciência de dados são confusos. De fato, muitas pessoas usam um termo intermediário com os outros.
A Figura 1 mostra as relações entre IA, aprendizado de máquina, aprendizado profundo e ciência de dados. O aprendizado de máquina é um subconjunto de IA que consiste em técnicas que permitem aos computadores identificar padrões nos dados e fornecer aplicativos de IA. Enquanto isso, o aprendizado profundo é um subconjunto de aprendizado de máquina que permite que os computadores resolvam problemas mais complexos.
A ciência de dados não é exatamente um subconjunto de aprendizado de máquina, mas usa aprendizado de máquina, aprendizado profundo e IA para analisar dados e chegar a conclusões acionáveis. Ele combina aprendizado de máquina, aprendizado profundo e IA com outras disciplinas, como análise de big data e computação em nuvem.
Figura 1: IA, aprendizado de máquina, aprendizado profundo e ciência de dados.
A seguir, é apresentado um resumo dos detalhes sobre inteligência artificial, aprendizado de máquina, aprendizado profundo e ciência de dados:
Inteligência artificial:
A inteligência artificial é o campo de estudo pelo qual um computador (e seus sistemas) desenvolve a capacidade de realizar com êxito tarefas complexas que geralmente exigem inteligência humana. Essas tarefas incluem, entre outros, percepção visual, reconhecimento de fala, tomada de decisão e tradução entre idiomas. A IA é geralmente definida como a ciência de fazer com que os computadores façam coisas que exigem inteligência quando feitas pelos seres humanos.
Aprendizado de máquina:
O aprendizado de máquina é uma aplicação de inteligência artificial que fornece ao sistema de IA a capacidade de aprender automaticamente com o ambiente e aplicar essas lições para tomar melhores decisões. Há uma variedade de algoritmos que o aprendizado de máquina usa para aprender, descrever e melhorar iterativamente, melhorar os dados, encontrar padrões e, em seguida, executar ações nesses padrões.
Aprendizado profundo:
O aprendizagem profundo é um subconjunto de aprendizado de máquina que envolve o estudo de algo relacionados a redes neurais artificiais que contêm muitos blocos (ou camadas) empilhados um no outro. O design de modelos de aprendizado profundo é inspirado na rede neural biológica do cérebro humano. Ele se esforça para analisar dados com uma estrutura lógica semelhante à maneira como um humano tira conclusões.
Ciência dos dados
A ciência dos dados é um campo interdisciplinar semelhante à mineração de dados que usa métodos, processos e sistemas científicos para extrair conhecimentos ou insights de dados em várias formas, estruturados ou não estruturados. A ciência dos dados é diferente de aprendizado de máquina e IA, porque seu objetivo é obter informações e entender os dados usando diferentes ferramentas e técnicas científicas. No entanto, existem várias ferramentas e técnicas comuns ao aprendizado de máquina e à ciência de dados, algumas das quais são demonstradas em nosso estudo.
Tipos de aprendizado de máquina
Esta seção descreverá todos os tipos de aprendizado de máquina que são usados em diferentes estudos de caso apresentados ao longo dos capítulos para várias aplicações financeiras. Os três tipos de aprendizado de máquina, como mostrado na Figura 2, são aprendizado supervisionado, aprendizado sem supervisão e aprendizado de reforço.
Figura 2: Tipos de aprendizado de máquina.
Supervisionado
O principal objetivo na aprendizagem supervisionada é treinar um modelo a partir de dados rotulados que nos permitem fazer previsões sobre dados invisíveis ou futuros. Aqui, o termo supervisionado refere-se a um conjunto de amostras em que os sinais de saída desejados (rótulos) já são conhecidos. Existem dois tipos de algoritmos de aprendizado supervisionado: classificação e regressão.
Classificação
A classificação é uma subcategoria de aprendizado supervisionado, no qual o objetivo é prever os rótulos de classe categórica de novas instâncias com base em observações anteriores.
Regressão
A regressão é outra subcategoria de aprendizado supervisionado usado na previsão de resultados contínuos. Na regressão, recebemos várias variáveis preditivas (explicações) e uma variável de resposta contínua (resultado ou alvo), e tentamos encontrar uma relação entre as variáveis que nos permitem prever um resultado.
Um exemplo de regressão versus classificação é mostrado na Figura 3. O gráfico à esquerda mostra um exemplo de regressão. A variável de resposta contínua é retornada e os valores observados são plotados contra os resultados previstos. À direita, o resultado é um rótulo de classe categórico, seja o mercado em bull ou bear é um exemplo de classificação.
Figura 3: Regressão versus classificação.
Não supervisionado
O aprendizado não supervisionado é um tipo de aprendizado de máquina usado para extrair inferências de conjuntos de dados que consistem em dados de entrada sem respostas marcadas. Existem dois tipos de aprendizado não supervisionado: redução da dimensionalidade e agrupamento.
Redução da dimensionalidade
A redução da dimensionalidade é o processo de redução do número de recursos ou variáveis, em um conjunto de dados, preservando as informações e o desempenho geral do modelo. É uma maneira comum e poderosa de lidar com conjuntos de dados com um grande número de dimensões.
A Figura 4 ilustra esse conceito, onde a dimensão dos dados é convertida de duas dimensões (X1 e X2) em uma dimensão (Z1). O Z1 transmite informações semelhantes incorporadas em X1 e X2 e reduz a dimensão dos dados.
Figura 4: Redução da dimensionalidade.
Clusterização
O clustering é uma subcategoria de técnicas de aprendizado não supervisionadas que nos permitem descobrir estruturas ocultas nos dados. O objetivo do cluster é encontrar um agrupamento natural nos dados, para que os itens no mesmo cluster sejam mais parecidos entre os do que os de diferentes clusters.
Um exemplo de cluster é mostrado na Figura 5, onde podemos ver todos os dados agrupados em dois grupos distintos pelo algoritmo de agrupamento.
Figura 5: Clusterização.
Aprendizado por reforço
Aprender com as experiências e as recompensas ou punições associadas é o conceito central por trás do aprendizado de reforço. Trata-se de tomar ações adequadas para maximizar a recompensa em uma situação específica. O sistema de aprendizado, chamado de agente, pode observar o ambiente, selecionar e executar ações e receber recompensas (ou penas na forma de recompensas negativas) em troca, como mostra a Figura 6.
A aprendizagem de reforço difere do aprendizado supervisionado dessa maneira: na aprendizagem supervisionada, os dados de treinamento têm a chave de resposta, para que o modelo seja treinado com as respostas corretas disponíveis. No aprendizado de reforço, não há resposta explícita. O sistema de aprendizado (agente) decide o que fazer para executar a tarefa fornecida e aprende se essa foi uma ação correta com base na recompensa. O algoritmo determina a chave de resposta por meio de sua experiência.
Figura 5: Aprendizado por reforço.
As etapas do aprendizado de reforço são as seguintes:
O agente interage com o ambiente executando uma ação.
Em seguida, o agente recebe uma recompensa com base na ação que executou.
Com base na recompensa, o agente recebe uma observação e entende se a ação foi boa ou ruim. Se a ação foi boa - ou seja, se o agente recebeu uma recompensa positiva - o agente preferirá executar essa ação. Se a recompensa for menos favorável, o agente tentará executar outra ação para receber uma recompensa positiva. É basicamente um processo de aprendizado de tentativa e erro.
Processamento de linguagem natural
O processamento de linguagem natural (PLN) é um ramo da IA que lida com os problemas de fazer uma máquina entender a estrutura e o significado da linguagem natural usada pelos seres humanos. Várias técnicas de aprendizado de máquina e aprendizado profundo são usadas na PLN.
A PLN possui muitas aplicações nos setores financeiros em áreas como análise de sentimentos, chatbots e processamento de documentos. Muitas informações, como relatórios paralelos de venda, chamadas de ganhos e manchetes de jornais, são comunicadas por mensagem de texto, tornando a PLN bastante útil no domínio financeiro.
Dada a extensa aplicação de algoritmos de PLN baseados no aprendizado de máquina em finanças, há um capítulo (Capítulo 10) dedicado à PLN e estudos de caso relacionados.
Resumo do capítulo
O aprendizado de máquina está fazendo incursões significativas em todas as verticais do setor de serviços financeiros. Este capítulo cobriu diferentes aplicações do aprendizado de máquina em finanças, desde negociações algorítmicas a consultores de robôs. Essas aplicações serão abordadas nos estudos de caso mais adiante.
Próximos passos
Em termos de plataformas usadas para aprendizado de máquina, o ecossistema Python está crescendo e é uma das linguagens de programação mais dominantes para o aprendizado de máquina. No próximo capítulo, aprenderemos sobre as etapas de desenvolvimento do modelo, da preparação de dados à implantação de modelar em uma estrutura baseada em Python.