É factível esperar que o time com mais expected goals tenha maior probabilidade de vitória? Ou o futebol é uma caixinha de surpresas e quem não faz leva? É isso que pretendemos "responder" aqui. O objetivo desse pequeno texto é verificar se essa "nova" estatística teve algum efeito na EURO 2020 .
Portanto, nosso problema de pesquisa é: "Ter maior expected goals aumentou a chance de vitória na EURO 2020?"
Um segundo problema de pesquisa é: "O efeito do expected goals, para explicar a chance de vitória na EURO 2020, foi diferente no mata-mata e na fase de grupos?
Em suma: a expected goals pode ser sintetizado:
"Enquanto nas tabelas e estatísticas básicas observamos indicadores de resultado (pontos, vitórias, gols, finalizações, chances criadas), que obviamente são essenciais, essa advanced stat é um verdadeiro indicador de performance. Considere que cada chute/cabeceio tem chance de 0 a 1 de entrar no alvo. Dentro desse parâmetro, somando as finalizações de cada time em uma partida podemos ter uma noção de quantos gols “deveriam”, em tese, ter sido marcados. " - Por Lucas Filus da FOOTURE
Supõe-se que o leitor esteja familiarizado com o conceito de expected goals, caso não esteja sugere-se leitura prévia: CLIQUE AQUI (site Footure)
Esse golaço de Schick da Tchéquia foi aquele mais surpeendente de toda a EURO 2020, seu expected goal foi de 0,01. Ou seja, a expectativa de gol dessa finalização é de apenas uma em cem.
O time que venceu com menos expected goals (0,24) foi a Bélgica diante de Portugal nas oitavas de final
Já, o time que perdeu com mais expected goals foi a Croácia (3,38) contra a Espanha na mesma fase.
Os dados para essa análise com os expected goals e jogos da EURO 2020s foram obtidos do site Sofa Score. Foi criado um pequeno banco de dados com três variáveis:
1-'expected' -> Expected gols (xg) de cada time em cada jogo (excluindo os empates)
2 - 'resultado' - variável binária numérica para resultado final do jogo (sendo 1 para vitória e zero para derrota)
3- 'fase' - variável binária categórica (grupos ou mata-mata)
Observação: Jogos terminados em empates (inclusive decisões por pênaltis) não foram incluídos na análise.
O número de casos analisados foi de 78, totalizando 39 jogos da competição.
O que vem a seguir é composto de três seções:
Na primeira parte, analisar-se-á somente a relação entre as variáveis 'expected' e 'fase' , através de estatística descritiva e análise bivariada, como a correlação de ponto-bisserial.
A segunda parte contém, a técnica da regressão logística binária avaliando o peso da variável expected goal sobre o resultado, a partir disso gerou-se mil simulações para cinco condições referentes a distribuição de frequência da variável explicativa;
Na terceira parte, a base é dividida em duas, jogos da fase de grupos e jogos do mata-mata. E então, será rodada a regressão logísitica para as dois casos. Verificar se há efeitos diferentes entre as fases, é o objetivo dessa parte.
Assim, como em boa parte dos meus textos presentes em Curtas, meu objetivo é testar a ferramenta R Project para análises estatísticas. Não há objetivos científicos. São regressões e análises simples que não levam em consideração, as diferentes causalidades da literatura sobre o estudo em questão.
Utilizei o mesmo expediente de simulações em uma análise dos terceiros colocados de grupos da EURO 2020 (clique aqui para acessar)
Na imagem 1 é visível que ter maior expected goals resultou mais em vitória do que derrota.
Na imagem abaixo vemos como interpretar esses resultados:
"O boxplot ou diagrama de caixa é uma ferramenta gráfica que permite visualizar a distribuição e valores discrepantes (outliers) dos dados, fornecendo assim um meio complementar para desenvolver uma perspectiva sobre o caráter dos dados. Além disso, o boxplot também é uma disposição gráfica comparativa.
As medidas de estatísticas descritivas como o mínimo, máximo, primeiro quartil, segundo quartil ou mediana e o terceiro quartil formam o boxplot.
Observe a figura do boxplot. Note que o local onde a haste vertical começa (de baixo para cima) indica o mínimo (excetuando algum possível valor extremo ou outlier) e, onde a haste termina indica o máximo (também excetuando algum possível outlier).
Os quartis nada mais são que os percentis 25, 50 e 75, representando respectivamente o primeiro, segundo e terceiro quartil. Veja que o segundo quartil equivale ao percentil 50, valor em que pelo menos 50% da amostra está acima dele e pelo menos 50% está abaixo. Não é isso a definição de mediana? Sim! O percentil 50 ou segundo quartil equivalem à mediana!"
Compare as duas medianas da imagem (as linhas pretas) e veja a diferença.
O retângulo no meio dessa haste possui três linhas horizontais: a linha de baixo, que é o próprio contorno externo inferior do retângulo, indica o primeiro quartil. A de cima, que também é o próprio contorno externo superior do retângulo, indica o terceiro quartil. A linha interna indica o segundo quartil ou mediana.
Os asteriscos ou pontos que ás vezes aparecem no boxplot indicam que aquelas observações são atípicas, valores discrepantes, extremos ou outliers.
O nossos outlier é o caso da Croácia contra a Espanha. Nos demais, nossa amostra não mostrou essa característica
Nossa análise mostrou visualmente um grande diferença entre os dois casos (vitória ou derrota)
No que concerne a a média de expected goals encontrada para os vitoriosos na EURO foi de 1.89, já entre os derrotados a média foi de 0.995.
Os dado do boxplot e da média nos dão segurança para continuar na análise
Em termos estatísticos:
y = 'resultado'
x = 'expected'
O que se mede é correlação de y por x
Inicialmente pedi ao programa para rodar um teste de significância estatística. O teste gerou um p-value = 0.0000125, esse é um ótimo valor.
Por se tratar de duas variáveis contínuas (sendo que uma é dicotômica), o indicado é o teste de correlação ponto bisserial, (Para mais informações -> Clique aqui ):
o resultado de 0.59 nos dá segurança de que há alguma associação
Para fins de rodar as simulações, foi necessário construir um modelo de regressão logística binária simples:
resultado ~ expected
O resultado da regressão rodada com todos os casos resultou estatisticamente significante, como se vê abaixo:
Primeiramente observe - o * ao lado do número 3.78, isso significa que passou no teste de significância estatística.
A seguir olhe o 3,78 ele é o Odds Ratio. O que significa esse valor?
Odds Ratio (Logaritmo das chances ou probabilidades): diferentemente dos modelos lineares o relacionamento entre as variáveis na regressão logística não é linear em termos da escala de dados, mas sim no logaritmo das chances ou probabilidades de um evento de interesse ocorrer.
Uma simples fórmula calcula a razão de chance:
% = (OR -1) * 100
% = (3,78 -1)*100
% = 278%
ou seja a cada 1 expected goal a mais, o modelo prevê a elevação de chance de vitória em 278% por cento
Já a imagem 2 mostra como a variável explicativa é visualmente satisfatória para a análise estatística.
O intervalo em azul está distante do zero (linha tracejada), logo ele é diferente de zero e pode-se rejeitar a hipótese nula.
Conclui-se, então, que é possível prosseguir para as simulações.
Antes de partir para a análise de simulações, acho pertinente definir quais valores de expected goals simular. Mandei o programa rodar um boxplot do expected goals (independente do resultado) para usar as estatísticas descritivas como valores para as simulações:
Logo, rodamos cinco simulações com base no boxplot gerado(vide imagem 3):
Simulação 1: com o menor valor encontrado na amostra = 0,120
Simulação 2: com o valor do primeiro quartil = 0,635
Simulação 3: com o valor da mediana = 1,365
Simulação 4: com o valor do terceiro quartil = 1,910
Simulação 5: com o maior valor encontrado na amostra = 3,860
Se fosse possível repetir esse modelo mil vezes com essas cinco simulações, quais as probabilidades de vitória seriam explicadas pelo expected goals? É isso que o pacote Zelig, do R propicia.
Nas simulações abaixo, aparecem dois gráficos:
O primeiro refere-se ao resultado das simulações: Sendo que que Y = 1 é quando ocorreu a vitória na simulação, Y = 0 é quando ocorrer derrota.
A tabela de baixo mostra um histograma das simulações
Ter expected goals de 0,120 rendeu vitória em 16,6% das mil simulações realizadas
277 das mil simulações resultou em vitória
Em quase 50% das vezes, ter a mediana da medida resultou em vitória segundo a simulação.
Em 66,1 % das vezes, ter 1,910 expected goals resultou em vitória segundo a simulação
Ter 3,86 expected goals gerou vitória em 94,9% das mil simulações realizadas
Os resultados das simulações não surpreendem, dado o resultado do modelo 1. Como o expected goals mede as chances criadas, é por óbvio esperar que quem arrisque mais chutes (em especial os perigosos) tenha mais chance de vitória.
Um importante ponto gerado dessas análises, é que mesmo no futebol, famoso pelas suas zebras, há uma boa previsibilidade presente quando analisado à luz de dados.
Para descobrir se a fase da competição sente mais o impacto do expected goals na chance de vitória, basta dividir a amostra em duas, os jogos da fase de grupos e os jogos do mata-mata. Depois basta rodar dois modelos, um para cada divisão da amostra. Os resultados seguem abaixo:
Observando a significância estatística já fica claro que somente o modelo da fase de grupos tem a expected goals como fator preditor do resultado. Ou seja, em mata-mata não há segurança estatística para prever o resultado do jogo com base no expected goals.
Aplicando a fórmula da razão de chance para fase de grupos:
% = (OR -1) * 100
% = (4.93-1)*100
% = 393 %
Podemos afirmar, que ter um a mais de expected goals aumenta a chance de vitória (na fase de grupos) em 393 %
A imagem 4 apenas apresenta graficamente o que o que a tabela 2 mostra acima. Ou seja, somente pro modelo 2 (fase de grupos) é possível ter certeza que o efeito de expected goals é diferente de zero.
Perceba como a linha do modelo 3 (mata-mata) passa em cima da linha tracejada que representa o zero, isso faz com que não se possa afirmar que a hipótese nula possa ser negada.
1- Ter mais expected goals aumenta a chance de vitória (Tabela 1 e Imagem 2) .
2- As simulações seguiram o curso "natural" da variável, logo os resultados foram esperados. Convém ressaltar a importância crescente dessa estatística na análise esportiva como bem menciona o artigo da Footure, citado no início desse pequeno texto.
3 - O efeito do expected goals parece não ocorrer na fase mata mata. Talvez o fato de o jogo ser decisivo possa ocasionar algum efeito, aumentando a imprevisibilidade do resultado. Já na fase de grupos, o expected goals aparece como um bom preditor do resultado do jogo.
O que mais poderia ser feito?
Utilizar dados de outras competições para aumentar a base, utilizar o expected goals de cada jogador escalado, gerar regressão linear do expected gols explicando os gols feitos, acrescer outras variáveis aos modelos, .... Inúmeras possibilidades, mas me falta tempo ....
Interessado na análise? Entre em contato que te passo o script.
Envie também críticas, sugestões e comentários. Minhas redes sociais constam abaixo.