Encerrada a segunda rodada, o Brasil já tem 4 pontos e 5 de saldo, já está classificado? Não. Mas está praticamente lá. É extremamente improvável uma desclassificação na fase de grupos.
Análise estatística dessa e de outras probabilidades compõem o objetivo desse texto. A pergunta chave aqui é:
Pois é exatamente essa, a situação da competição de futebol feminino do Tokyo 2021.
#futebolfeminino #olimpiada #estatística
Seguindo a ideia parecida com o que fiz no estudo sobre os terceiros colocados da EURO 2020, o objetivo desse curto texto é verificar as chances de classificação para a fase mata-mata dos terceiros colocados de grupo no futebol feminino durante as olímpiadas 2020.
Para realizar essa análise estatística fez-se uso da ferramenta estatística R.
Essa competição tem 12 equipes com 3 grupos de 4. Os dois primeiros e mais os dois melhores terceiros passam à fase seguinte.
Para verificar as chances dos terceiros colocados, se faz necessário criar um banco de dados com competições futebolísticas de seleções principais (de qualquer gênero) que já tiveram esse mesmo formato de 12 times e 3 grupos classificando 8 para o mata-mata.
As competições selecionadas para a construção da amostra que possibilitou as análises constam na tabela 1:
* A regra da vitória valer 3 pontos foi estipulada em 1994. Para evitar distorções a vitória foi considerada 3 pontos em todas as competições
Após esse levantamento, se procedeu a confecção do banco de dados, onde se cadastrou a pontuação, saldo de gols, gols pró e o resultado (classificado ou não às quartas) dos três terceiros colocados de cada uma das competições.
São 26 competições, totalizando 78 casos (21 de futebol feminino e 57 de futebol masculino) sendo 26 fracassos e 52 sucessos (já que sempre classificam 2 de 3 dos terceiros colocados)
Convém ressaltar que a variável a ser explicada é resultado, esta é binária (1 para classificação ao mata-mata e 0 para eliminação na fase de grupos).
Pontos, saldo de gols e gols pró são as variáveis explicativas. A distribuição dessas variáveis, todas numéricas, tem a seguinte configuração:
Os valores de pontos oscilam entre 1 e 6, tendo a média de 3,33, mediana de 3 e desvio padrão de 0,8
Os valores de saldo de gols oscilam entre -8 e 3, tendo a média de -1,09, mediana -1 e desvio padrão de 2,25
Os valores de gols pró oscilam entre 1 e 8, tendo a média de 3,34, mediana de 3 e desvio padrão de 1,72
Em relação aos pontos:
Nenhuma equipe que terminou em terceiro lugar em uma fase de grupos com 12 equipes se classificou ao mata-mata com 1 ponto (0 de 1 classificado)
30% classificaram-se ao mata-mata com 2 pontos (3 de 10 classificados)
45,16% classificaram-se ao mata-mata com 3 pontos (14 de 31 classificados)
97,14% classificaram-se ao mata-mata com 4 ponttos (34 de 35 classificados)
· 100% classificaram-se ao mata-mata com 6 pontos (1 de 1 classificado)
Em relação ao saldo de gols:
44,18% das equipes que terminaram em terceiro lugar em uma fase de grupos com 12 equipes com saldo negativo se classificou ao mata-mata (19 de 43 classificadas)
90,90% das equipes com saldo zero se classificou ao mata-mata (20 de 22 classificadas)
100% das equipes com saldo positivo se classificou ao mata-mata (13 de 13 classificadas)
Em relação aos gols pró:
57,14% das equipes com 3 ou menos gols pró na fase de grupos se classificou ao mata-mata (28 de 49 classificadas)
82,75% das equipes com 4 ou mais gols pró na fase de grupos se classificou ao mata-mata (24 de 29 classificadas)
Na sequência, foi rodada uma regressão logística binária tendo a seguinte formatação
resultado = pontos + saldo de gols + gols pró
Esse tipo de regressão é pouco exigente e, portanto, não é necessário operacionalização nas variáveis.
Os resultados da regressão são visíveis na tabela 2 e na imagem 1:
O * ao lado das variáveis explicativas na tabela 2 indicam se houve significância estatística. Dado esse critério, podemos dizer com certeza que somente os pontos foram estatisticamente significativos para o resultado.
Entretanto, convém citar que todas as variáveis indicam no caminho positivo como se mostra na imagem 1. A única coisa que não dá para afirmar em relação aos outros dois (saldo e gols pró) é que não temos 95% de confiança de que o efeito dessas é diferente de zero sobre o resultado.
O R2Tjur de 0.41 é um bom indicativo de que estamos diante de um bom modelo, pois ao rodar o modelo sem saldo de gols e gols pró, o valor dessa estatística foi de 0,343 dando bom indicativo de se que deve continuar com o modelo completo.
Efetuou-se mil simulações (com o pacote 'Zelig' como fiz nas duas análises estatísticas prévias desse site - Terceiros colocados EURO e Expected goals na EURO) em alguns cenários típicos dos terceiros colocados ao longo das competições.
Nas simulações abaixo, aparecem dois gráficos:
O primeiro refere-se ao resultado das simulações: Sendo que que Y = 1 é quando ocorreu a vitória na simulação, Y = 0 é quando ocorrer derrota.
A tabela de baixo mostra um histograma das simulações.
Optou-se por proceder 8 simulações:
SIMULAÇÃO 1: 6 pontos
SIMULAÇÃO 2: 6 pontos e 3 Saldo de gols. Iraque na Asian cup1996 (melhor campanha)
SIMULAÇÃO 3: 4 pontos
SIMULAÇÃO 4: 3 pontos
SIMULAÇÃO 5: o curioso caso de Cuba em 2015, classificado com -7 de saldo e 3 pontos
SIMULAÇÃO 6: 2 pontos e -1 saldo de gols. Dinamarca na Euro 2013, México na Copa América 1993 e Paraguai na Copa América 2019 (os classificados com pior campanha)
SIMULAÇÃO 7: 1 ponto e -8 de saldo. Canadá Copa do Mundo na 1999 (pior campanha no geral)
SIMULAÇÃO 8: 4 pontos 5 de saldo e 8 gols pró. Brasil na atual olímpiada até o segundo jogo.
Pedimos ao sistema para simular 6 pontos ganhos no modelo. Ter essa pontuação gerou classificação em 992 vezes nas mil simulações. Ou seja, com 6 pontos é altamente improvável que não se classifique nesse regulamento de 12 equipes com 3 grupos de 4.
Na Simulação 2, optou-se por simular o melhor terceiro colocado da amostra: o Iraque com 6 pontos e 3 de saldo. Nesse caso, como era de se esperar, gerou alta probabilidade de classificação de quase 100%
Nos dados reais, já ficou denotado que 4 pontos praticamente garante classificação. O indicador de mais 91% também aponta nesse sentido.
3 pontos é limiar entre os classificados e os não classificados, essa porcentagem de 62,2% mostra isso
A classificação de Cuba no torneio da Concacaf de 2015 é uma das "graças do esporte". Pois o modelo preveu só 32% de chance com essa pontuação e esse saldo.
Dinamarca na Euro 2013, México na Copa América 1993 e Paraguai na Copa América 2019 foram os classificados com pior campanha na base de dados. A média encontrada de pouco mais de 26% mostra o tamanho da "façanha".
Ter 1 ponto e -8 de saldo como a seleção canadense em 1999 mostrou-se pouco provável de classificação. O pior desempenho da amostra esteve, portanto, dentro da previsão.
Essa é a situação da chave do Brasil após dois jogos. Com base no que vimos até aqui é altamente improvável que a seleção não avance para às quartas. Abaixo rodamos a simulação 8.
Ter essa pontuação ao final de três jogos (a seleção atingiu com 2 jogos) da fase de grupos gerou classificação 992 vezes em mil simulações.
Somente uma combinação de resultados improvável tira a nossa seleção da classificação às quartas
No próximo texto: na segunda parte dessa análise, a ser postada após a fase de grupos da competição, serão rodadas mil simulações com o desempenho das equipes que finalizaram a competição na terceira colocação afim de verificar se as simulações se aproximaram da 'vida real'. PARA NÃO PERDER SIGA-NOS NAS REDES SOCIAIS!
VEJA TAMBÉM:
Expected Goals, a nova estatística do futebol
Análise das probabilidades dos terceiros em competições com 24 seleções
Sabe mexer no R? Quer ter acesso ao script e aos dados? Entre em contato comigo pelas minhas redes sociais.
Sentiu falta de alguma competição na base? Entre em contato comigo pelas minhas redes sociais.
Pro futuro: é possível, caso se tenha tempo, juntar as bases de dados dessa e da análise dos terceiros da Euro e ampliar o número de casos. Por que? Nos dois formatos, 2/3 dos terceiros colocadas se classificam. Quem sabe um dia....
#futebolfeminino #olimpiada #estatística