A UEFA EURO 2020 é uma competição de seleções de futebol da Europa disputada desde 1960. A edição de 2020 (disputada em 2021, em virtude da pandemia, teve na primeira fase 24 equipes, assim como a edição de 2016). Dessas 24, dezesseis classificam-se para a fase do mata-mata. Passam às oitavas de finais, os dois primeiros de cada um dos seis grupos de quatro equipes (12 equipes). As outras quatro vagas são definidas mediante um ranking dos terceiros colocados, passando os quatro melhores terceiros. Os critérios para definir essas quatro equipes são pontos ganhos, saldo de gols e gols pró. Permanecendo a igualdade adota-se o critério disciplinar.
A Euro 2020 é somente a sétima competição de seleções de futebol a adotar o formato com vinte e quatro equipes com oitavas de finais. As seis competições precedentes permitem monitorar trinta e seis casos. Com base nesses poucos casos, tentaremos prever as probabilidades de que um hipotético terceiro colocado com determinados predicados se classifiquem entre os quatro melhores terceiros colocados.
É importante frisar que os critérios de desempate da primeira fase variam entre essas competições.
As seis competições que permitiram que eu criasse um banco de dados são as relacionadas abaixo:
"1986 Copa do Mundo" "1990 Copa do Mundo" "1994 Copa do Mundo" "2016 EURO" "2019 Copa da Ásia" "2019 Copa Africana de Nações"
Cumpre mencionar que nas copas do mundo de 1986 e 1990 a vitória valia dois pontos, mas para fins de igualar os dados, se considerou como três pontos por vitória em todas as competições.
Optou-se por desconsiderar essa questão dos dois pontos, bem como a dimensão das sutis diferenças de regulamentos. Essa decisão é justificada dado o pequeno número de casos. Lembro ao leitor que em cada competição há seis equipes e quatro vagas, portanto 2/3 ou 66,66% das equipes analisadas obtêm sucesso ou classificação.
Levando em consideração as seis competições foi possível realizar via ferramenta R, uma regressão logística binária que permite avaliar o peso dos pontos, saldo de gols e gols pró sobre a chance de classificação. A partir dessa regressão, se pediu ao programa, através da função ‘sim’ do pacote ‘Zelig’ que rodasse mil simulações com as pontuações e saldos de gols dos 6 terceiros colocados da EURO 2020.
Antes de apresentar esses resultados, entretanto, convém uma breve passagem pela “vida real”. O intuito é observar as relações de frequência entre os três critérios de desempate e a classificação ou não à fase de mata-mata.
Na imagem 1, vemos a porcentagem de classificados como terceiros colocados com por número de pontos obtidos na primeira fase das seis competições acima citadas.
Os dados mostram um padrão esperado (mesmo com somente 6 competições):
0% entrou com 1 ponto
40% entrou com dois pontos (2 de 5 equipes)
53% entrou com 3 pontos (9 de 17 equipes)
100% entrou com 4 pontos
100% entrou com 6 pontos
A marca dos três pontos parece ser a margem divisiva mais comum entre os que se classificam ou não ao mata-mata.
No caso da análise do saldo de gols (omitida aqui, por questões de espaço), percebe-se que o padrão não é tão claro, o exemplo mais discrepante é o Uruguai na copa de 1986 classificado como um dos terceiros com saldo -5. O interessante é que as onze equipes com saldo zero se classificaram, ao passo de que uma com saldo positivo, não passou de fase.
No que concerne aos gols pró (também omitida aqui, por questões de espaço), percebe-se uma completa aleatoriedade. Teve time com zero gols classificado e time com 7 gols marcados não classificado. Não parece ser uma variável tão fortemente explicativa.
Foi criado esse modelo de regressão:
z.completo <- zelig(ENTROU ~ Saldo + PONTOS + gols_pró, model = "logit", data = base, cite = FALSE)
A opção se deu por não inserir os gols-pró nas simulações (somente no modelo), pois a variável não se mostrou associada e por ser somente o terceiro critério de desempate
Esses foram os terceiros colocados da EURO 2020.
1.Portugal - Grupo F - 4 pts e saldo + 1 - CLASSIFICADO
2.Tchéquia - Grupo D - 4 pts e saldo +1 - CLASSIFICADO
3.Suíça - Grupo A - 4 pts e saldo -1 - CLASSIFICADO
4.Ucrânia - Grupo C - 3 pts e saldo -1 - CLASSIFICADO
5.Finlândia - Grupo B - 3 pts e saldo -2 GF 1 - NÃO CLASSIFICADO
6.Eslováquia - Grupo E - 3 pts e saldo -5 GF2 - NÃO CLASSIFICADO
Nas simulações abaixo (Imagens 2 a 7), aparecem dois gráficos:
O primeiro refere-se ao resultado das simulações: Sendo que que Y = 1 é quando ocorreu a classificação na simulação, Y = 0 é quando não ocorreu.
A tabela de baixo mostra um histograma das simulações
Resumindo, nas mil simulações tendo em base as seis competições prévias, ter 4 pontos e +1 de saldo, como Portugal e Tchéquia, gerou classificação em 94% das vezes.
As simulações acertaram, o que não surpreende dado que obter 4 pontos SEMPRE classifica os terceiros
O modelo previu 86% de chance de classificação em mil simulações para alguém que tivesse o mesmo número de pontos e saldo que a Suíça na EURO 2020.
O caso da Ucrânia é interessante, por que como visto acima com 3 pontos, nas seis competições é meio que “um limiar” entre classificados e não classificados. As simulações, tendo em base o modelo de regressão logística, calcularam 63,8 % de chance.
O pequeno número de casos é algo a se ressaltar, isso quer dizer que as simulações fizeram o melhor que puderam com os 36 casos disponíveis.
No caso das simulações com a pontuação da equipe escandinava, em 54% das mil simulações ter 3 pontos e 2 de saldo negativo foram suficientes para obter a classificação.
Para a Finlândia, não foi suficiente.
A goleada de 5 a 0 sofrida diante da Espanha na última rodada da fase de grupos custou caro à Eslováquia, o resultado das simulações também mostra isso. Em somente 33,2% dos casos, ter essa pontuação e esse saldo gerou classificação.
Vimos acima que por duas vezes alguma equipe com 2 pontos conseguiu ir ao mata-mata. Foram eles: Bulgária e Uruguai, ambos na copa de 1986. Convém lembrar que nessa época a vitória valia somente 2 pontos. Se a vitória valesse 3 pontos, como passou a ser a partir de 1993, ambos seriam eliminados.
Simulamos também mil vezes essa situação no nosso modelo. Somente em 21% das simulações, ter 2 pontos gerou classificação.
Podemos afirmar que as simulações, com base em um pequeno histórico de 6 competições, previu bem a classificação das equipes ao mata-mata da Euro. O resumo dos achados se vê na imagem 8:
O que mais podemos afirmar é que a estratégia das simulações é uma boa saída para lidar com uma situação de poucos casos. Essas porcentagens e estimativas serão úteis para torcedores e fãs preverem as probabilidades de classificação das equipes em competições com regulamento similar ao da EURO 2020.
Testei com base nas seis competições, se estar nos grupos E e F que jogam no último dia da fase de grupos , apresenta alguma vantagem. Afinal, os times desse grupo, teoricamente, já sabem o que precisam fazer para ficar entre os quatro terceiros. Mas a regressão e as simulações não deram muito resultado. Isso quer dizer que dado o pouco número de casos, não é possível ter certeza sobre se jogar no último dia apresenta alguma vantagem.
Outros testes realizados dizem respeito ao impacto da campanha na primeira fase (para os terceiros colocados) no restante da competição.
Percebe-se que não há relação (imagem 10) quando se verifica a pontuação na primeira fase e a fase final obtida pelas equipes. A técnica de regressão, nesse caso, também não encontrou qualquer relação.
Dado o pequeno número de casos, é de se esperar que os casos de Portugal campeão da EURO 2016 com 3 pontos na primeira fase, bem como da Argentina vice-campeã da copa do Mundo 1990 com 4 pontos tenham influenciado nesse resultado.
Concluído a Euro 2020, as análises e simulações acima citadas poderão ser repetidas com a adição dos 6 casos da competição em andamento, podendo propiciar mais ganho analítico.
Em breve (prevista para acontecer entre 9 de Janeiro e 6 de Fevereiro de 2022) teremos a Copa Africana de Nações com o mesmo regulamento da EURO e mais seis casos poderão ser incluídos na análise.
Outra "promessa", é a de que analisarei chance de vitória e a nova estatística utilizada na EURO, a expected goals, tão logo a competição seja concluída.
Gostou? Deixa sua mensagem ou dúvidas no meu twitter @gregoprof