Esclarecimento, acerca da interpretação da probabilidade condicionada:
Probabilidade de B dado A não é o mesmo que probabilidade de B porque A!
Num teste recentemente aplicado numa escola secundária da Grande Lisboa, uma das perguntas tinha o seguinte enunciado:
O canal "CINEDUO" lançou um programa que pretende conquistar a audiência de casais. Dois meses após o lançamento, a direcção de marketing da empresa, realizou um estudo que permitiu concluir que, escolhido um casal ao acaso, a probabilidade de o homem ver um programa é 0,4; a probabilidade da mulher ver o mesmo programa é 0,5; a probabilidade do homem ver o programa porque a mulher o vê é 0,7.
Determine a probabilidade de:
1. Um casal ver o programa.
2. A mulher ver o programa porque o homem o vê.
3. Pelo menos um elemento do casal ver o programa.
Quem ler o enunciado e tentar resolver o exercício, deparar-se-á imediatamente com uma dificuldade:
"Probabilidade do homem ver o programa porque a mulher o vê? Que é isso? Probabilidade condicionada? Probabilidade da intersecção?"
Mais concretamente:
"Sendo M: "a mulher vê o programa" e H: "o homem vê o programa", estão a dizer-nos que P(H|M)=0,7 ou que P(H∩M)=0,7?"
A resposta a esta pergunta é: nem uma coisa nem outra -- e portanto o exercício, tal como está enunciado, é irresolúvel.
Vendo a forma como o professor resolveu este exercício na sua aula, percebe-se que, ao escrever "probabilidade do homem ver o programa porque a mulher o vê" estava a referir-se a P(H|M). Mas será que podemos referir-nos à probabilidade condicionada P(H|M) usando aquela frase?
As frases que mais frequentemente usamos para fazer referência a P(H|M), são semelhantes às seguintes:
* "probabilidade de o homem ver o programa, sabendo que a mulher o vê",
* "probabilidade de o homem ver o programa, dado que que a mulher o vê",
* "probabilidade de o homem ver o programa, na hipótese de a mulher o ver",
* "probabilidade de o homem ver o programa, na condição de a mulher o ver".
Em qualquer uma destas frases, está bem claro que "o homem ver o programa" é o acontecimento cuja probabilidade nos interessa, e que "a mulher ver o programa" é uma informação disponível a priori que serve para restringir o universo de possibilidades. Consequentemente, qualquer destas frases se refere a P(H|M).
Repare-se que, das quatro frases acima propostas, nenhuma delas faz qualquer afirmação acerca das relações de causalidade entre os dois acontecimentos -- apenas é feita uma afirmação acerca da coexistência dos dois acontecimentos. O acontecimento "a mulher ver o programa" é apresentado como uma informação a priori que restringe o universo de possibilidades; não é apresentado como uma causa.
Na frase usada pelo professor no enunciado do exercício, pelo contrário, não existe qualquer referência a uma restrição ao universo. Consequentemente, o universo continua a ser formado por todos os casais, logo não se trata de uma probabilidade condicionada. Portanto, a frase usada pelo professor não é adequada para nos referirmos a P(H|M).
Repare-se ainda em mais um pormenor. Nas quatro frases propostas, a ênfase recai sobre o acontecimento H ("probabilidade de o homem ver o programa"... vírgula; o resto da frase fornece uma indicação que nos permite restringir o universo, mas o acontecimento cuja probabilidade queremos estudar -- aquele que define os "casos favoráveis" -- continua a ser o acontecimento H). Na frase usada pelo professor, a ênfase recai na palavra "porque": não está em destaque o acontecimento H, nem o acontecimento M, mas sim a hipotética relação de causa-efeito entre M e H. A frase refere-se à probabilidade de existência dessa relação de causa-efeito, o que vai muito além da simples coexistência dos acontecimentos A e B.
Um dos avisos feitos e repetidos a quem aprende Estatística, é o de que a observação de que dois acontecimentos tendem a ocorrer simultaneamente nada nos diz sobre a existência de uma relação de causalidade entre esses acontecimentos. A coexistência entre dois acontecimentos faz parte do âmbito de estudo da Estatística; as relações de causa-efeito entre fenómenos são do âmbito das ciências que estudam esses fenómenos (Sociologia, Física, Biologia, etc.).
Mesmo que conhecêssemos ou conseguíssemos calcular P(H|M), P(H∩M), P(H∪M), P(M|H), etc., etc., nunca seríamos capazes de responder à alínea 2 do exercício. Nenhuma informação estatística (em sentido lato, incluindo probabilidades) seria suficiente para extrair informações sobre uma relação de causa-efeito. As mulheres podem ter os mais variados motivos para ver o programa, e o mais provável até é que nenhuma veja o programa "porque o marido o vê"!
Mesmo na situação limite em que descobríssemos que "a probabilidade de a mulher ver o programa, sabendo que o homem o vê, é igual a 1", nem mesmo isso nos garantiria que "o homem ver o programa" fosse causa de " a mulher ver o programa": poderia existir uma outra causa comum de ambos os acontecimentos. Por exemplo: poderia dar-se o caso de todos os telespectadores homens serem recém casados, e todas as mulheres recém-casadas verem o programa (podia ser um programa sobre decoração de interiores, por exemplo...). Nessa situação, sempre que o homem visse o programa, a mulher também o veria -- não por causa de o homem o ver, mas porque só seria possível o homem ver o programa se fossem recém-casados, e, como dissemos, todas as mulheres recém-casadas seriam telespectadoras do programa.
Quando entre dois acontecimentos A e B se verifica que P(B|A) é maior do que P(B) (o que implica que também seja maior do que P(B|¬A), pode suspeitar-se de que a ocorrência de A contribua para a ocorrência de B, mas será sempre uma mera suspeita até que a relação de causa-efeito seja confirmada através de uma experiência controlada. O que se faz numa experiência controlada é precisamente eliminar todos os outros factores passíveis de influenciar a ocorrência de B, de modo a que a responsabilidade por quaisquer alterações da probabilidade de ocorrência de B possa ser atribuída ao acontecimento A. Escusado será dizer que esta tarefa de "isolamento das causas" é praticamente impossível, razão pela qual a validade dos estudos estatísticos e das respectivas conclusões é tão frequentemente questionada.
Examinemos melhor o significado de "probabilidade do homem ver o programa porque a mulher o vê". Trata-se da probabilidade, não condicionada, de um novo acontecimento,
D: "o homem vê o programa porque a mulher o vê".
Imaginemos que entrevistamos um casal, e perguntamos: "o acontecimento D aconteceu?" Ou seja: "é verdade que o homem vê o programa porque a mulher o vê?" Para que a resposta possa ser "sim", é necessário que o homem veja o programa e a mulher também -- e é ainda necessário que a causa de "o homem ver o programa" seja "a mulher ver o programa", e não outra causa qualquer. Portanto, D⊂H e D⊂M. Consequentemente, P(D)≤0,4 e P(D)≤0,5 (probabilidades de H e de M, respectivamente), logo P(D) não pode sequer tomar o valor 0,7 indicado no enunciado.
Se o valor indicado para P(D) fosse um valor plausível (valor menor ou igual P(H) e a P(M)), poderíamos usar a relação D⊂(H∩M) para concluir que P(H∩M)≥P(D). Por exemplo: se a "probabilidade do homem ver o programa porque a mulher o vê" fosse 0,3, poderíamos dizer que a probabilidade de ambos os membros do casal verem o programa (H∩M) estaria compreendida entre 0,3 e 0,4. Porém, não poderíamos ir mais longe e indicar o valor exacto de P(H∩M): qualquer valor entre 0,3 e 0,4 seria compatível com os dados do enunciado. Além disso, só faria sentido enquadrar P(H∩M) se o valor de P(D) fosse inferior ou igual a 0,4 (a menor das probabilidades de H e de M); como é superior, a situação descrita no exercício é simplesmente impossível.