Informação incompleta torna situações deterministas aleatórias.
Para fazer uma descrição probabilista nós assumimos como conhecidos quais são os resultados possíveis (o espaço amostral) e a noção de algo acontecer é abstraída em termos de conjuntos de possibilidades, chamados eventos.
A noção de probabilidades como frequências é útil de um ponto de vista de intuição, mas não como um ponto de partida teórico. Mesmo assim, ela vai guiar a axiomatização que vamos fazer, pois como queremos conciliar essa intuição com a teoria mais tarde, devemos atribuir às probabilidades propriedades que são respeitadas por frequências.
É possível representar na linguagem que desenvolvemos coisas impossíveis e coisas que sempre acontecem. O primeiro axioma é que as probabilidades desses eventos devem ser 0 e 1 (pois essas são as frequências com que eles acontecem), enquanto que todas as outras probabilidades devem estar entre esses 2 valores.
A forma como a frequência da ocorrência de uniões de eventos se comporta nos dá mais um axioma.
O último axioma é dado pela forma como a frequência de intersecções interage com a informação disponível (o que pode ser analisado de forma simples com um diagrama de árvore, uma técnica que vai aparecer em outras aulas também). Em alguns livros (o Ross incluso) esse axioma é tratado como uma definição de como informação afeta probabilidades (as chamadas probabilidades condicionadas, que vão ser abordadas a partir da aula 4) e tratado de forma separada. Porém na minha experiência expor vocês mais cedo a ele ajuda a esclarecer algumas das dúvidas comuns que surgem mais pra frente.
As noções de eventos "E e F" ou "E ou F" podem ser conciliadas com a ideia de eventos como conjuntos usando intersecções e uniões
Vamos ver também a noção de um evento "não E" (chamado do complementar de E), que vai ser extremamente útil
Caps 2.1 a 2.4 do Ross
Problemas do capítulo 2: 1 a 4
Exercícios Teóricos do capítulo 2: 1, 2, 6 e 7
OBS: O Ross denota o evento "E e F" por "EF"
Os vídeos da semana 1
Em situações em que há uma simetria entre as diferentes realizações, não temos por que assumir que uma realização é mais provável que outra.
Quando temos um espaço amostral equiprovável, podemos obter a probabilidade de qualquer evento a partir dos Axiomas de Kolmogorov, vistos na última aula.
Existe uma certa liberdade em qual espaço amostral usamos para descrever nosso experimento aleatório. Porém alguns cuidados precisam ser tomados para que o espaço usado seja equiprovável.
O problema de encontrar probabilidades no caso equiprovável se reduz a contagens.
O princípio fundamental da contagem é a ferramenta principal que iremos usar para calcular o tamanho de eventos e espaços amostrais.
Uma permutação é uma forma de ordenar N objetos distínguiveis entre si. O problema das permutações consiste em contar quantas permutações N objetos distinguíveis possuem.
Um arranjo é uma escolha de M dentre N elementos distinguíveis, em que a ordem da escolha importa. De forma análoga, o problema dos arranjos é fazer a contagem deles.
Ross caps. 1.1, 1.2, 1.3 e 2.5
Problemas do capítulo 1: 1 a 7
Problemas do capítulo 2: 13, 14 e 17
Lista 1 (minha): 1, 2, 3, 6, 9, 12, 13
Lista 2 (minha): 1, 2 e 3
Os vídeos da semana 2
Uma combinção é uma escolha de M dentre N elementos distinguíveis, em que a ordem da escolha é irrelevante.
A escolha de um arranjo pode ser especificada como a escolha de uma combinação seguida da escolha de uma permutação dos elementos escolhidos. Isso pode ser explorado para se obter o número total de combinações através do princípio fundamental e das soluções dos problemas que investigamos na semana passada.
Uma questão muito frequente é quando devemos usar um espaço amostral em que a ordem importa ou um em que a ordem não importa. Determinar a chance de ganhar na mega-sena é um caso em que eu posso tanto levar em conta a ordem quanto ignorá-la. Porém aula passada, nós também vimos um caso em que ignorar a ordem leva a problemas.
De forma extremamente simplificada, problemas com reposição/possibilidade de repetição DEVEM TER A ORDEM LEVADA EM CONTA. Já problemas sem reposição ou sem possibilidade de repetição podemos ignorar a ordem (ou levá-la em conta).
Um ordenamento de N elementos, em que alguns deles não são distinguíveis entre si é um anagrama. Podemos pensar no problema dos anagramas como escolhas de posições, o que leva a uma solução via combinações, ou então podemos obter uma expressão geral, generalizando o raciocínio que foi usado para a contagem das combinações.
Finalmente, o problema da combinação completa é essencialmente o problema de se calcular o tamanho de um espaço amostral em que há repetições/reposições, mas que a ordem não importa. Como já vimos, esse espaço amostral não seria equiprovável, então esse problema não vai ser relevante para calcular probabilidades (ainda assim, pode ser que ele apareça no MOODLE)
Ross, caps. 1.4, 1.5 (coeficientes multinomiais = anagramas), 1.6 (combinação completa), 2.5
Problemas do capítulo 1: 8 a 11, 19 a 22 (DICA: olhem o exemplo 4b no cap 1 do Ross)
Problemas do capítulo 2: 18, 21, 33 e 34
Lista 1 (minha): vocês devem ser capazes de resolver a lista inteira depois dessa aula
Lista 2 (minha): 4 a 10
Os vídeos da semana 3
Uma alternativa para a abordagem de alguns dos problemas em que temos uma sequência de sorteios e eu estou interessado em um evento em que a ordem importa é usar diretamente a regra multiplicativa.
A regra muliplicativa pode ser escrita de uma forma alternativa, que aparece na maior parte dos livros como a definição do conceito de probabilidade condicionada. Na abordagem que eu fiz do curso, nossas probabilidades já são condicionadas desde a primeira aula, o que só significa que eu estou prestando atenção às informações sendo usadas.
Dessa noção de condicionamento sai de maneira natural a noção de independência, que já estavamos usando de forma intuitiva.
Se eu posso calcular a probabilidade de um dado evento em determinados casos e eu sei a probabilidade de ocorrência de cada um dos casos, eu posso juntar essas informações para obter a probabilidade do evento dadas apenas as informações iniciais. A expressão que faz essa combinação é conhecida como Lei da Probabilidade Total e é uma consequência direta dos axiomas de Kolmogorov nesse cenário.
Ross, caps 3.1, 3.2, 3.4, 3.5
Problemas do capítulo 2: 45 e 56
Problemas do capítulo 3: 1, 5, 6, 7, 8, 10, 14, 20
Lista 2 (minha): Em princípio vocês tem toda a parte teórica para resolver a lista inteira depois dessa aula (alguns exercícios mais pro final podem ficar mais simples depois da próxima aula, mas vale a pena tentá-los já)
Vídeos 4.1 a 4.3 da semana 4
Vamos ver 2 problemas clássicos que ilustram o quão contraintuitivo e sutil pode ser o efeito das informações disponíveis na atribuição de probabilidades: O problema de Monty Hall e o problema dos falsos positivos.
A confusão do problema dos falsos positivos normalmente vem da confusão entre um evento que eu quero calcular a probabilidade e um cuja ocorrência está sendo dada como informação (ou seja, uma confusão entre Pr(E|F) e Pr(F|E)). Apesar disso, essas probabilidades são distintas, porém relacionadas. Quem faz a conexão entre elas é o teorema de Bayes.
Uma maneira interessante de se visualizar o que está acontecendo é usando mais uma vez os diagramas de árvore.
Ross, caps 3.2, 3.3
Completar a lista 2
Vídeo 4.4 a 4.6 da semana 4
O problema básico da estatística é determinar propriedades de um sistema a partir de dados obtidos medindo esse sistema. Tipicamente vamos ter um cenário em que temos acesso a Pr(Dados|Propriedades). O teorema de Bayes pode ser usado emntão para obtermos Pr(Propriedades|Dados)
Isso faz sentido do ponto de vista dos conceitos de probabilidade que vimos mais cedo, já que os dados obtidos constituem uma informação sobre o sistema, porém em geral ela não é completa, então só podemos dar uma descrição probabilista para as propriedades do sistema
Essa ideia é a base da chamada Inferência Bayesiana, que é todo um ramo da Estatística
Vamos analisar um toy model de inferência conhecido como Regra de Sucessão, que vai dar o primeiro indício de como probabilidades e frequências vão se conectar mais pra frente.
Ross, caps 3.2, 3.3
Completar a lista 2
Vídeo 5.1 da semana 5
Analisando as condições de uma apólice de seguro, podemos tirar algumas conclusões sobre as estimativas feitas pela seguradora. O raciocínio que está por trás disso é uma análise do que deveria acontecer em média com um conjunto grande de segurados similares ao segurado original.
Uma variável aleatória é um valor que atribuímos à uma realização de um experimento aleatório. Dessa forma podemos pensar em uma variável aleatória como sendo algo que eu meço em um experimento aleatório. Logo, ela seria um valor para o qual eu não teria informação suficiente para determinar de antemão.
A noção de média que eu usei no problema do seguro de vida pode ser formalizada a luz da ideia de variável aleatória, com o conceito de valor esperado.
Vamos ver alguns exemplos de cálculo de valores esperados, mostrando a importância do conceito para situações que envolvam apostas.
O valor esperado é uma estimativa para o valor de uma variável aleatória que tem a vantagem de ter propriedades algébricas simples que ajudam trabalhar com ele (comparado com outras estimativas como medianas e modas.)
Ross, caps 4.1, 4.2 e 4.3
Do cap. 4: 1, 5, 20, 22, 25
Do cap. 7: 1, 6
A propriedade de linearidade do valor esperado (quebrar em somas e puxar constantes para fora) permite tratar variáveis complicadas a partir de variáveis mais simples.
As variáveis indicadoras são variáveis que só podem valer 0 ou 1 e são muito úteis para se construir variáveis mais complicadas.
O valor esperado é um exemplo de uma medida de centralidade. ou seja, ele indica por volta de quanto vale a minha variável. Isso ainda deixa de fora muita informação a respeito do comportamento da variável aleatória. Uma informação complementar bastante importante são as chamadas medidas de dispersão, que indicam o quanto eu posso esperar que a minha variável aleatória se desvie do valor esperado.
A medida de dispersão em que vamos nos focar é a variância, que mede o desvio quadrático com respeito ao valor esperado. A importância da variância (assim como o valor esperado) vem das suas propriedades algébricas simples, que permitem tratar variáveis complicadas a partir de variáveis mais simples.
Ross caps. 4.3, 4.4, 4.5, 7.2 (exemplos 2b, 2c, 2d, 2g, 2h)
Do cap 4: 35 a 38
Do cap 7: 1 e 6 (porém encontre a variância ao invés do valor esperado)
Lista 3 (minha): 1 e 2 (ache a variância ao invés do desvio), 4
Vídeos 6.2 a 6.5 da semana 6
Como a variância mede o quadrado do desvio, é extremamente comum estudar a raiz quadrada dela, conhecida como desvio padrão. Essa medida me dá de forma muito mais apropriada o quanto a minha variável aleatória pode se afastar do valor esperado, praticamente sem abrir mão das propriedades algébricas da variância.
Podemos chegar em descrições de probabilidades especializadas para lidar com variáveis aleatórias. A primeira dessas descrições que iremos considerar são as chamadas distribuições discretas, que correspondem às probabilidades das realizações em uma situação em que o espaço amostral é o suporte da variável.
Distribuições discretas são particularmente úteis para variáveis aleatórias que correspondem à contagens.
O primeiro exemplo de uma variável que realiza uma contagem que iremos considerar é a variável binomial, que conta o número de ocorrências de um evento em um dado número de repetições independentes de um experimento aleatório.
Ross caps 4.2 e 4.6
Do cap 4: 39 a 43
Lista 3 (minha): 3, 10
Outra variável importante que lida com contagens é a chamada variável de Poisson, que conta o número de ocorrências de um evento que ocorre com uma determinada taxa (do tipo ocorrências / período de tempo) em um determinado período (dada a hipótese que as ocorrências são independentes entre si)
Para determinar como é a distribuição discreta de uma variável de Poisson (a chamada distribuição de Poisson), nós podemos considerar um limite em um processo binomial e ver como as probabilidades dos eventos se comportam.
Uma propriedade importante das variáveis binomiais e de Poisson é que quando eu somo variáveis binomiais com o mesmo parâmetro p, o resultado ainda é uma binomial e quando eu somo variáveis de Poisson, o resultado também é uma variável de Poisson.
A variável geométrica, tem uma forte conexão com a variável binomial. Ambas assumem a mesma ideia básica de um experimento sendo repetido de maneira independente mas enquanto a binomial conta o número de ocorrências de um evento E, dado o número de repetições, a geométrica conta o número de repetições até a primeira ocorrência de E.
Ao contrário das variáveis binomial e de Poisson, não há um atalho (usando ferramentas vistas nesse curso) para obter o valor esperado e a variância da geométrica, então vamos precisar obtê-los a partir da distribuição. Isso envolve calcular algumas séries, relacionadas com a série geométrica (que é de onde vem o nome da variável).
As variáveis geométricas tem um papel central em um problema clássico de probabilidade, conhecido como o problema do colecionador. Ele é um exemplo de como podemos usar variáveis geométricas para criar variáveis mais complexas, mas que ainda podemos analisar (no nível de valores esperados).
Ross caps 4.7 e 4.8.1
Do cap 4: 57 a 61
Terminar a lista 3
As variáveis com que lidamos até agora são ou contagens (binomial, poisson, geométrica) ou variáveis que assumem um número finito de valores. Essas são as chamadas variáveis discretas (que tem esse nome pelo suporte delas ser um conjunto discreto). Grosso modo, vamos chamar as variáveis aleatórias que não se enquadram nesses tipos de variáveis contínuas.
A variável contínua mais simples possível é a chamada variável uniforme, que de certa forma corresponde a uma variável que assume de forma equiprovável todos os valores em um dado intervalo.
A distribuição discreta não consegue dar informações úteis nesse caso. Mas ainda podemos usar argumentos de simetria para obter a probabilidade de certos eventos.
A maneira de se atribuir probabilidades que desenvolvemos no vídeo anterior pode ser generalizada em termos de uma função, conhecida como distribuição acumulada.
A derivada da distribuição acumulada pode ser interpretada como um histograma e vai dar uma generalização "melhor" para a distribuição discreta, que iremos chamar de distribuições contínuas (ou densidades de probabilidade)
Um exemplo menos trivial de variável contínua é a chamada variável exponencial, que dá o intervalo entre 2 ocorrências de um processo de Poisson. A distribuição acumulada da variável pode ser obtida via um raciocínio com a distribuição de Poisson e a partir da distribuição acumulada podemos obter a distribuição contínua.
Ross caps 5.1, 5.2, 5.3, 5.5
Exercícios 1 e 2 da lista 4
Problemas 5.10 a 5.14 do Ross (não necessitam de integrais complicadas - leia o crash-course de integrais)
Problemas 5.1 e 5.8 do Ross (exigem integrais mais complicadas - recomendo ao pessoal que não fez FUV usar o Wolfram Alpha)
Vídeos da semana 9
A natureza de medidas experimentais faz com que elas estejam concentradas em torno de um valor e a probabilidade de encontrar valores cai rapidamente a medida que nos afastamos desse valor central. A variável normal dá um bom modelo para esse tipo de variável.
As contas envolvendo a variável normal sempre seguem o mesmo roteiro. Isso envolve um processo chamado padronização.
Uma das razões pelas quais a variável normal é tão prevalente é o Teorema do Limite Central. Esse teorema diz que se uma variável vem da soma de diferentes variáveis independentes e identicamente distribuidas, então ela é aproximadamente uma variável normal (a aproximação fica melhor quanto mais variáveis estiverem na soma)
Como a binomial pode ser pensada como uma soma de variáveis de Bernoulli no cenário do Teorema do Limite Central, então no limite de muitas repetições todas as binomiais se tornam variáveis normais.
Dada a conexão entre a binomial e a Poisson, segue que no limite de taxas altas a Poisson também se torna aproximadamente normal.
Ross caps 5.4 e 8.3
Lista 4 (minha): 3 a 6
Do cap 5: 20 a 25
Vídeos da semana 10
Um conceito extremamente útil em estatística é a ideia de média amostral. Ela é essencialmente a média aritmética de sucessivas medições de uma variável em diferentes experimentos aleatórios.
No cenário o Teorema do Limite Central, podemos mostrar que a média amostral também se comporta de forma normal no limite de muitos dados.
Para aplicar o teorema do limite central, precisamos encontrar os parâmetros da normal, usando as propriedades algébricas dos valores esperados e variâncias.
No começo do curso, nós usamos a conexão entre probabilidades e frequências como um guia para entendermos a forma dos Axiomas de Kolmogorov. Isso segue da chamada Lei dos Grandes Números, que pode ser provada a partir das desigualdades de Markov e Chebyshev.
Ross caps 8.2
Do cap 8: 10, 11, 13 a 16
Vídeos 11.1, 11.2, 11.5 da semana 11
Uma consequência do Teorema do Limite Central é que podemos atribuir probabilidades para que uma média amostral se distancie no máximo uma determinada quantidade do valor esperado, o que leva ao conceito de intervalo de confiança.
A noção de intervalo de confiança permite inferir muitas coisas sobre a metodologia de uma pesquisa a partir das afirmações que ela faz.
Meyer caps 14.7 e 14.9 (vide a Bibliografia para o pdf)
Terminar a lista 4
Vídeos 11.3, 11.4 da semana 11