#ProfessorAngeloAntonioLeithold #py5aal A teoria da probabilidade ou cálculo de probabilidade é o ramo da matemática que estuda a probabilidade. Embora existam diversas interpretações diferentes de probabilidade, trata o conceito de forma matemática rigorosa, expressando-o por meio de um conjunto de axiomas. Normalmente, esses axiomas formalizam a probabilidade em termos de um espaço de probabilidade, que atribui uma medida que assume valores entre 0 e 1, denominada medida de probabilidade, a um conjunto de resultados chamado espaço amostral. Qualquer subconjunto especificado do espaço amostral é chamado de evento. Temas centrais na teoria da probabilidade incluem variáveis aleatórias discretas e contínuas, distribuições de probabilidade e processos estocásticos que fornecem abstrações matemáticas de processos não determinísticos, incertos ou grandezas medidas que podem ser ocorrências únicas ou evoluir ao longo do tempo de forma aleatória. Embora não seja possível prever eventos aleatórios perfeitamente, muito pode ser dito sobre seu comportamento. Dois resultados importantes na teoria da probabilidade que descrevem tal comportamento são a lei dos grandes números e o teorema do limite central.
#ProfessorAngeloAntonioLeithold #py5aal Como base matemática para a estatística, a teoria da probabilidade é essencial para muitas atividades humanas que envolvem análise quantitativa de dados. Os métodos da teoria da probabilidade também se aplicam a descrições de sistemas complexos, dado apenas conhecimento parcial de seu estado, como na mecânica estatística ou estimativa sequencial. Uma grande descoberta da física do século XX foi a natureza probabilística dos fenômenos físicos em escalas atômicas, descritos na mecânica quântica. A moderna teoria matemática da probabilidade tem suas raízes nas tentativas de analisar jogos de azar por Gerolamo Cardano no século XVI, e por Pierre de Fermat e Blaise Pascal no século XVII, por exemplo, o "problema dos pontos". Christiaan Huygens publicou um livro sobre o assunto em 1657. No século XIX, o que é considerado a definição clássica de probabilidade foi completado por Pierre Laplace. Inicialmente, a teoria da probabilidade considerava principalmente eventos discretos, e seus métodos eram predominantemente combinatórios. Eventualmente, considerações analíticas forçaram a incorporação de variáveis contínuas à teoria. Isso culminou na teoria da probabilidade moderna, sobre os fundamentos lançados por Andrey Nikolaevich Kolmogorov, que combinou a noção de espaço amostral, introduzida por Richard von Mises, teoria da medida e apresentou seu sistema de axiomas para a teoria da probabilidade em 1933. Isso se tornou a base axiomática quase indiscutível para a teoria da probabilidade moderna, mas existem alternativas, como a adoção da aditividade finita em vez da contável por Bruno de Finetti.
#ProfessorAngeloAntonioLeithold #py5aal A maioria das introduções à teoria da probabilidade trata distribuições de probabilidade discretas e distribuições de probabilidade contínuas separadamente. O tratamento da probabilidade baseado na teoria da medida abrange as distribuições discretas, contínuas, uma combinação das duas e muito mais.
#ProfessorAngeloAntonioLeithold #py5aal Consideremos um experimento que pode produzir uma série de resultados, conjunto de todos os resultados é chamado de espaço amostral do experimento. O conjunto de potências do espaço amostral, ou equivalentemente, o espaço de eventos, é formado considerando todas as diferentes coleções de resultados possíveis. Por exemplo {1, 3, 5}, produz um de seis resultados possíveis. Uma coleção de resultados possíveis corresponde a obter um número ímpar. Assim, o subconjunto é um elemento do conjunto de potências do espaço amostral de lançamentos de dados. Essas coleções são chamadas de eventos. Neste caso, por exemplo, é o evento em que o dado {1, 3, 5} cai em algum número ímpar. Se os resultados que realmente ocorrem caem em um determinado evento, diz-se que esse evento ocorreu.
#ProfessorAngeloAntonioLeithold #py5aal A probabilidade é uma forma de atribuir a cada "evento" um valor entre zero e um, com o requisito de que o evento composto por todos os resultados possíveis, do exemplo, o evento {1,2,3,4,5,6}) receba o valor um. Para se qualificar como uma distribuição de probabilidade, a atribuição de valores deve satisfazer o requisito de que, se você observar uma coleção de eventos mutuamente exclusivos, eventos que não contêm resultados comuns, por exemplo, os eventos {1,6}, {3} e {2,4} são todos mutuamente exclusivos, a probabilidade de que qualquer um desses eventos ocorra é dada pela soma das probabilidades dos eventos. A probabilidade de qualquer um dos eventos {1,6}, {3} ou {2,4} ocorrer é 5/6. Isso equivale a dizer que a probabilidade do evento {1,2,3,4,6} é 5/6. Este evento abrange a possibilidade de qualquer número, exceto cinco, ser obtido. O evento mutuamente exclusivo {5} tem probabilidade de 1/6, e o evento {1,2,3,4,5,6} tem probabilidade de 1, ou seja, certeza absoluta. Ao fazer cálculos usando os resultados de um experimento, é necessário que todos esses eventos elementares tenham um número atribuído a eles. Isso é feito usando uma variável aleatória, que é uma função que atribui a cada evento elementar no espaço amostral um número real. Essa função geralmente é denotada por uma letra maiúscula. No caso de um dado, a atribuição de um número a certos eventos elementares pode ser feita usando a função identidade. Isso nem sempre funciona. Por exemplo, ao lançar uma moeda, os dois resultados possíveis são "cara" e "coroa". Neste exemplo, a variável aleatória X poderia atribuir ao resultado "cara" o número "0" (X(cabeças)=0 e ao resultado "coroa" o número "1" (X(caudas)=1.
#ProfessorAngeloAntonioLeithold #py5aal Ao fazer cálculos usando os resultados de um experimento, é necessário que todos esses eventos elementares tenham um número atribuído a eles. Isso é feito usando uma variável aleatória. Uma variável aleatória é uma função que atribui a cada evento elementar no espaço amostral um número real. Essa função geralmente é denotada por uma letra maiúscula. No caso de um dado, a atribuição de um número a certos eventos elementares pode ser feita usando a função identidade, mass, isso nem sempre funciona. Por exemplo, ao lançar uma moeda, os dois resultados possíveis são "cara" e "coroa". Neste exemplo, a variável aleatória X poderia atribuir ao resultado "cara" o número "0" (X(cabeças)=0 e ao resultado "coroa" o número "1" (X(caudas)=1). A distribuição de Poisson, uma distribuição de probabilidade discreta lida com eventos que ocorrem em espaços amostrais contáveis. Por exemplo, ao jogar dados, experimentos com baralhos de cartas, caminhada aleatória e lançar moedas. Inicialmente, a probabilidade de um evento ocorrer era definida como o número de casos favoráveis ao evento, sobre o número de resultados totais possíveis em um espaço amostral equiprovável, ou definição clássica de probabilidade. Se a ocorrência de um número par quando um dado é lançado, a probabilidade é dada por 3/6=1/2, já que 3 das 6 faces têm números pares e cada face tem a mesma probabilidade de aparecer. A definição moderna começa com um conjunto finito ou contável chamado espaço amostral, que se relaciona ao conjunto de todos os resultados possíveis no sentido clássico, denotado por Ω. Assume-se então que para cada elemento x∈Ω, um valor de "probabilidade" intrínseco f(x) está anexado, o que satisfaz as seguintes propriedades:
Ou seja, a função de probabilidade f(x) está entre zero e um para cada valor de x no espaço amostral Ω , e a soma de f(x) sobre todos os valores x no espaço amostral Ω é igual a 1. Um evento é definido como qualquer subconjunto E do espaço amostral Ω. A probabilidade do evento E é definido como:
Portanto, a probabilidade de todo o espaço amostral é 1, e a probabilidade do evento nulo é 0. A função f(x) mapear um ponto no espaço amostral para o valor de "probabilidade" é chamado de função de massa de probabilidade abreviada como pmf.
#ProfessorAngeloAntonioLeithold #py5aal A teoria da probabilidade contínua lida com eventos que ocorrem em um espaço amostral contínuo se usa quando definição clássica falha, confrontada com o caso contínuo (Paradoxo de Bertrand). Se o espaço amostral de uma variável aleatória X é o conjunto de números reais {R} ou um subconjunto dele, então uma função chamada função de distribuição cumulativa (CDF) F existe, definido por F(x)=P(X≤x). Ou seja, F(x) retorna a probabilidade de que X seja menor ou igual a x. O CDF necessariamente satisfaz as propriedades em que F é uma função monotonicamente não decrescente e contínua,
#ProfessorAngeloAntonioLeithold #py5aal A variável aleatória X diz-se que tem uma distribuição de probabilidade contínua se o CDF correspondente F é contínuo. Se F, é absolutamente contínua, então sua derivada existe em quase todos os lugares e a integração da derivada nos dá a função de densidade de probabilidade (FDC). Neste caso, diz-se que a variável aleatória X tem uma função de densidade de probabilidade ( FDP ) ou simplesmente densidade
Para um conjunto E⊆R, a probabilidade da variável aleatória X estar em E é
Caso o PDF exista, isso pode ser escrito como
#ProfessorAngeloAntonioLeithold #py5aal Enquanto o PDF existe apenas para variáveis aleatórias contínuas, o CDF existe para todas as variáveis aleatórias, incluindo variáveis aleatórias discretas, que assumem valores em R. Esses conceitos podem ser generalizados para casos multidimensionais em Rn e outros espaços amostrais contínuos.
#ProfessorAngeloAntonioLeithold #py5aal A utilidade do tratamento da probabilidade baseado na teoria da medida reside no fato de unificar os casos discretos e contínuos, e fazer da diferença uma questão de qual medida é utilizada. Além disso, abrange distribuições que não são discretas nem contínuas, nem misturas das duas. Um exemplo dessas distribuições poderia ser uma mistura de distribuições discretas e contínuas, por exemplo, uma variável aleatória que é 0 com probabilidade 1/2 e assume um valor aleatório de uma distribuição normal com probabilidade 1/2. Ela ainda pode ser estudada até certo ponto, considerando que possui uma PDF de
onde δ[x]é a função delta de Dirac.
#ProfessorAngeloAntonioLeithold #py5aal Outras distribuições podem nem mesmo ser uma mistura, por exemplo, a distribuição de Cantor não tem probabilidade positiva para nenhum ponto específico, nem densidade. A abordagem moderna da teoria da probabilidade resolve esses problemas usando a teoria da medida para definir o espaço de probabilidade :
#ProfessorAngeloAntonioLeithold #py5aal Dado qualquer conjunto Ω (também chamado de espaço amostral) e uma σ-álgebra F nele, uma medida P definido em F né chamada de medida de probabilidade se P(Ω)=1. Se F é a σ-álgebra de Borel no conjunto de números reais, então há uma medida de probabilidade única em F para qualquer CDF, e vice-versa. Diz-se que a medida correspondente a uma CDF é induzida pela CDF. Essa medida coincide com a FPM para variáveis discretas e a PDF para variáveis contínuas, tornando a abordagem teórica da medida livre de falácias. A probabilidade de um conjunto E na σ-álgebra F é definido como
onde a integração é em relação à medida μF vinduzido por F. Além de proporcionar melhor compreensão e unificação de probabilidades discretas e contínuas, o tratamento teórico da medida também nos permite trabalhar em probabilidades fora Rn, como na teoria dos processos estocásticos. Por exemplo, para estudar o movimento browniano, a probabilidade é definida em um espaço de funções. Quando for conveniente trabalhar com uma medida dominante, o teorema de Radon-Nikodym é usado para definir uma densidade como a derivada de Radon-Nikodym da distribuição de probabilidade de interesse em relação a essa medida dominante. Densidades discretas são geralmente definidas como essa derivada em relação a uma medida de contagem sobre o conjunto de todos os resultados possíveis. Densidades para distribuições absolutamente contínuas são geralmente definidas como essa derivada em relação à medida de Lebesgue. Se um teorema puder ser provado nesse cenário geral, ele vale tanto para distribuições discretas quanto contínuas, bem como para outras; demonstrações separadas não são necessárias para distribuições discretas e contínuas.
#ProfessorAngeloAntonioLeithold #py5aal Certas variáveis aleatórias ocorrem com muita frequência na teoria da probabilidade porque descrevem bem muitos processos naturais ou físicos. Suas distribuições, portanto, ganharam especial importância na teoria da probabilidade. Algumas distribuições discretas fundamentais são as distribuições discreta uniforme, de Bernoulli, binomial, binomial negativa, de Poisson e geométrica. Distribuições contínuas importantes incluem as distribuições contínua uniforme, normal, exponencial, gama e beta.
#ProfessorAngeloAntonioLeithold #py5aal Na teoria da probabilidade, existem várias noções de convergência para variáveis aleatórias. Elas estão listadas abaixo em ordem de força, ou seja, qualquer noção subsequente de convergência na lista implica convergência de acordo com todas as noções anteriores. Uma sequência de variáveis aleatórias X1, X2,…, converge fracamente para a variável aleatória X se seus respectivos CDF convergem F1, F2, …, converge para o CDF F de X, onde quer que F é contínua. A convergência fraca também é chamada de convergência na distribuição. A notação abreviada mais comum é:
A sequência de variáveis aleatórias X1,X2,… diz-se que converge para a variável aleatória X em probabilidade se
para cada ε > 0. Notação abreviada mais comum:
A sequência de variáveis aleatórias X1, X2, … diz-se que converge para a variável aleatória
X fortemente se
A convergência forte também é conhecida como convergência quase certa. Notação abreviada mais comum:
#ProfessorAngeloAntonioLeithold #py5aal Como os nomes indicam, convergência fraca é mais fraca que convergência forte. De fato, convergência forte implica convergência em probabilidade, e convergência em probabilidade implica convergência fraca. As afirmações inversas nem sempre são verdadeiras. A intuição comum sugere que se uma moeda for lançada muitas vezes, então aproximadamente metade das vezes ela dará cara, e a outra metade dará coroa. Além disso, quanto mais frequentemente a moeda for lançada, mais provável será que a razão entre o número de caras e o número de coroas se aproxime da unidade. A teoria da probabilidade moderna fornece uma versão formal dessa ideia intuitiva, conhecida como lei dos grandes números . Essa lei é notável porque não é assumida nos fundamentos da teoria da probabilidade, mas em vez disso emerge desses fundamentos como um teorema. Uma vez que vincula probabilidades derivadas teoricamente à sua frequência real de ocorrência no mundo real, a lei dos grandes números é considerada um pilar na história da teoria estatística e tem tido ampla influência. A lei dos grandes números (LLN) afirma que a média da amostra
de uma sequência de variáveis aleatórias independentes e distribuídas de forma idêntica Xk converge para sua expectativa comum (valor esperado) μ, desde que a expectativa de |Xk|é finito. É nas diferentes formas de convergência das variáveis aleatórias que se separa a lei fraca e a lei forte dos grandes números
#ProfessorAngeloAntonioLeithold #py5aal Segue-se do LLN que se um evento de probabilidade p for observado repetidamente durante experimentos independentes, a razão entre a frequência observada desse evento e o número total de repetições converge para p. Por exemplo, se Y1, Y2, ... são variáveis aleatórias independentes de Bernoulli que assumem valores 1 com probabilidade p e 0 com probabilidade 1- p , então E(Yi)=p para todo i , de modo que Yn converge para p quase certamente. O teorema do limite central (TLC) explica a ocorrência ubíqua da distribuição normal na natureza, e este teorema, de acordo com David Williams, "é um dos grandes resultados da matemática". O teorema afirma que a média de muitas variáveis aleatórias independentes e identicamente distribuídas com variância finita tende a uma distribuição normal, independentemente da distribuição seguida pelas variáveis aleatórias originais. Formalmente, seja X1, X2,…, ser variáveis aleatórias independentes com média μ e variância σ2>0. Então a sequência de variáveis aleatórias
converge em distribuição para uma variável aleatória normal padrão. Para algumas classes de variáveis aleatórias, o teorema do limite central clássico funciona bastante rápido, como ilustrado no teorema de Berry-Esseen. Por exemplo, as distribuições com primeiro, segundo e terceiro momentos finitos da família exponencial, por outro lado, para algumas variáveis aleatórias da variedade cauda pesada e cauda grossa, funciona muito lentamente ou pode não funcionar: nesses casos, pode-se usar o Teorema do Limite Central Generalizado (TCGC).