C.1 Distribuția de probabilitate

C.1.1 Funcția de distribuție a probabilității cumulate

C.1.2 Funcția de densitate a probabilității

C.1.3 Valoarea medie (valoarea estimată)

C.1.4 Valoarea rădăcină-medie-pătratică

C.1.5 Varianța și abaterea standard

C.1.6 Variabile aleatoare independente

C.1.7 Media eșantionului și varianța eșantionului

C.1.8 Estimări nealterate

C.1.9 Distribuția Gaussiană

C.1.10 Intervale de încredere

C.1.1 Funcția de distribuție a probabilității cumulate

Luați în considerare o variabilă aleatoare X. Probabilitatea ca variabila aleatoare să ia o valoare egală sau mai mică decât o valoare specifică x este o funcție de x. Această funcție, notată cu F(x), se numește funcție de distribuție a probabilității cumulative sau pur și simplu funcție de distribuție. Mai exact,

(C.1)

Rețineți că F(∞) = 1 și F(-∞) = 0 deoarece valoarea lui X este întotdeauna mai mică decât infinit și nu poate fi niciodată mai mică decât minus infinit. Mai mult, F(x) trebuie să fie o funcție de creștere monotonă, așa cum se arată în figura C.1a, deoarece nu sunt definite probabilități negative.

FIGURA C.1 (a) O funcție cumulativă de distribuție a probabilității;
(b) o funcție de densitate a probabilității

C.1.2 Funcția de densitate a probabilității

Presupunând că variabila aleatoare X este o variabilă continuă și, prin urmare, F(x) este o funcție continuă de x, funcția de densitate a probabilității f(x) este dată de panta lui F(x), așa cum se arată în figura C. 1b. Prin urmare,

(C.2)

Deci,

(C.3)

Rețineți că aria de sub curba densității este unitate. Mai mult, probabilitatea ca variabila aleatorie să se încadreze între două valori este dată de aria aflată sub curba de densitate între aceste două limite. Aceasta poate fi ușor de arătat folosind definiția lui F(x) și f(x):

(C.4)

C.1.3 Valoarea medie (valoarea estimată)

Dacă o variabilă aleatoare X este măsurată repetat de un număr foarte mare (infinit) de ori, media acestor măsurători este valoarea medie μ sau valoarea estimată E(X). Ar trebui să fie ușor de observat că aceasta poate fi exprimată ca suma ponderată a tuturor valorilor posibile ale variabilei aleatorii, fiecare valoare fiind ponderată de probabilitatea asociată apariției sale. Deoarece probabilitatea ca X să ia valoarea x este dată de f(x)δx, cu δx tinzând spre zero, avem

Deoarece însumarea din partea dreaptă devine o integrală la limită, obținem

(C.5)

C.1.4 Valoarea rădăcinii-medii pătratice

Valoarea medie pătratică a unei variabile aleatoare X este dată de

(C.6)

Valoarea rădăcinii-mediei-pătratice (rms) este rădăcina pătrată a valorii medii pătrate.

C.1.5 Varianța și abaterea standard

Varianța unei variabile aleatorii este valoarea medie pătratică a abaterii de la medie. Aceasta este notată prin Var(X) sau σ2 și este dată de

(C.7)

FIGURA C.2 Efectul abaterii standard asupra formei unei curbe de densitate a probabilității

Prin extinderea ecuației C.7, putem arăta că

(C.8)

Abaterea standard σ este rădăcina pătrată a varianței. Rețineți că abaterea standard este o măsură a „răspândirii” statistice a unei variabile aleatorii. O variabilă aleatoare cu o σ mai mică este mai puțin aleatoare, iar curba densității sale va prezenta un vârf mai ascuțit, așa cum se arată în Figura C.2.

Unii cred că ar trebui să vă convingă că, dacă funcția densității de probabilitate a variabilei aleatoare X este f(x), atunci funcția densității de probabilitate a oricărei funcții (bine crescute) de X este, de asemenea, f(x). În particular, pentru constantele a și b, funcția densității de probabilitate a lui (aX + b) este de asemenea f(x). Rețineți, în plus, că media lui (aX+b) este (aμ+b). Prin urmare, din Ecuația C.7, rezultă că varianța lui aX este

Prin urmare,

(C.9)

C.1.6 Variabile aleatoare independente

Două variabile aleatoare, X1 și X2, sunt considerate independente dacă evenimentul „X1 presupune o anumită valoare” este complet independent de evenimentul „X2 își asumă o anumită valoare.” Cu alte cuvinte, procesele care generează răspunsurile X1 și X2 sunt complet independente. Mai mult, distribuția probabilității lui X1 și X2 sunt complet independente. Prin urmare, se poate demonstra că pentru variabilele aleatoare independente X1 și X2, valoarea medie a produsului este egală cu produsul valorilor medii. Prin urmare,

(C.10)

pentru variabilele aleatoare independente X1 și X2.

Acum, folosind definiția varianței și ecuația C.10, se poate demonstra că

(C.11)

pentru X1 și X2 independente.

C.1.7 Media eșantionului și varianța eșantionului

Luați în considerare N măsurători {X1, X2,…, XN} ale variabilei aleatoare X. Acest set de date este denumit eșantion de date. În general, nu este posibilă extragerea tuturor informațiilor despre distribuția probabilității lui X din acest eșantion de date. Cu toate acestea, putem face unele estimări utile. S-ar putea aștepta ca, cu cât eșantionul de date este mai mare, cu atât mai exacte ar fi aceste estimări statistice.

O estimare pentru valoarea medie a lui X ar fi media eșantionului X¯, care este definit ca

(C.12)

O estimare pentru varianță ar fi varianța eșantionului S2, dată de

(C.13)

O estimare pentru abaterea standard ar fi abaterea standard a eșantionului, S, care este rădăcina pătrată a varianței eșantionului.

S-ar putea să fii derutat de numitorul N-1 din partea dreaptă a ecuației C.13. Deoarece calculăm o abatere „medie”, numitorul ar fi trebuit să fie N. Dar, în acest caz, cu o singură citire (N = 1), obținem o valoare finită pentru S, care nu este corectă, deoarece nu se poate vorbi despre o abatere standard a eșantionului atunci când este disponibilă o singură măsurătoare. Deoarece, conform ecuației C.13, S nu este definit (0/0) când N = 1, această definiție a lui S2 este mai realistă. Un alt avantaj al Ecuației C.13 este că această ecuație oferă o estimare nealterată a varianței. Acest concept va fi discutat în continuare. Rețineți că dacă folosim N în loc de N-1 în ecuația C.13, varianța calculată se numește varianța populației. Rădăcina sa pătrată este abaterea standard a populației. Când N > 30, diferența dintre varianța eșantionului și varianța populației devine neglijabilă.

C.1.8 Estimări nealterate

Rețineți că fiecare termen Xi din setul de date eșantion {X1, X2, ..., XN} este el însuși o variabilă aleatoare la fel ca X, deoarece valoarea măsurată a lui Xi conține un oarecare hazard și este supusă întâmplării. Cu alte cuvinte, dacă N măsurători ar fi luate simultan și apoi aceleași măsurători s-ar repeta, valorile ar fi diferite de primul set, deoarece X a fost luat aleator. Rezultă că X¯ și S în ecuațiile C.12 și C.13 sunt, de asemenea, variabile aleatoare. Rețineți că valoarea medie a lui X¯ este

Prin urmare,

(C.14)

Știm că X¯ este o estimare pentru μ. De asemenea, din Ecuația C.14, observăm că valoarea medie a lui X¯ este μ. Prin urmare, media eșantionului X¯ este o estimare nealterată a valorii medii μ.

În mod similar, din Ecuația C.13, putem arăta că valoarea medie a lui S2 este

(C.15)

presupunând că Xi sunt măsurători independente. Astfel, varianța eșantionului S2 este o estimare nealterată a varianței σ2. În general, dacă valoarea medie a unei estimări este egală cu valoarea exactă a parametrului care este estimat, se spune că estimarea este nealterată. În caz contrar, este o estimare alterată.

Exemplul C.1

Un instrument are un răspuns X care este aleator cu o abatere standard σ. Se face un set de N măsurători independente {X1, X2,…, XN} și se calculează media eșantionului X¯. Arătați că abaterea standard a lui X¯ este σ/√N.

De asemenea, un instrument de măsurare produce o eroare aleatoare a cărei abatere standard este de 1%. Câte măsurători trebuie să fie mediate pentru a reduce abaterea standard de eroare la mai puțin de 0,05%?

Soluţie

Pentru a rezolva prima parte a problemei, începeți cu ecuația C.12 și utilizați proprietățile variației date de ecuațiile C.9 și C.11:

Aici, am folosit faptul că Xi sunt independente.

Prin urmare,

(C.16)

În consecinţă,

(C.17)

Pentru a doua parte a problemei, σ = 1% și σ/√N < 0,05%. Atunci

Astfel, ar trebui să mediem mai mult de 400 de măsurători pentru a obține acuratețea specificată.

C.1.9 Distribuția Gaussiană

Distribuția Gaussiană, sau distribuția normală, este probabil cea mai utilizată distribuție de probabilitate în aplicațiile inginerești. În afară de ușurința sa de utilizare, o altă justificare pentru utilizarea sa pe scară largă este oferită de teorema limitei centrale. Această teoremă afirmă că o variabilă aleatorie care se formează prin însumarea unui număr foarte mare de variabile aleatoare independente ia distribuția Gaussiană la limită. Deoarece multe fenomene inginerești sunt consecințe ale numeroase cauze aleatoare independente, asumarea unei distribuții normale este justificată în multe cazuri. Valabilitatea presupunerii Gaussiene poate fi verificată prin reprezentarea grafică a datelor pe hârtie milimetrică de probabilitate sau prin utilizarea de diferite teste, de ex. testul chi-pătrat- χ2.

Funcția de densitate a probabilității Gaussiene este dată de

(C.18)

Rețineți că numai doi parametri, media μ și abaterea standard σ, sunt necesari pentru a determina complet o distribuție Gaussiană.

O expresie algebrică apropiată nu poate fi dată pentru funcția de distribuție a probabilității cumulative F(x) a distribuției Gaussiene. Ar trebui evaluată prin integrare numerică. Valorile numerice pentru curba de distribuție normală sunt disponibile sub formă de tabel, cu variabila aleatoare X normalizată în raport cu μ și σ conform cu

(C.19)

Rețineți că valoarea medie a acestei variabile normalizate Z este

sau

(C.20)

iar varianța lui Z este

sau

(C.21)

Mai mult, funcția densității de probabilitate a lui Z este

(C.22)

Ceea ce este de obicei tabelat este aria de sub curba de densitate f(z) a variabilei aleatoare normalizate Z pentru valori diferite de z. O formă convenabilă este prezentată în tabelul C.1, unde aria de sub curba f(z) de la 0 la z este tabelată până la patru zecimale pentru valori pozitive diferite de z până la două zecimale. Deoarece curba densității este simetrică față de valoarea medie (zero pentru cazul normalizat), valorile negative pentru z nu trebuie să fie tabelate. Mai mult, atunci când z→∞, aria A din tabelul C.1 se apropie de 0,5. Valoarea pentru z = 3,09 este deja 0,4990. Prin urmare, pentru cele mai multe scopuri practice, aria A poate fi luată ca 0,5 pentru valori z mai mari de 3,0. Deoarece Z este normalizat în raport cu σ, rezultă că z = 3 corespunde real la de trei ori abaterea standard a variabilei aleatoare originale X. Prin urmare, pentru o variabilă aleatoare Gaussiană, majoritatea valorilor se vor încadra în ± 3σ față de valoarea medie.

Se poate afirma că aproximativ

• 68% din valori se vor încadra între ± σ în jurul lui μ

• 95% din valori se vor încadra în ± 2σ în jurul lui μ

• 99,7% din valori se vor încadra în ± 3σ în jurul lui μ

Acest lucru poate fi verificat cu ușurință folosind tabelul C.1.

TABELUL C.1 Tabelul Distribuției de probabilitate Gaussiană

C.1.10 Intervale de încredere

Probabilitatea ca valoarea unei variabile aleatoare ar intra într-un interval specificat este numită nivel de încredere. Ca exemplu, ia în considerare o variabilă aleatorie Gaussiană X care are media μ și abaterea standard σ. Acest lucru este notat cu

(C.23)

Să presupunem că sunt făcute N măsurători {X1, X2, ..., XN}. Media eșantionului X¯ este o estimare nealterată pentru μ. Știm, de asemenea, că abaterea standard a lui X¯ este σ/√N .

Acum luați în considerare următoarea variabilă aleatoare normalizată:

(C.24)

Aceasta este o variabilă aleatoare gaussiană cu media zero și abaterea standard unitate. Probabilitatea p ca valorile lui Z să se încadreze în ± zo

(C.25)

poate fi determinată din tabelul C.1 pentru o valoare specificată a lui zo. Înlocuind ecuația C.24 în C.25, obținem

(C.26)

Rețineți că limita inferioară are semnul „≤” și limita superioară are semnul „<” în paranteze. Acestea au fost utilizate pentru precizie matematică, dar pentru scopuri practice, fie ≤ fie < pot fi utilizate în fiecare limită. Acum, din Ecuația C.26, rezultă că nivelul de încredere este p, că valoarea medie reală μ s-ar încadra în ± zo σ/√N a valorii medii estimată (eșantion) X¯.

Exemplul C.2

Rezoluția unghiulară a unui rezolver (un senzor de mișcare rotativ) a fost testată de șaisprezece ori, independent, și înregistrată în grade după cum urmează:

0,11, 0,12, 0,09, 0,10, 0,10, 0,14, 0,08, 0,08

0,13, 0,10, 0,10, 0,12, 0,08, 0,09, 0,11, 0,15

Dacă abaterea standard a rezoluției unghiulare a acestei mărci de rezolvere este cunoscută a fi 0,01°, care sunt șansele ca rezoluția medie să se încadreze în 5% din media eșantionului?

Soluţie

Pentru a rezolva această problemă, presupunem că rezoluția este distribuită normal. Media eșantionului este calculată ca

Având în vedere ecuația C.26, trebuie să avem

Prin urmare,

sau

Acum, din tabelul C1