2.4 Histograma, Pmf și Pdf

Să presupunem că atașăm un convertor analogic-digital de 8 biți un un computer și obținem 256.000 de eșantioane de semnal. De exemplu, în figura 2-4a sunt prezentate 128 de eșantioanecare pot face parte din acest set de date. Valoarea fiecărui eșantion va fi una din 256 posibilități, de la 0 la 255. Histograma afișează numărul de eșantioane care există în semnal, care au fiecare dintre aceste valori posibile. Figura (b) prezintă histograma pentru cele 128 de eșantioane din (a). De exemplu, există 2 eșantioane care au o valoare de 110, 8 eșantioane care au o valoare de 131, 0 eșantioane care au o valoare de 170, etc. Vom reprezenta histograma prin Hi, unde i este un indice care rulează de la 0 până la M-1 și M este numărul de valori posibile pe care fiecare eșantion le poate lua. De exemplu, H50 este numărul de eșantioane care au o valoare de 50. Figura (c) prezintă histograma semnalului utilizând întregul set de date, toate cele 256k puncte. După cum se poate observa, numărul mai mare de eșantioane duce la un aspect mult mai neted. La fel ca în cazul mediei, zgomotul statistic (rugozitatea) histogramei este invers proporțional cu rădăcina pătrată a numărului de eșantioane utilizate.

Figura 2-4
Exemple de histograme. Figura (a) prezintă 128 de eșantioane de la un semnal foarte lung, fiecare eșantion fiind un întreg între 0 și 255. Figurile (b) și (c) prezintă histograme utilizând 128 și 256.000 de eșantioane dintr-un semnal, respectiv. După cum se vede, histograma este mai netedă când sunt utilizate mai multe eșantioane.

Din modul cum este definită, suma tuturor valorilor din histogramă trebuie să fie egală cu numărul de puncte din semnal:

Ecuația 2-5
Suma tuturor valorilor din histogramă este egală cu numărul de puncte din semnal. Hi este histograma, N este numărul de puncte din semnal iar M este numărul de puncte din histogramă

Histograma poate fi utilizată pentru a calcula eficient media și deviația standard a seturilor de date foarte mari. Acest lucru este deosebit de important pentru imagini, care pot conține milioane de eșantioane. Histograma grupează împreună eșantioanele care au aceeași valoare. Acest lucru permite calcul statistic lucrând cu câteva grupuri, mai degrabă decât un număr mare de eșantioane individuale. Folosind această abordare, media și deviația standard se calculează din histogramă prin ecuațiile:

Ecuația 2-6
Calcularea mediei din histogramă. Aceasta poate fi văzută ca o combinație de toate eșantioanele având aceeași valoare în grupuri, și apoi utilizând Ec. 2-1 pentru fiecare grup.

Ecuația 2-7
Calcularea deviației standard din histogramă. Aceasta este același concept ca Ec. 2-2 cu excepția că toate eșantioanele având aceeași valoare sunt operate imediat.

Tabelul 2-3 conține un program pentru calcularea histogramei, mediei și deviației standard utilizând aceste ecuații. Calculul histogramei este foarte rapid, deoarece necesită numai indexare și incrementare. In comparație, calcularea mediei și deviației standard presupune operații consumatoare de timp ca adunare și multiplicare. Strategia acestui algoritm este de a folosi aceste operații lentă numai pe câteva numere din histogramă, nu pe cele mai multe probe din semnal. Acest lucru face ca algoritmul să fie mult mai rapid decât metodele descrise anterior. Gândiți-vă la un factor de zece pentru semnale foarte lungi, calculele fiind efectuate pe un computer de uz general.

Ideea că semnalul achiziționat este o versiune zgomotoasă a procesului de bază este foarte importantă; atât de importantă încât unele concepte să aibă nume diferite. Histograma este cea formată dintr-un semnal achiziționat. Curba corespunzătoare pentru procesul de bază se numește funcția masă a probabilității (pmf). O histogramă este întotdeauna calculată folosind un număr finit de probe, în timp ce pmf este ceea ce s-ar obține cu un număr infinit de eșantioane. Suma pmf poate fi estimată (dedusă) din histogramă sau poate fi dedusă printr-o tehnică matematică, cum ar fi exemplul de aruncare a monedei.

Figura 2-5 prezintă un exemplu pmf și una dintre histogramele posibile care ar putea fi asociate cu acesta. Cheia înțelegerii acestor concepte se bazează pe unitățile axei verticale. După cum a fost descris anterior, axa verticală a histogramei este numărul de apariții a unei valori particulare în semnal. Axa verticală a pmf conține informații similare, cu excepția exprimării pe o bază fracțională. Cu alte cuvinte, fiecare valoare din histogramă este împărțită la numărul total de eșantioane pentru a aproxima pmf. Aceasta înseamnă că fiecare valoare din pmf trebuie să fie între zero și unu și că suma tuturor valorilor din pmf va fi egală cu unu.

Pmf este importantă deoarece descrie probabilitatea generării unei anumite valori. De exemplu, imaginați-vă un semnal generat de procesul descris în figurile 2-5b, cum s-a arătat anterior în figura 2-4a. Care este probabilitatea ca un eșantion luat din acest semnal să aibă o valoare de 120? Figura 2-5b oferă răspunsul, 0,03 sau aproximativ 1 șansă din 34. Care este probabilitatea ca un eșantion ales aleatoriu să aibă o valoare mai mare de 150? Adăugarea valorilor în pmf pentru: 151, 152, 153, ⋅⋅⋅, 255, oferă răspunsul 0,0122 sau aproximativ 1 șansă din 82. Astfel, semnalul ar trebui să aibă o valoare peste 150 pe o medie din fiecare 82 de puncte. Care este probabilitatea ca oricare dintre eșantioane să fie între 0 și 255? Sumarea tuturor valorilor din histogramă produce probabilitatea de 1.00, o certitudine că aceasta va avea loc.

Histograma și pmf pot fi utilizate numai cu date discrete, cum ar fi un semnal digitizat localizat într-un calculator. Un concept similar se aplică semnalelor continue, cum ar fi tensiunile care apar în electronica analogică. Funcția densitate a probabilității (pdf), numită și funcția de distribuție a probabilității, este pentru semnale continue ce este funcția masă a probabilității pentru semnale discrete. De exemplu, imaginați-vă un semnal analogic care trece printr-un convertor analogic-digital, rezultând semnalul digitizat din figura 2-4a. Pentru simplitate, vom presupune că tensiunile între 0 și 255 milivolți devin digitizate în cifre digitale între 0 și 255. Pmf-ul acestui semnal digital este arătat de markerii din figura 2-5b. În mod similar, pdf-ul semnalului analogic este arătat de linia continuă din (c), indicând faptul că semnalul poate lua un interval continuu de valori, cum ar fi tensiunea într-un circuit electronic.

Fig. 2-5
Relația dintre (a) histogramă, (b) funcția masă de probabilitate (pmf) și (c) funcția densitate de probabilitate (pdf). Histograma este calculată dintr-un număr finit de eșantioane. Pmf descrie probabilitățile procesului de bază. Pdf este similar cu pmf, dar este utilizat cu semnale continue. Deși axele verticale din (b) și (c) au aceleași valori (0 la 0,06), aceasta este numai o coincidență a acestui exemplu. Amplitudinea acestor trei curbe este determinată de: (a) suma valorilor în histogramă care este egală cu numărul de eșantioane din semnal; (b) suma valorilor în pmf egală cu unu, și (c) aria sub curba pdf care este egală cu unu.

Axa verticală a pdf este în unități de densitate de probabilitate, mai degrabă decât doar probabilitate. De exemplu, o pdf de 0,03 la 120,5 nu înseamnă că o tensiune de 120,5 milivolți va apare 3% din timp. De fapt, probabilitatea ca semnalul continuu să fie exact de 120,5 milivolți este infinit de mic. Acest lucru se datorează faptului că există un număr infinit de valori posibile pe care semnalul trebuie să-și împartă timpul între: 120,49997; 120,49998; 120,49999, etc. Șansa ca semnalul să se întâmple exact să fie 120,50000⋅⋅⋅ este într-adevăr foarte îndepărtată!

Pentru a calcula o probabilitate, densitatea de probabilitate este înmulțită cu un interval de valori. De exemplu, probabilitatea ca semnalul, la orice moment dat, să fie între valorile 120 și 121 este: (121 - 120) x 0,03 = 0,03. Probabilitatea ca semnalul să fie între 120,4 și 120,5 este: (120,5 - 120,4) x 0,03 = 0,003, etc. Dacă pdf nu este constantă în intervalul de interes, multiplicarea devine integrala pdf-ului peste acel interval. Cu alte cuvinte, aria de sub pdf limitată de valorile specificate. Întrucât valoarea semnalului trebuie să fie întotdeauna ceva, suprafața totală de sub curba pdf, integrala de la -∞ la + ∞, va fi întotdeauna egală cu unu. Aceasta este similară cu suma tuturor valorilor pmf care este egală cu unu, iar suma tuturor valorilor histogramelor este egală cu N.

Histograma, pmf și pdf sunt concepte foarte asemănătoare. Matematicienii le păstrează întotdeauna drept, dar le veți găsi frecvent folosite interschimbabil (și prin urmare, incorect) de mulți oameni de știință și ingineri. Figura 2-6 prezintă trei forme de undă continuă și pdf-urile lor. Dacă acestea ar fi fost semnale discrete, semnificative prin schimbarea etichetării axei orizontale la "număr de eșantioane", s-ar fi folosi pmf-uri.

Figura 2-6

Trei forme de undă comune și funcțiile lor densitate de probabilitate. În aceste exemple, graficul pdf este rotit un sfert de tură și plasat la marginea semnalului pe care-l descrie. Pdf al undei pătrate, arătat în (a), constă din două vârfuri infim de înguste, corespunzând semnalului ce are numai două valori posibile. Pdf al undei triunghiulare, (b), are o valoare constantă pe un interval și este adesea numită distribuție uniformă. Pdf al zgomotului aleatoriu, ca în (c), este cel mai interesant din toate, o curbă frumoasă cunoscută sub numele de curba lui Gauss.

Apare o problemă la calcularea histogramei atunci când numărul de nivele pe care fiecare eșantion le poate lua este mult mai mare decât numărul de eșantioane din semnal. Acest lucru este întotdeauna adevărat pentru semnalele reprezentate în notația cu virgulă mobilă, unde fiecare eșantion este stocat ca valoare fracțională. De exemplu, reprezentarea întreagă poate necesita valoarea eșantionului să fie 3 sau 4, în timp ce virgula mobilă permite milioane de valori fracționale posibile între 3 și 4. Abordarea descrisă anterior pentru calcularea histogramei implică numărarea eșantioanelor care au fiecare din nivelele posibile de cuantizare. Acest lucru nu este posibil cu datele în virgulă mobilă, deoarece există miliarde de nivele posibile care ar trebui luate în considerare. Mai rău, aproape toate aceste nivele posibile nu ar avea eșantioane care să le corespundă. De exemplu, imaginați-vă un semnal cu 10.000 de eșantioane, fiecare eșantion având un miliard de valori posibile. Histograma convențională ar consta din un miliard de puncte de date, cu toate că aproximativ 10.000 dintre acestea au o valoare zero.

Soluția la aceste probleme este o tehnică numită binning. Acest lucru se face prin selectarea arbitrară a lungimii histogramei pentru a fi un număr convenabil, cum ar fi 1000 de puncte, adesea numite bins. Valoarea fiecărui bin reprezintă numărul total de eșantioane din semnal care au o valoare într-un anumit interval. De exemplu, imaginați un semnal în virgulă mobilă care conține valori cuprinse între 0,0 și 10,0 și o histogramă cu 1000 de bins. Bin 0 în histogramă este numărul de eșantioane din semnal cu o valoare cuprinsă între 0 și 0,01; bin 1 este numărul de eșantioane cu o valoare cuprinsă între 0,01 și 0,02 și așa mai departe până la bin 999 conținând numărul de eșantioane cu o valoare cuprinsă între 9,99 și 10.0. Tabelul 2-4 prezintă un program de calcul al unei histograme binned în acest mod.

Figura 2-7

Exemple de histograme pe intervale. Cum se arată în (a), semnalul utilizat în acest exemplu este în lungime de 300 de eșantioane, cu fiecare eșantion un număr în virgulă mobilă, uniform distribuit între 1 și 3. Figurile (b) și (c) arată histogramele acestui semnal, utilizând 601 intervale (bins) și respectiv 9. Cum se vede, un număr mare de intervale pe axa verticală duce la o rezoluție slabă, în timp ce un număr mic de intervale realizează o rezoluție slabă pe axa orizontală. Utilizând mai multe eșantioane, se face o rezoluție mai bună pe ambele direcții.

Câte intervale ar trebui folosite? Acesta este un compromis între două probleme. Așa cum se arată în figura 2-7, prea multe intervale îngreunează estimarea amplitudinii pmf de bază. Acest lucru se datorează faptului că doar câteva eșantioane intră în fiecare interval, ceea ce face zgomotul statistic foarte ridicat. La cealaltă extremă, prea puține intervale îngreunează estimarea pmf de bază în direcția orizontală. Cu alte cuvinte, numărul de intervale controlează un compromis între rezoluția de-a lungul axei y și rezoluția de-a lungul axei x.

Secțiunea următoare: Distribuția normală