34.9 Analiza distribuției log-normale

Am analizat două distribuții log-normale, una având o deviație standard de 0,25, iar cealaltă o deviație standard de 0,5. În mod surprinzător, una urmează legea lui Benford extrem de bine, în timp ce cealaltă nu o urmează deloc. În această secțiune vom examina tranziția analitică dintre aceste două comportamente pentru această distribuție particulală.

După cum se arată în figura 34-5d, putem folosi valoarea OST(1) ca măsură a a cât de bine este urmată legea lui Benford. Scopul nostru este să derivăm o ecuație ce asociază deviația standard a psf(g) cu valoarea OST(1), adică lățimea distribuției cu conformitatea ei cu legea lui Benford. Observați că acest lucru a definit riguros problema (a eliminat neclaritatea) prin specificarea a trei aspecte: forma distribuției, modul în care măsuram conformitatea cu legea lui Benford și cum definim lățimea distribuției.

Următorul pas este de a scrie ecuația pentru PSF(f), o curbă Gaussiană unilaterală, având o valoare zero la f = 0 și o abatere standard de σf :

Apoi introducem în conversia de la domeniul logaritmic deviația standard, σf = 1/(2πσg) și evaluăm expresia la f = 1:

În final, folosim OST(1) = SF(1) × PSF(1), unde SF(1) = 0,516, pentru a ajunge la ecuația finală:

Ecuația 34-5

Conformitatea distribuției log-normale cu legea lui Benford.

Așa cum este ilustrat în figura 34-5c, cea mai mare valoare în ost(g) este OST(1) plus 0,301, iar cea mai mică valoare este 0,301 - OST(1). Aceste valori, cea mai înaltă și cea mai scăzută, sunt prezentate în fig. 34-8a. Așa cum este arătat, atunci când lățimea 2σ a distribuției este de 0,5 (ca în figura 34-5a), testul Ones Scaling va avea valori de până la 45% și până la 16%, o potrivire foarte slabă cu legea lui Benford. Cu toate acestea, dublarea lățimii la 2σ = 1.0 are ca rezultat o fluctuație de la un high la low mai mică de 1%, o potrivire bună.

Există o serie de detalii interesante în acest exemplu. Mai întâi, observați cât de rapid se produce tranziția între urmărirea și neurmărirea legii lui Benford. De exemplu, două cazuri sunt indicate de A și B în figura 34-8, cu 2σ = 0,60 și respectiv 2σ = 0,90. În fig. (b) acestea sunt prezentate pe scala liniară. Acum, imaginați-vă că sunteți un cercetător care încearcă să înțeleagă legea lui Benford înainte de a citi acest capitol. Chiar dacă aceste două distribuții par foarte asemănătoare, una urmează legea lui Benford foarte bine, iar cealaltă nu o urmează deloc! Aceasta vă oferă o idee despre frustrarea produsă de legea lui Benford.

În al doilea rând, chiar dacă curbele din fig. (a) se mișcă extrem de rapid, nu se întâlnesc niciodată (cu excepția la infinit care nu este permisă pentru un pdf). De exemplu, din Ec. 34-5 o distribuție log-normală cu o abatere standard de trei va urma legea lui Benford în aproximativ 1 parte la 100.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000. 000.000.000.000.000.000.000.000.000.000.000.000.000. Asta e aproape! De fapt, nu ați putut detecta statistic această eroare chiar cu un miliard de calculatoare, fiecare generând un miliard de numere în fiecare secundă, de la începutul universului.

Figura 34-8 Analizarea distribuției log-normale
pentru conformitate cu legea lui Benford.
Chiar o diferență mică în lățimea acestei distribuții, arătată prin A și B, poate modifica drastic respectarea legii.

Cu toate acestea, aceasta este o eroare finită și a provocat o frustrare proprie. Din nou, imaginați-vă că sunteți un cercetător care încearcă să înțeleagă legea lui Benford. Continuați scriind o ecuație care descrie când legea lui Benford va fi urmată și apoi o rezolvi. Răspunsul pe care îl găsești este ... Niciodată! Nu există nici o distribuție (excluzând cazul oscilator din fig. 34-6b) care urmează exact legea lui Benford. O ecuație nu vă oferă ceea ce este aproape, doar ceea ce este egal. Cu alte cuvinte, nu găsiți nici o înțelegere, doar mai mult mister.

În cele din urmă, distribuția log-normală este mai mult decât un exemplu, este un caz important în care Legea lui Benford intervine în Natură. Motivul pentru aceasta este unul dintre cele mai puternice forțe motrice din statistică, Teoria limitei centrale (CLT). Așa cum am discutat în capitolul 2, CLT descrie faptul că adăugarea multor numere aleatorii produce o distribuție normală. Aceasta explică distribuția normală atât de frecvent observată în știință și inginerie. Dar, dacă se multiplică un număr de numere aleatorii, rezultatul ar fi o distribuție normală pe scală logaritmică. În consecință, distribuția log-normală se găsește, de asemenea, în mod obișnuit în Natură. Acesta este probabil cel mai important motiv pentru care se constată că unele distribuții respectă legea lui Benford, în timp ce altele nu. Distribuțiile normale nu sunt suficient de largi pentru a respecta legea. Pe de altă parte, distribuțiile log-normale largi o urmează foarte mult.

Doriți să generați numere care respectă legea lui Benford pentru propriile dvs. experimente? Puteți profita de CLT. Majoritatea limbajelor de computer au un generator de numere aleatoare care produce valori uniform distribuite între 0 și 1. Apelați această funcție de mai multe ori și multiplicați numerele. Se poate demonstra că PDF(1) = 0,344 pentru distribuția uniformă și, prin urmare, produsul acestor numere urmează legii lui Benford în conformitate cu OST(1) = 51,6% × 0,344α, unde α este numărul de numere aleatorii multiplicate. De exemplu, zece multiplicări produc un număr aleator care provine dintr-o distribuție log-normală cu o deviație standard de aproximativ 0,75. Aceasta corespunde la OST(1) = 0,0012%, o potrivire foarte bună cu legea lui Benford.

Dacă încercați câteva dintre aceste experimente, amintiți-vă că variația statistică (zgomotul) pe N evenimente aleatoare este de aproximativ SQRT(N). De exemplu, să presupunem că ați generat 1 milion de numere în calculatorul dvs. și numărați câte au 1 prima cifră. Dacă legea lui Benford este urmată, acest număr va fi de aproximativ 301.000. Dar, atunci când repetați experimentul de mai multe ori, veți găsi aceste modificări la întâmplare cu aproximativ 1.000 de numere, deoarece SQRT(1.000.000) = 1.000. Cu alte cuvinte, folosirea unui milion de numere vă permite să concluzionați că procentul de numere cu unul ca cifră principală este de aproximativ 30,1% +/- 0,1%. Ca un alt exemplu, ripplul din figura 34-3a este rezultatul utilizării a 14.414 de eșantioane. Pentru o măsurare mai precisă aveți nevoie de mai multe numere și crește foarte repede. De exemplu, pentru a detecta eroarea de OST(1) = 0,0012% (exemplul de mai sus), veți avea nevoie de peste un miliard de numere.

Secțiunea următoare: Puterea procesării semnalelor