34.4 Scrierea Legii lui Benford ca o convoluție

Secțiunea anterioară descrie Ones Scaling Test (ost) în termenii statisticii, adică analiza numerelor reale. Sarcina noastră este, acum, să rescriem acest test în termeni de probabilitate, matematica care stă la baza guvernării modului în care sunt generate numerele.

Așa cum am discutat în Capitolul 2, descrierea matematică a unui proces care generează numere este numită funcția de densitate a probabilității sau pdf. În general, există două moduri în care poate fi cunoscută forma unei anumite pdf. În primul rând, putem înțelege procesul fizic care generează numerele. De exemplu, generatorul de numere aleatoare a unui computer se încadrează în această categorie. Știm ce este pdf, deoarece a fost proiectat special pentru a avea acest pdf de către programatorul care a dezvoltat rutina.

În al doilea rând, putem estima pdf examinând valorile generate. Numerele de retur a impozitului pe venit sunt un exemplu în acest sens. Se pare puțin probabil ca cineva să poată înțelege sau prezice matematic formatul pdf al acestor numere; procesele implicate sunt prea complicate. Dar, putem lua un grup mare din aceste numere și să formăm o histogramă a valorilor lor. Această histogramă ne dă o estimare a pdf de bază, dar nu este exactă datorită variațiilor statistice aleatorii. Deoarece numărul de eșantioane din histogramă devine mai mare și lățimea bin-ilor este micșorată, acuratețea estimării devine mai bună.(bin - interval)

Versiunea statistică a testului Ones Scaling analizează un grup de numere. Trecând în lumea probabilității, vom înlocui acest grup de numere cu funcția de densitate a probabilității. Pdf-ul pe care îl vom folosi ca exemplu este prezentat în figura 34-4a. Denumirea matematică pe care o vom da acestei curbe de exemplu este pdf(g). Dar, aici există un truc important; reprezentăm această funcție de densitate de probabilitate de-a lungul liniei numerelor logaritm în bază-zece, mai degrabă decât linia de numere liniare convenționale. Poziția de-a lungul axei logaritmice va fi notată cu variabila g. De exemplu, g = -2 corespunde unei valori de 0,01 pe scara liniară, deoarece log(0,01) = -2. De asemenea, g = 0 corespunde cu 1, g = 1 corespunde cu 10 și așa mai departe.

Multe grafice de știință și inginerie sunt prezentate cu o axă x logaritmică, deci probabil acest lucru nu este un concept nou pentru dvs. Dar, apare o problemă specială atunci când convertiți o funcție de densitate de probabilitate de la linia de numere liniare la cea logaritmică. Modul obișnuit de a se deplasa între aceste domenii este o simplă trecere pe hartă punct-cu-punct. Adică, oricare valoare este la 0,01 pe scala liniară devine valoarea la -2 pe scala log; oricare valoarea este la 10 pe scara liniară devine valoarea la 1 pe scala log, și așa mai departe. Totuși, pdf are o proprietate specială care trebuie luată în considerare. De exemplu, să presupunem că știm forma unei pdf și doriți să determinăm cât de multe dintre numerele pe care le generează sunt mai mari de 3, dar mai mici de 4. Din probabilitatea de bază, această fracțiune este egală cu aria de sub curbă între valorile lui 3 și 4. Acum, uită-te la ceea ce se întâmplă într-o mapare punct-cu-punct. Locațiile de la 3 și 4 pe scala liniară devin log(3) = 0,477 și log(4) = 0,602, respectiv, pe scala log. Adică distanța dintre cele două puncte este de 1,00 pe scara liniară, dar numai 0,125 pe linia de număr logaritmic. Aceasta schimbă aria de sub curbă între cele două puncte, care pur și simplu nu este acceptabilă pentru o pdf.

Din fericire, acest lucru este destul de simplu de corectat. Mai întâi, transferați pdf din scala liniară la scala log utilizând o mapare punct-cu-punct. În al doilea rând, multiplicați această curbă mapată cu următoarea funcție exponențială pentru a corecta problema ariei:

Ecuația 34-1

Corecția necesară când se convertește o pdf de la liniar la linia de numere logaritmice în baza zece.

Există și un alt mod de a examina această problemă. O histogramă este creată pentru un grup de numere prin ruperea liniei de numere liniară în bini cu distanțe egale. Dar cum ar fi această histogramă creată pe scală logaritmică? Există două opțiuni. Mai întâi, puteți calcula histograma pe scala liniară și apoi transferați valoarea bin-ilor pe scala log. Dar, intervalele la fel distanțate pe scala liniară devin inegal distanțate pe scala log, iar Eq. 34-1 va fi necesară ca o corecție. În al doilea rând, ați putea să rupeți linia de numere logaritmice în intervale distanțate egal și să umpleți direct aceste intervale cu date. Această procedură evaluează cu acuratețe pdf pe scala log fără nici o corecție suplimentară.

Acum, înapoi la Fig. 34-4a. Exemplul arătat este o curbă Gaussiană (normală) cu o medie de -0,25 și o abatere standard de 0,25, măsurată pe linia numerelor logaritmice de bază zece. Deoarece este o distribuție normală care este afișată pe scala logaritmică, îi este dat numele special: log-normal. Când acest pdf este afișat pe scală liniară, acesta pare complet diferit, după cum vom vedea în scurt timp. Aproximativ 95% din numerele generate dintr-o distribuție normală se situează în +/- 2 deviații standard față de medie, sau în acest exemplu, de la -0,75 la 0,250, pe scala log. Convertind înapoi la scala liniară, acest proces aleatoriu special va genera 95% din eșantioanele sale între 10-0,75 și 100,25, adică între 0,178 și 1,778.

Important este că acesta este un singur proces care generează numere, dar putem să ne uităm la numerele respective fie pe scala liniară, fie pe cea logaritmică. De exemplu, pe scala liniară, numerele ar putea arăta astfel: 1,2034, 0,3456, 0,9643, 1,8567 și așa mai departe. Pe scala log, aceleași numere ar fi log(1,2034) = 0,0804, -0,4614, -0,0158, 0,2687, respectiv. Când ne întrebăm dacă această distribuție urmează legea lui Benford, ne referim la numerele de pe scala liniară. Adică, ne uităm la primele cifrele ale numerelor 1,2034, 0,3456, 0,9643, 1,8567, etc. Dar, pentru a înțelege de ce legea lui Benford este urmată sau nu, vom considera că este necesar să lucrăm cu omologii lor logaritmici.

Următorul pas este de a determina ce fracțiune din eșantioanele produse de acest pdf au 1 ca primă cifră. Pe linia numerelor liniare există numai anumite regiuni în care se produce o primă cifră de 1, cum ar fi: 0,1 până la 0,199999; 1 până la 1,99999; 10 până la 19,9999; si asa mai departe. Locațiile corespunzătoare scalei log de bază zece sunt: ​​-1,000 până la -0,699; 0,000 până la 0,301; și de la 1,000 la 1,301, respectiv. În figura 34-4b aceste regiuni au fost marcate cu o valoare de unu, în timp ce toate celelalte secțiuni ale liniei de număr logaritmic au o valoare zero. Aceasta permite ca forma de undă din figura (b) să fie folosită ca o funcție de eșantionare și, prin urmare, o vom numi sf(g). Iată cum funcționează. Înmulțiți pdf(g) cu sf(g) și afișați rezultatul în figura (c). Așa cum este arătat, acest lucru izolează acele secțiuni ale pdf unde 1 este prima cifră. Apoi găsim suprafața totală a acestor regiuni prin integrarea de la minus infinit la plus infinit. Acum puteți vedea un motiv pentru care această analiză este efectuată pe linia numerelor logaritmice: funcția de eșantionare este un model periodic simplu de impulsuri. În comparație, gândiți-vă cum ar apărea această funcție de eșantionare pe scala liniară - mult prea complicată pentru a lua în considerare.

Procedura de mai sus este exprimată prin ecuația din (d), care calculează fracțiunea de numere produsă de distribuție cu 1 ca primă cifră. Totuși, ca și înainte, chiar dacă acest număr este exact de 0,301, nu ar fi o dovadă concludentă că pdf urmează legea lui Benford. Pentru a arăta acest lucru, trebuie să efectuăm testul Ones Scaling. Adică, vom ajusta pdf(g) astfel încât numerele pe care le produce se înmulțesc cu o constantă care este puțin peste unitate. Apoi, recalculăm fracțiunea de unități din prima cifră și repetați procesul de mai multe ori.

Aici găsim un al doilea motiv pentru a folosi scala logaritmică: multiplicarea pe linia numerelor liniare devine adunare în domeniul logaritmic. Pe scala liniară se calculează: n x 1,01, în timp ce la scala logaritmică devine: log(n) + log(1,01). Cu alte cuvinte, pe linia numerelor logaritmice scalăm distribuția prin adăugarea unei mici constante la fiecare număr care este produs. Acest lucru are efectul de a deplasa întreaga curbă pdf(g) la dreapta o distanță mică, pe care o reprezentăm prin variabila s. Aceasta este prezentată în figura (f). Din punct de vedere matematic, deplasarea semnalului pdf(g) spre dreapta o distanță s, este scrisă pdf(g-s).

Funcția de eșantionare din figura (g) este aceeași ca mai înainte; dar, acum izolează o altă secțiune a pdf, arătată în (h). Integrarea continuă, de asemenea, ca și mai înainte, cu adăugarea deplasării s, reprezentată în ecuație. Pe scurt, am derivat o ecuație care oferă probabilitatea ca un număr produs de pdf(g) să aibă 1 în poziția primă, pentru orice factor de scalare s. Ca și înainte, vom numi acest test Ones Scaling și îl vom desemna prin ost(s). Această ecuație este dată în (i) și retipărită mai jos:

Ecuația 34-2

Calcularea testului de scalare cu unu din funcția densității de probabilitate, prin utilizarea unei funcții de scalare. Această ecuație apare de asemenea în fig. 34i.

Semnalul ost(s) nu este altceva decât o versiune continuă a graficelor prezentate în figura 34-3. Dacă pdf(g) urmează legea lui Benford, atunci ost(s) va fi aproximativ o valoare constantă de 0,301. Dacă ost(s) se abate de la această valoare-cheie, nu este urmată legea lui Benford. De exemplu, putem vedea cu ușurință din Fig. (E) că exemplul pdf din (a) nu respectă legea.

Figura 34-4 Exprimarea legii lui Benford ca o convoluție.

Figurile a-e arată cum pentru a calcula probabilitatea pe care un eșantion a produs prin pdf(g) va avea prima cifră 1. Figurile f-i extinde această calculație în testul complet de scalare cu unu. Acesta arată că testul de scalare cu unu, ost(g), este egal cu convoluția funcției de densitate, pdf(g), și funcția de scalare, sf(g).

Acești ultimii pași și Ec. 34-2 ar trebui să arate foarte familiar: schimbare, multiplicare, integrare. Aceasta este convoluția! Comparând Ec. 34-2 cu definiția convoluției (Ec.13-1 din capitolul 13), am reușit să exprimăm legea lui Benford drept un sistem liniar simplu:

Ecuația 34-3

Legea lui Benford scrisă ca o convoluție.
Semnul minus din pdf(-g) este un artefact de cum este derivată ecuația și nu este important.

Există două mici aspecte care trebuie menționate în această ecuație. În primul rând, semnul negativ în pdf (-g). După cum vă amintiți, convoluția necesită ca unul dintre cele două semnale originale să fie rotit stânga-sau-dreapta înainte de operațiile de schimbare, înmulțire, integrare. Aceasta este necesară pentru ca convoluția să reprezinte în mod corespunzător teoria sistemelor liniare. Pe de altă parte, această rotire nu este necesară în examinarea legii lui Benford; este doar o pacoste. Cu toate acestea, trebuie să ținem cont de ea într-un fel. În Ec. 34-3 ținem cont prin pre-rotirea pdf(g) făcând-o pdf (-g). Această pre-rotire anulează rotirea inerentă în convoluție, păstrând matematica simplă. Totuși, întreaga problemă a folosirii pdf(-g) în loc de pdf(g) nu este importantă pentru legea lui Benford; dispare complet în pasul următor.

Al doilea mic aspect este o notație de procesare a semnalului, eliminarea variabilei s. În figura 3-4 vom scrie pdf(g) și sf(g), ceea ce înseamnă că aceste două semnale au linia numerelor logaritmice ca variabilă independentă g. Totuși, testul Ones Scaling este scris ost(s), unde s este o deplasare de-a lungul liniei de numere logaritmice. Această diferențiere între g și s este necesară în derivare pentru a înțelege modul în care sunt legate cele trei semnale. Cu toate acestea, când ajungem la notația prescurtată a Ec. 34-3, vom elimina s prin schimbarea ost(s) la ost(g). Acest lucru plasează cele trei semnale pdf(g), sf(g) și ost(g) toate pe picior egal, fiecare rulând de-a lungul liniei numerelor logaritmice.

Secțiunea următoare: Rezolvarea în domeniul frecvență