34.8 Mai multe despre respectarea legii lui Benford

Acest ultim rezultat este foarte surprinzător; misterul legii lui Benford se dovedește a fi nimic mai mult decât lățimea de distribuție. Figura 34-7 demonstrează acest lucru folosind exemplele noastre anterioare. Cifrele (a) și (c) sunt histograme ale declarației privind impozitul pe venit, respectiv numerele RNG, pe scala logaritmică. Figura (b) și (d) sunt transformatele lor Fourier. Teorema de conformitate a legii Benford ne spune că (b) va urma legea lui Benford foarte îndeaproape, în timp ce (d) o va urma foarte slab. Adică, PDF(f) scade la aproape zero înainte de f = 1 pentru numerele de impozit pe venit, dar nu pentru numerele RNG. Următorul pas al acestui lucru este mai puțin riguros, dar totuși perfect clar. Figura (b) scade rapid la zero deoarece (a) este largă. De asemenea, (d) scade la zero mai lent, deoarece (c) este îngust.

Acest lucru ne spune, de asemenea, ceva despre trucul magic. Dacă distribuția este lărgită în comparație cu distanța unitară pe axa log, înseamnă că răspândirea în setul de numere examinate este mult mai mare decât zece. De exemplu, uitați-vă înapoi la numerele de impozit pe venit prezentate în figura 34-2a. Cele mai mari numere din acest set sunt de aproximativ un milion de ori mai mari decât cele mai mici. Această răspândire extinsă este o parte esențială a ștanțării modelului logaritmic în date. Asta înseamnă că 543.923.100 trebuie împărțit cu 100.000.000 pentru a-l plasa între 1 și 9.99999, în timp ce 1.221 trebuie doar să fie împărțit la 1.000. Cu alte cuvinte, numere diferite sunt tratate diferit, toate conform unui model anti-logaritmic.

Acum, uitați-vă la numerele RNG din figura 34-2, un grup care nu respectă legea lui Benford. Cele mai mari numere din acest set sunt de aproximativ patru ori cele mai mici numere (măsurate de la -σ la + σ). Adică, ele sunt grupate relativ strâns împreună în valoare. Când extragem prima cifră de la aceste numere, cele mai multe dintre ele sunt tratate exact la fel. De exemplu, ambele 7,844026 și 1,230605 sunt împărțite la 1 pentru a le plasa între 1 și 9,999999. De asemenea, numerele grupate în jur de 5.000 vor fi împărțite cu 1.000 pentru a extrage prima cifră. Deoarece marea majoritate a numerelor sunt tratate la fel, sau aproape la fel, denaturarea datelor este relativ slabă. Adică, modelul logaritmic nu poate fi introdus în date și trucul magic nu reușește.

Cum se comportă legea lui Benford în alte baze? Să presupunem că repetați derivarea anterioară în baza 4 în locul bazei 10. Se folosește linia de număr logaritmic de bază 4 și se menține teorema de conformitate a legii Benford. Diferența se produce atunci când comparați lățimea distribuției noastre de testare cu o unitate de distanță pe scara logaritmică. O unitate de distanță în baza 4 este doar log10(4) = 0,602 lungimea unei unități în baza 10, ceea ce face mai ușor distribuția să respecte legea lui Benford. Din punct de vedere al trucului magic, răspândirea numerelor examinate trebuie să fie numai mult mai mare decât patru, mai degrabă decât zece. În cazul comun unde PDF(f) scade ușor, legea lui Benford va fi întotdeauna urmată mai bine atunci când a fost convertită într-o bază inferioară, și mai rău dacă se va transforma într-o bază mai înaltă. De exemplu, numerele de impozit pe venit nu vor urma legea lui Benford dacă vor fi convertite la o bază de 10.000 sau mai mult (făcând distanța unității pe scala log de patru ori mai mare). De asemenea, numărul RND va urma legea lui Benford dacă va fi convertit la baza 2 (scurtarea distanței unitare la log10(2) = 0,301).

Notă pentru cititorii avansați: Este posibil să fi observat o problemă cu această ultimă declarație, adică: toate numerele din baza 2 au o primă cifră de 1. Cu toate acestea, o definiție mai sofisticată a legii lui Benford poate fi utilizată pentru a elimina problemele de acest gen. Prima cifră a unui număr poate fi găsită prin multiplicarea/împărțirea repetată a numărului cu zece până când acesta este cuprins între 1 și 9,99999 și apoi luarea părții întregi. Metoda avansată se oprește după primul pas și se uită direct la pdf a numerelor care rulează între 1 și 9,99999. Vom numi acestea numere modificate. Dacă legea Benford este urmată, a(n) = k/n, unde a(n) este funcția densității de probabilitate a numerelor modificate pe scala liniară și k este o constantă care asigură aria unitate sub curba pdf. Dacă este necesar într-un anumit scop, putem găsi fracțiunea de numere care au prima cifră de 1 prin integrarea a(n) de la 1 la 2. Deoarece integrala lui k/n este logaritmul, dacă legea lui Benford este urmată de această fracțiune este dată de: log(2) - log(1) = 0,301. Adică, putem trece cu ușurință de la reprezentarea avansată la definiția mai simplă a primei cifre.

Figura 34-7 Două exemple pentru înțelegerea legii lui Benford.

O distribuție va urma legea lui Benford numai dacă PDF(f) cade la aproape de zero înainte de f = 1 (excluzând cazul oscilatoriu). În schimb, aceasta necesită ca pdf(g) să fie amplu comparat cu o unitate de distanță pe scala logaritmică. Aceasta explică de ca numerele impozitului pe venit urmează legea, în timp ce numerele RNG nu o fac.

Această formă "k/n" a legii lui Benford poate fi derivată și din metoda din figura 34-5. Fracțiunea numerelor modificate care sunt mai mari decât p, dar mai mici decât q se găsește prin integrarea a(n) între p și q. Mai mult, această fracție va rămâne o constantă în cadrul testului de scalare dacă legea lui Benford este de urmat. Totuși, această valoare este, de asemenea, egală cu valoarea medie a funcției de scalare corespunzătoare. Logica este aceeași pentru a arăta că valoarea medie a lui ost(g) este egală cu valoarea medie a lui sf(g) din "Rezolvarea misterului nr. 1". Acești doi factori devin părțile stânga și dreapta ale următoarei ecuații, respectiv:

Ecuația 34-5

Derivarea formei k/n a legii lui Benford.

Rezolvarea acestei ecuații conduce la legea lui Benford, adică a(n) = k/n.

Secțiunea următoare: Analiza distribuirii log-normale