Questa sezione è per chi si trova alle prime armi o semplicemente vuole approfondire o rinforzare i concetti di econometria, materia tanto bella quanto complessa, che si trova alla base delle lauree in "Economics".
Cercherò di essere il più esaustivo possibile, senza la presunzione di poter essere un sostituto di professori o manuali accademici.
Mi pongo più come un'utile integrazione e supporto per tale materia.
Il metodo dei minimi quadrati o OLS (Ordinary Least Squares) è un metodo che avrete sicuramente sentito se avete studiato "Econometria", qualche (s)fortunato forse addirittura in "Statistica Base".
Questa metodologia di calcolo si pone come obiettivo quello di minimizzare la distanza tra la nostra retta di regressione e le nostre osservazioni, ovvero, cerchiamo di minimizzare i residui.
La logica dietro questa la formula che vedete è la seguente:
1) prendo le differenze tra la y (variabile dipendente) e la combinazione lineare tra X e Beta, che rappresentano i residui;
2) siccome possono venire risultati positivi e negativi, può succedere che vi siano delle "compensazioni" e quindi per evitare ciò elevo al quadrato ogni singola differenza;
3) Successivamente faccio la sommatoria, così da prendere come riferimento ogni osservazione.
Successivamente imposto un sistema di di equazioni.
Il numero di equazioni dipende dal numero di Beta che ho interesse a stimare, se ad esempio stimo un modello semplice, con un'intercetta ed un coefficiente angolare, allora avrò un sistema a due equazioni, che tramite sostituzioni mi darà le formule che vedete nell'immagine di riferimento.
Ovviamente più parametri avrete da studiare, più sostituzioni dovrete fare.
I software in questo senso ci aiutano, perché ci abbreviano di molto il lavoro da effettuare.
Solo se siete abbastanza masochisti, vi invito a stimare un modello con tre Beta, vedrete che usciranno fuori non poche pagine di calcoli (semplici ma lunghissimi).
Tra le immagini potete vedere anche le soluzioni in termini matriciali, che anche se di primo impatto possono far paura, vi assicuro che con l'abitudine diventano semplici da leggere.
NOTA IMPORTANTE: Invece delle parentesi troverete il "valore assoluto", non cambia niente in termini matematici.
Le variabili dummy sono variabili dicotomiche e mutualmente esclusive, molto usate nei modelli econometrici, perché consentono di inserire nel modello dati qualitativi, come per esempio il sesso, livello di istruzione e molto altro.
La prima cosa da ricordarsi, quando si utilizzano questi tipi di variabili è di escludere una "sotto-catetegoria" di tali variabili, così da non cadere nella trappola delle dummy.
Facciamo un esempio, immaginiamo di avere una variabile dipendente Y (reddito in €) e che, volendo descrivere il fenomeno del "gender gap" mettiamo tra le nostre variabili indipendenti il "sesso" delle nostre osservazioni, nella realtà dei fatti se si volesse fare un modello di questo tipo servirebbero molte più variabili e riflessioni di fondo, ma qui stiamo facendo un esempio "estremo" necessario ai fini della semplificazione e comprensione che ci proponiamo.
Il modello teorico si presenta così:
Y = Costante+ Coefficiente*Uomo +Coefficiente*Donna + Termine di errore
MODELLO ERRATO
Questo è quello che viene in mente a TUTTI gli studenti che approcciano alle dummy, anch'io da ex studente ho commesso questo errore concettuale.
Il modello corretto, in termini concettuali è il seguente:
Y = Costante+ Coefficiente*Uomo + Termine di errore
(il coefficiente si legge rispetto alla sotto-categoria omessa, in questo caso "Donna", quindi in questo caso il reddito sarà più alto o più basso, a seconda del segno del coefficiente, rispetto a una donna)
Oppure
Y = Costante +Coefficiente*Donna + Termine di errore
(il coefficiente si legge rispetto alla sotto-categoria omessa, in questo caso "Uomo", quindi in questo caso il reddito sarà più alto o più basso, a seconda del segno del coefficiente, rispetto a un uomo)
MODELLI CORRETTI
Questo perché nel caso in cui includessimo tutti i coefficienti non potremmo fisicamente stimare i coefficienti del modello, in quanto verrebbe a mancare l'invertibilità della matrice delle osservazioni X.
Se non vi ricordate le formule dei coefficienti del modello di regressione lineare vi invito a dare un'occhiata al paragrafo che ne parla.
Vedrete che una parte del coefficiente presenta l'indice "-1", ovvero è composto da una matrice inversa, quindi per calcolarla abbiamo necessariamente bisogno di escludere una sotto-categoria della variabile dummy.
Scendendo più nel dettaglio possiamo dire che il modello errato non è stimabile perché c'è "perfetta collinearità", ovvero una dipendenza lineare tra i vettori che compongono la mia matrice X.
Guardate l'immagine della tabella che ho caricato e seguite il ragionamento che faccio.
La tabella che ho caricato è la rappresentazione della matrice delle variabili indipendenti del modello che ho proposto come esempio, e come è facilmente visibile, la somma dalle colonne "Uomo" e "Donna" mi genera la colonna rimanente, che rappresenta la costante del mio modello.
Quindi diciamo che c'è perfetta collinearità o dipendenza lineare, perché:
"Uomo" + "Donna" = "Costante"
Ciò come detto precedentemente rende impossibile la stima dei coefficienti e quindi del modello, quindi o "elimino" la variabile "Uomo" o "Donna", fermo restando che non vi è nessuna perdita di informazioni quando attuiamo questa strategia, infatti, nel caso del seguente modello:
Y = Costante+ Coefficiente*Uomo + Termine di errore
Quando "Uomo"=1, vorrà dire che allo stesso tempo, ovviamente, "Donna"=0
In questo piccolo spazio che mi sono ritagliato ringrazio quella povera anima che mi ha rispiegato la trappola delle dummy con somma pazienza e comprensione dopo una delle primissime lezioni di "Econometria" (primo vero esame quantitativo applicato del mio percorso universitario).
Grazie per la sopportazione Marta P. ;-)
Una delle cose più semplici, una volta che si è capito bene il concetto, è come leggere il p-value o valore p.
Prima di addentrarci in questo concetto ripassiamo velocemente come procediamo, in maniera "classica" e più lenta, su un esercizio sul un test di ipotesi.
Partiamo col riferirci ad un test unilaterale.
Scelgo quello unilaterale solo perché è più semplice da spiegare, ma le considerazioni sono identiche anche per quando ci riferiamo ad un test bilaterale!
Generalmente si fa così:
1) Vedo il valore di alpha, che negli esercizi è sempre 0,01, 0.05 o 0,10;
2) "Trovo" il valore limite, ovvero Z-alpha, valore a destra del quale rifiuto l'ipotesi nulla;
3) Calcoliamo, con la formula di riferimento, la statistica standardizzata del valore che andiamo a testare
4) Utilizzando le "tavole", le tabelle con i valori di riferimento in base alla distribuzione che dobbiamo utilizzare;
5) Accettiamo o rifiutiamo l'ipotesi nulla in base a dove si posiziona il valore standardizzato rispetto al valore limite/soglia.
Come potete vedere, questo metodo non è complesso, anzi è molto semplice, però esiste un metodo ancora più semplice, ovvero confrontare l'alpha con il p-value.
Nella prima immagine abbiamo una rappresentazione della situazione iniziale che ci si pone in un classico test di ipotesi unilaterale, ovvero una zona di rifiuto, una zona di accettazione ed un valore Z-alpha.
Ora, prima di procedere agli ulteriori esempi, definiamo in maniera semplice e forse, da un certo punto di vista, poco formale, il P-value:
"Il p-value è l'area al di sotto della curva di riferimento che si trova a destra della mia osservazione"
L'osservazione alla quale facciamo riferimento è quella che nel precedente metodo era calcolata tramite standardizzazione.
Quindi, ricordando che il valore di Alpha indica un'area, confrontando queste due aree (p-value e alpha) posso dire se ricado nella zona di accettazione o rifiuto.
Esempio 1 (riferimento seconda immagine)
Domanda:
Ho un alpha = 0.05 ed un p-value = 0,25, accetto o rifiuto l'ipotesi nulla?
Soluzione:
In questo caso, l'osservazione lascia alla sua destra un'area pari a 0,25, mentre il valore limite/soglia lascia, sempre alla sua destra un'area di 0.05, quindi l'osservazione si trova a sinistra del valore soglia, ovvero nella zona di accettazione, quindi l'ipotesi nulla viene accettata.
Esempio 2 (riferimento terza immagine)
Domanda: Ho un alpha = 0.05 ed un p-value = 0,001, accetto o rifiuto l'ipotesi nulla?
Soluzione:
In questo caso, l'osservazione lascia alla sua destra un'area pari a 0,001, mentre il valore limite/soglia lascia, sempre alla sua destra un'area di 0.05, quindi l'osservazione si trova a destra del valore soglia, ovvero nella zona di rifiuto, quindi l'ipotesi nulla viene rifiutata.
Ci tengo a sottolineare che la definizione che ho dato è poco formale, quindi cercate valutate quale definizione dire al vostro professore/professoressa.
A me interessa che passi il concetto, che capiate, per questo ho dato una definizione di questo tipo, perché voglio far comprendere cos'è questo strumento e quanto sia utile e quanto sia semplice da utilizzare, per quanto le definizione più formale siano poco comprensibili, alcune volte, a chi si approccia per la prima volta ad una materia come statistica o simili.
Sono sicuro, che dopo aver eseguito i primi modelli lineari semplici e multipli, sarete "incappati" nei modelli log-lineari, i cui coefficienti sono più complicati da leggere della scrittura cuineiforme degli antichi Sumeri!
Prima di passare alla lettura dei coefficienti poniamoci una domanda tanto semplice quanto importante:
"Perché dovrei usare una funzione come quella logaritmica?"
La risposta sta nel fatto che i fenomeni empirici che dobbiamo descrivere o "mappare" non sempre possono essere facilmente descritti da una funzione lineare semplice!
Ora starete pensando che questa risposta sia molto complicata e poco trasparente, effettivamente è abbastanza formale, ma vediamo di renderla ancora più semplice con un esempio, di cui vi riporto l'immagine.
Il consumo risponde al reddito in maniera positiva, ovvero, all'aumentare del reddito aumenta anche il consumo effettuato quindi, come riportato in figura, la relazione tra le due variabili è positiva, anche se come potete ben vedere c'è qualcosa di strano...
La relazione non è lineare, ovvero non c'è una retta sul grafico, ma qualcosa di curvilineo.
Ragioniamo sul perché di ciò!
Alcuni relazione empiriche sono caratterizzate da rendimenti decrescenti, ovvero la relazione è sempre crescente, ma mano a mano che una variabile cresce, in questo caso il reddito, l'altra variabile, in questo caso il consumo, cresce sempre di meno.
Capiamo bene che se la risposta non è "costante", ovvero non abbiamo rendimenti di scala costanti, non ha senso utilizzare un modello lineare semplice o multiplo, dobbiamo, per forza di cose, ragionare sul problema in un'altra maniera!
In questo caso ci viene in soccorso una funzione matematica:
Il logaritmo!
Questa funzione ha le proprietà che cerchiamo, ovvero cresce molto lentamente, quindi la sua pendenza diminuisce all'aumentare della variabile indipendente, senza però diventare mai negativa, altrimenti avremmo problemi riguardanti la monotonicità della funzione.
Ora andiamo a vedere la classificazione dei modelli logaritmici:
log-lin (logaritmico-lineare);
lin-log (lineare-logaritmico);
log-log (logaritmico-logaritmico).
1)Modello logaritmico-lineare.
Questo modello si presenta come segue:
log(Y) = Costante + Beta*X + Errore
Il Beta si legge nella seguente maniera:
"Una variazione unitaria della variabile X fa variare la mia Y di 100*Beta%, in media"
Esempio
log(Y) = Costante + 0,05*X + Errore
"Una variazione unitaria della variabile X fa variare la mia Y del 5% (100*0,05%), in media"
2) Modello lineare-logaritmico.
Questo modello si presenta nella seguente maniera:
Y = Costante + Beta*log(X) + Errore
Il Beta si legge nella seguente maniera:
"Una variazione della variabile X pari all'1% causa una variazione della variabile Y pari a Beta/100, in media"
Esempio
Y = Costante + 10*log(X) + Errore
"Una variazione della variabile X pari all'1% causa una variazione della variabile Y pari a 0,1 (10/100), in media"
3) Modello logaritmico-logaritmico.
Questa tipologia di modello si presenta come segue:
log(Y) = Costante + Beta*log(X) + Errore
In questo caso il Beta rappresenta l'elasticità, quindi lo leggeremo come segue:
"Una variazione di X pari all'1% determina una variazione, in media, di Y pari a Beta%"
Esempio
log(Y) = Costante +0,25*log(X) + Errore
"Una variazione di X pari all'1% determina una variazione, in media, di Y pari a 0,25%"
Nota importante
Quando scrivo "log" intendo il logaritmo naturale, ovvero quello che ha per base il numero di Nepero (2,71...) NON quello in base 10
La funzione di massima verosimiglianza non è altro che una funzione dipendente dai nostri dati, ovvero da un campione estratto da una determinata popolazione e da un parametro, che generalmente, ma non necessariamente, viene chiamato ϑ.
Prima di andare a vedere e a capire in cosa consiste tale metodo, vale la pena vedere come "nasce" una funzione di massima verosimiglianza.
Partendo dal corso di "Statistica Base" (sì ragazzi, ci tocca) possiamo notare che la probabilità di A condizionato all'evento B non deriva altro che dal rapporto tra la probabilità congiunta degli eventi A e B e dalla probabilità dell'evento B.
Un'assunzione che viene fatta per il metodo della massima verosimiglianza, è che le osservazioni siano indipendenti tra di loro (ASSUNZIONE DI INDIPENDENZA) e che quindi:
P(A/B) = P(A)
E che quindi la probabilità congiunta (Quella che ha una "U" sottosopra tra A e B, come vedete nell'immagine), è uguale al prodotto tra le probabilità P(A) e P(B).
Quindi nel caso semplice che ci siamo posti avremo:
P(A∩B)= P(A)xP(B)
Questo ragionamento, portato avanti per una serie più o meno lunga di eventi (A, B, C, D, ...) porterà ad una produttoria di probabilità, che comunemente viene indicata con il simbolo π.
Ecco, la funzione di verosimiglianza è questa produttoria, con annesso un parametro incognito che dobbiamo stimare.
Più formalmente possiamo dire che la funzione di verosimiglianza è una funzione che dipende dalle osservazioni ottenute dal processo di campionamento e da un parametro sconosciuto ϑ.
In termini pratici dovete prendere la funzione di densità che vi viene fornita e moltiplicarla per sé stessa N volte, così da ottenere la vostra funzione di verosimiglianza.
Ora in teoria potreste fare la derivata prima e porla uguale a zero, così da trovare il valore di massimo (verificate le condizioni del secondo ordine), risolvendo l'esercizio che vi è stato dato, MA non conviene.
Infatti, ciò che usualmente viene fatto è fare una trasformazione monotona della funzione di verosimiglianza così da semplificare il tutto.
Cosa vuol dire ciò?
Semplicemente, utilizzo una funzione, sempre crescente in questo caso, che goda di particolari proprietà che mi consentano di semplificarmi i calcoli della derivazione della funzione di verosimiglianza.
Utilizzando una funzione monotona, non si altera la posizione del massimo della mia funzione, o meglio, rispetto all'asse x il valore rimane identico, mentre sull'asse y il valore cambia, restando però sempre un massimo, per via della monotonicità che caratterizza la funzione che utilizzo per la trasformazione.
Ma qual è questa funzione monotona?
La funzione che utilizziamo è il logaritmo in base e, ovvero il logaritmo naturale!
Questa funzione ha la proprietà di trasformare i prodotti in somme e, se vi ricordate le regole di derivazione saprete che è più facile derivare una somma piuttosto che un prodotto.
Questa semplicità, non è particolarmente apprezzabile se consideriamo un prodotto tra due funzioni, ma credetemi quando vi dico che per una produttoria di N fattori si apprezza davvero molto questa proprietà!
Una volta applicata la trasformazione logaritmica ed aver trasformato la produttoria in una sommatoria posso finalmente fare la derivata prima rispetto al parametro di riferimento e porla uguale a zero.
Risolta questa equazione troverete il valore che azzera la vostra derivata prima, ma l'esercizio non finisce qui!
Infatti, il valore che azzera una derivata prima può essere un valore di massimo (ciò che cerchiamo) o un valore di minimo (che non vogliamo), quindi per verificare ciò dobbiamo fare la derivata seconda.
Una volta verificato che la derivata seconda è SEMPRE negativa, quindi la funzione di partenza è concava (ovvero ha una forma di questo tipo ∩) allora possiamo dire di aver trovato il nostro valore di massima verosimiglianza e di aver concluso l'esercizio.
Rapido riassunto in fasi:
1)Faccio la produttoria della funzione di densità che mi viene presentata;
2) Faccio il logaritmo della verosimiglianza, ottenendo la log-verosimiglianza;
3)Faccio la derivata prima e la pongo uguale a zero;
4)Faccio la derivata seconda e verifico che sia sempre negativa.
Piccola nota:
Si assume anche che ogni le distribuzioni di densità siano identiche, così possiamo moltiplicare la stessa funzione di densità per sé stessa N volte.
Questa è una sottigliezza, probabilmente lo avrete intuito senza che ve lo dicessi, però per completezza mi sembra giusto dirvelo.
Sicuramente, quando avete iniziato il corso di "Statistica base" vi sarete chiesti a cosa serve il processo di standardizzazione, rimanendo un po' perplessi ad una prima spiegazione da parte del docente.
Oggi cerchiamo di semplificare il concetto per renderlo il più fruibile possibile!
Una variabile standardizzata non è altro che una variabile alla quale viene sottratta la media e che viene divisa per la deviazione standard.
Questa operazione viene effettuata per rendere comparabile la nostra variabile con altre, infatti la nostra "Z" è priva di unità di misura, in quanto questa si semplifica, dandoci come risultato un numero puro, che è perfettamente comparabile.
Prendiamo un esempio molto semplice e totalmente inventato!
Ipotizziamo di avere una retta di regressione come la seguente:
Reddito (€) = Interc. + Consumi (€) + Dimensioni casa (mq) + età (anni)
Il modello mi descrive una relazione di tipo lineare tra la variabile dipendente "Reddito" e le variabili indipendenti "consumi", "dimensioni della propria abitazione" e "età".
Tra le parentesi abbiamo l'unità di misura di ogni variabile e come notiamo vediamo che sono tutte e tre diverse (euro, metri-quadrati ed anni).
Ora, la standardizzazione ci è incredibilmente utile per capire se un coefficiente è significativamente diverso da zero, infatti, confrontiamo il valore della nostra statistica (standardizzata) con quella della curva di riferimento, di solito una normale (anche se non è detto).
Inoltre, questi tre valori, previa standardizzazione li ritroviamo sulla medesima curva quando effettuiamo il confronto rispetto al valore soglia, quindi, sono confrontabili tra di essi (vedendo l'immagine forse è più chiaro).
Lo sapevamo fin dal principio, perché in quanto privi di unità di misura, quei numeri che abbiamo calcolato non sono più "viziati" dall'ordine di grandezza delle unità di misura con le quali erano espresse.
Note:
μ è la media della popolazione;
σ è la deviazione standard della popolazione;
Il ragionamento è replicabile in maniera perfettamente identica anche per i campioni, che ricordiamo essere una parte della popolazione.
I modelli probit e logit sono dei modelli econometrici che permetto di trattare in maniera molto più accurata, rispetto ad un modello lineare, una variabile binaria.
Cos'è una variabile binaria?
Una variabile binaria non è altro che una variabile che può assumere solamente due valori, nel nostro caso 0 e 1.
Partiamo col dire che i due modelli fanno riferimento a due distribuzioni differenti!
Il probit utilizza una distribuzione normale standard, mentre per il logit utilizziamo una funzione logistica.
Queste due funzioni hanno il vantaggio di essere delimitate nell'intervallo [0,1], consentendoci quindi di trattare al meglio delle variabili binarie!
Infatti, i risultati che otterremo da un modello probit o logit che sia, sarà da leggere come una probabilità.
Di seguito vi presento un esempio inventato molto semplice:
Yi -> vale 1 se l'osservazione ha preso l'aereo nell'ultimo anno, 0 altrimenti;
Xi -> Reddito dell'osservazione di interesse
Yi= L(w) = L( Intercetta +0,22 x Xi)
Come vediamo, il modello lineare si trova all'interno della funzione L(w), che ripetiamo, non essere lineare, nonché essere confinata nell'intervallo [0,1].
Praticamente "correggiamo" il modello lineare dandolo in pasto alla funzione corretta, ovvero, la funzione logit o probit che sia.
Come leggiamo il coefficiente dell'esempio?
Ad una variazione unitaria del reddito la probabilità di prendere l'aereo nel corso dell'anno aumenta del 22%
SBAGLIATO!
Quando abbiamo il probit o logit il coefficiente non ci dà alcuna informazione in termini numerici rispetto la variazione della variabile dipendente.
Volendo approfondire però, possiamo dire che ci dà un'unica informazione per niente trascurabile, ovvero il segno dell'effetto finale sulla variabile dipendente.
Riprendendo l'esempio, possiamo dire con assoluta certezza che dall'equazione che abbiamo, l'effetto sulla probabilità di prendere almeno un aereo è positiva, ovvero all'aumentare del reddito aumenta anche la probabilità di prendere l'aereo.
Come facciamo a trovare un valore numerico dell'effetto di una variazione della variabile indipendente (reddito) sulla variabile dipendente?
Dobbiamo calcolare gli effetti marginali.
Quello che dobbiamo fare si sostanzia nel prendere due valori della variabile indipendente (reddito), sostituirli nella funzione di riferimento e prenderne le differenze, così da avere una stima della probabilità del passaggio da un valore di reddito ad un altro.
Quindi:
L(w1)-L(w2) = L( Intercetta +0,22 x 25'000€)-L( Intercetta +0,22 x 20'000€)
Ipotizzando che si risultato sia 0,15 , possiamo dire che chi ha un reddito di 25 mila euro lordi ha una probabilità più alta del 15% di prendere almeno un volo durante l'anno.
Potremmo anche fare il calcolo con valori diversi, ciò dipende da cosa vogliamo calcolare, cosa vogliamo mostrare agli altri.
So che alcune metodologie usate calcolano gli effetti marginali anche utilizzando il valore medio, quindi sostituiscono all'interno della derivata prima la media di quell'osservazione e ragionano in media. Ciò può aver senso quando abbiamo una variabile continua, ma se abbiamo una variabile dicotomica diventa problematico.
Ad esempio, se avessimo una variabile indipendente che indica l'etnia (Europeo, Africano, Asiatico, Americano) e una variabile dipendente identica a quella dell'esempio precedente, mi sapreste dire quanto fa (europeo + asiatico + africano + americano)/N?
Perderebbe di senso l'analisi statistica, in quanto, volendo, traducendo tutto in "uni" e zeri potremmo arrivare a dire che l'effetto medio corrisponde alla proporzione del gruppo al quale ci riferiamo, ma a che pro?
Conviene di più l'altro metodo, è più veloce e più intuitivo (opinione personale , non voglio screditare l'altra metodologia, semplicemente mi trovo meglio con l'altra).
Invece di fare tutti questi ragionamenti, non converrebbe fare un modello lineare semplice?
Anche, almeno intuitivamente un modello lineare è molto più veloce e semplice da implementare, è altrettanto vero che sarebbe incredibilmente sbagliato!
Infatti, non avendo un lower bound e un upper bound, comporta probabilità maggiori di uno e addirittura negative (cose assolutamente senza senso).
Inoltre, l'errore del modello risultante soffre di eteroschedasticità, portando quindi a dei test di ipotesi falsati, sbagliati.
Sapevate che esiste un'elevata correlazione tra il numero di film nei quali c'è Nicholas Cage come protagonista ed il numero di morti per annegamento nelle piscine?
Probabilmente no, ma la si può spiegare in maniera molto semplice parlando della differenza tra correlazione e causalità.
Infatti, la causalità implica che un fenomeno A causi un fenomeno B, e che quest'ultimo non sarebbe potuto accadere senza A.
La correlazione invece è leggermente più complessa, ovvero, il fenomeno A si muove in una direzione, e si nota che contemporaneamente il fenomeno B si muove in una determinata direzione.
Nel caso della correlazione quindi vediamo un movimento delle variabili, senza sapere se una causa l'altra.
La correlazione può avere diverse "direzioni":
Entrambe le variabili si muovono nella stessa direzione, se A aumenta B aumenta, se A diminuisce B diminuisce o viceversa;
Le variabili hanno direzione opposta, quindi se A aumenta B diminuisce o viceversa.
Nelle regressioni che vediamo nei corsi di econometria, si parla sempre di correlazioni, ovvero, la variabile X non causa Y, bensì si nota che al muoversi di X in una determinata direzione, la Y aumenta o diminuisce.
Una cosa più particolare, ed inerente al concetto di causalità, concerne le variabili strumentali, ma, al fine di non rendere l'articolo troppo lungo e dispersivo ve ne parlerò successivamente.
Sono abbastanza sicuro, che alla prima, massimo la seconda, lezione riguardante inferenza vi sarà stato spiegato e dimostrato il "principio di parsimonia", che spiega un concetto centrale in ogni modello econometrico che viene stimato.
Tale principio ci dice che dobbiamo prestare la massima attenzione (parsimonia), al numero di variabili che "inseriamo" all'interno del modello che viene scelto per l'analisi da effettuare.
Infatti, si presentano due estremi:
Inseriamo poche o pochissime variabili;
Inseriamo troppe variabili.
Il primo caso, genera una problematica non da poco conto, infatti i coefficienti del modello risulteranno distorti, ovvero il coefficiente del modello, quindi relativo al campione, non rispecchia quello della popolazione, mentre nel secondo il nostro modello soffrirà di una variabilità molto elevata, rendendolo poco utile a livello informativo.
Facciamo un esempio un po' estremo, che però rende perfettamente l'idea.
Voglio analizzare la relazione tra consumo e reddito, quindi eseguo la seguente regressione lineare:
MODELLO STIMATO
Consumo = Cost. + ß X Reddito
Il reddito è sicuramente, senza la minima ombra di dubbio, una variabile esplicativa nei confronti del consumo, ma siamo sicuri che sia l'unica?
Forse, servirebbe anche una variabile che indichi l'area di provenienza dell'individuo che consuma, in quanto potrebbe essere che anche se l'individuo ha un elevato reddito, l'area in cui si trova lo "costringe" a limitare il suo consumo (magari c'è una scarsità generale in un'area piuttosto che in un'altra).
Quindi, abbiamo la seguente situazione:
MODELLO STIMATO (relativo al campione)
Consumo = Cost. + ß X Reddito
MODELLO REALE o GIUSTO (relativo alla popolazione)
Consumo = Cost. + ß X Reddito + ß X Area geografica
Il primo modello è quello che noi stimiamo, mentre il secondo è quello "vero", cioè quello che comprende tutte le variabili che spiegano veramente il fenomeno in oggetto.
Cosa comporta questa mancanza da parte del modello stimato?
Comporterà una distorsione del nostro coefficiente, ovvero in termini leggermente più formali:
E(ß) = ß_stimato + BIAS
Quindi il valore atteso del mio coefficiente sarà pari al ß_stimato (che trovo all'interno della mia regressione) più un disturbo, che può essere positivo o negativo, e che quindi porta ad un ridimensionamento in eccesso o in difetto rispetto al ß "vero" riferito alla popolazione.
Esempio
Riprendendo gli esempi di prima scrivo:
MODELLO STIMATO (relativo al campione)
Consumo =0,5 + 2,7 X Reddito
MODELLO REALE o GIUSTO (relativo alla popolazione)
Consumo = 0,9 + 0,84 X Reddito + 1,19 X Area geografica
Come vedete, i due coefficienti relativi al reddito sono molto differenti, questo perché nel modello stimato con variabili omesse, la variabile "reddito" sta cercando di spiegare anche la parte di "competenza" della variabile "Area Geografica". Questo fatto genera la distorsione (Bias) di cui vi parlavo.
Cosa succede se invece metto tutte le variabili possibili ed immaginabili?
La cosa certa è che il modello stimato non soffrirà della distorsione causata dall'omissione di una variabile (si spera, ci manca solo che abbiamo messo 800 variabili ma manca una variabile esplicativa rilevante), il lato negativo è che se si inseriscono molte o troppe variabili allora il nostro modello soffrirà di un'elevata varianza, non troppo auspicabile come cosa.
Infatti, un'elevata variabilità è una cosa negativa, in quanto volendo descrivere un fenomeno, si vuole limitare al massimo la variabilità.
Ovviamente non si può eliminare del tutto, se ci riuscite, oltre a vincere il premio Nobel, vincerete anche il Super Enalotto, in quanto vuol dire che siete capaci di predire qualsiasi fenomeno senza alcun errore.
Qui ho volutamente esagerato, ma col fine di passarvi il concetto che un po' di variabilità dobbiamo accettarla, ricordando però che dobbiamo minimizzarla, altrimenti la capacità informativa del nostro modello diminuisce.
Ma perché se inserisco tante variabili la variabilità aumenta?
In teoria spiego meglio il fenomeno, senza contare che l'R-squared mi viene molto elevato, quindi perché non dovrei fare questa cosa?
Domanda più che ragionevole.
Piccola premessa per il ragionamento che sto per fare.
Avete presente quando fate una regressione semplice con un solo regressore?
La cosa che noi tutti vorremmo è che i puntini, che indicano le osservazioni, cadano il più possibile sulla retta e di solito, quando i punti sono molto concentrati su questa, il coefficiente viene significativo.
Ora dovete immaginare la stessa cosa, ma con più variabili.
Ricordiamo che ogni variabile che aggiungo, aumenta le dimensioni che tratto, quindi, per forza di cose, il mio ragionamento diventerà un po' più astratto, ma spero che venga compreso da tutti.
Aumentando le variabili, quindi anche le dimensioni, descriverò una figura sempre più complessa, ma il principio, ovvero che "spero" di trovare i punti concentrati, tali da definirmi una figura più o meno chiara, e quindi trovare una possibile relazione matematica tra di esse, permane.
Se non ho una figura chiara, oppure sembra di avere una concentrazione in una determinata area, ma molti punti, appaiono distribuirsi a caso un po' di qua e un po' di là, allora vuol dire che ho aggiunto variabili che mi aumentano la variabilità del modello.
Ogni variabile che aggiungo, mi aumenta la trattazione di una dimensione, ma se i punti non si "aggregano" allora vuol dire che tale osservazione mi sta aumentando la variabilità, senza contribuire alla spiegazione del fenomeno.
Immaginate di ripetere questa operazione con un'infinità di variabili, otterrete un modello che ha poco di predittivo.
Quindi il principio di parsimonia, semplificato al massimo afferma che dobbiamo trovare un giusto equilibrio per quanto riguarda il numero delle variabili che inseriamo in un modello, così da eliminare le distorsioni derivanti dall'omissione di una o più variabili o dall'inserimento di un numero elevato di queste, con conseguenti ricadute sulla varianza.
Il metodo che mi è stato suggerito da un professore in triennale è stato quello di stimare il modello con tutte le variabili che si hanno a disposizione e successivamente effettuare t-test, F-test, AIC, BIC e tutto ciò che può essere utile al fine di capire quali variabili ha senso tenere, in quanto spiegano effettivamente il fenomeno e quali no.
Note importanti:
ß--> è beta, il coefficiente di regressione;
Tutto ciò che ho spiegato ha una spiegazione matematica, che relazionandosi con il mondo delle matrici ho preferito non introdurre sul sito, in quanto complicherebbe la spiegazione (non tutti conoscono bene l'algebra matriciale) ed oltretutto è fruibile via web, sui manuali universitari e dai professori universitari.
Queste famosissime assunzioni che vengono presentate sempre assieme al modello di regressione lineare semplice stimato tramite il metodo dei minimi quadrati, sono molto importanti, in quanto se valgono il nostro stimatore è BLUE (Best Linear Unbiased Estimator).
Le assunzioni sono le seguenti:
Il valore atteso del termine di errore deve essere pari a zero, in altri termini, l'errore, in media è nullo;
E(Epsilon_i) = 0 per i=1, 2, ..., N
Il termine di errore e le variabili indipendenti devono essere indipendenti tra di loro, ovvero non devono sussistere correlazioni tra di esse. Perciò, se la x aumenta (diminuisce) ed il termine di errore si muove sistematicamente in una direzione (o in un'altra) allora dobbiamo cambiare strategia, in quanto questa assunzione non tiene;
{Epsilon_1, ..., Epsilon_N} e {x_1,...,x_N} sono indipendenti
La covarianza del termine di errore deve essere nulla, altrimenti vuol dire che avete scordato una o più variabili, o dovete "aggiustare" la forma funzionale del vostro modello;
Cov(Eps_i,Eps_j) = 0 i,j=0,1,2,...,N per i ≠j
La varianza del termine di errore deve essere costante, ovvero deve valere l'ipotesi di omoschedasticità del termine di errore;
Var(Epsilon_i) = Costante
Queste assunzioni sono molto forti, quindi non dobbiamo pensare che siano facilmente raggiungibili o che si presentino in maniera frequente nei dati che si vanno ad analizzare, anzi la normalità è vedere il mancato rispetto di queste.
Se le assunzioni non vengono rispettate, come succede di frequente, quello che dobbiamo fare è ragionare sul nostro obiettivo in relazione al problema che ci si presenta.
Ad esempio, nel caso in cui avessimo un problema legato all'eteroschedasticità (ovvero varianza non costante) quello che possiamo fare è calcolare degli standard error che tangano conto di ciò, oppure modificare la forma funzionale del nostro modello, o ancora, includere variabili che non abbiamo considerato nella nostra trattazione.
Vi è mai capitato di essere indecisi su due o più modelli da utilizzare nella descrizione di un particolare fenomeno?
Forse avrete avuto davanti ai vostri occhi due particolari specifiche nelle quali, nonostante la base del modello fosse diversa, vi vengono risultati plausibili, almeno secondo la teoria.
Un esempio di ciò potrebbe essere il fatto che i due modelli che abbiamo di fronte a noi hanno degli R-squared pressoché identici e coefficienti, per quanto diversi in valore numerico, concordi di segno.
In questo caso ha perfettamente senso essere perplessi, in quanto le due metodologie sembrano essere equivalenti in termini di risultati.
Purtroppo (o per fortuna) non è così!
Infatti, abbiamo diversi indicatori per poter capire qual è il modello migliore rispetto al quesito ed al fenomeno che abbiamo di fronte.
Tra i tanti che abbiamo a disposizione oggi ci concentriamo sull' AIC (Akaike's Information Criterion) ed il BIC (Schwarz Bayesian Information Criterion).
Come vediamo dalle formule nell'immagine, entrambi gli indicatori dipendono dal logaritmo della media quadratica dei residui del modello che ho stimato, ovvero quell'errore che compio quando effettuo la regressione di interesse.
Ricordate che i residui sono diversi dal concetto di errore!
Ciò che differisce tra le due formule e che le rende importanti ai nostri fini è il secondo termine, che per entrambi dipende da K (numero di regressori) e da N (numerosità campionaria) ma "entrano" in ciascuna formula, in maniera diversa.
Infatti, il secondo termine di penalizzazione dell'AIC è ponderato per "2", mentre per il BIC vale "logN".
In generale, quando si stima un modello econometrico si hanno molte osservazioni, quindi è logico che logN>2.
Per far capire meglio questo concetto, si veda il grafico generato su geogebra.org.
Generando le due funzioni, vediamo come già dal valore 8 la funzione logaritmica "sorpassa" Y=2, ciò vuol dire che bastano 8 osservazioni affinché il termine del BIC sia più elevato di quello dell'AIC.
Ciò vuol dire che a parità di K (regressori), N (numerosità campionaria) e somma dei residui, il BIC assume valori più elevati dell'AIC.
Prima di dire cosa comporta tale relazione, dobbiamo dire che più questi due indicatori assumono valori piccoli è meglio è, ovvero il modello è "buono".
Sapere che il BIC è più grande dell'AIC, a parità di variabili, vuol dire che il BIC è molto più penalizzante dell'AIC, ovvero, predilige modelli più parsimoniosi.
Piccola ma importantissima nota.
Ho scritto log, ma si intende ln.
Nella notazione italiana quando si scrive "log(.)" senza specificare la base si intende logaritmo in base dieci, però in notazione americana/internazionale questo indica ln ovvero logaritmo in base e (numero di Nepero 2,71...).
Il primo indicatore relativo alla bontà di adattamento di un qualsiasi modello che viene presentato a tutti noi è l'R_squared.
Come è facilmente visibile dall'immagine che vi ho caricato, le grandezze che entrano in gioco nella formula di questo indicatore sono:
RSS, la residual sum of squares, quindi la varianza di quanto il modello stimato non riesce a spiegare, ovvero la varianza dei residui;
TSS, la total sum of squares, ovvero la varianza totale del nostro modello, quindi ciò che spiega sommato a ciò che non spiega.
Il termine RSS/TSS non è altro che un rapporto di parte al tutto e ci dice quanta variabilità non viene spiegata dal modello stimato in termini relativi. Una volta calcolata questa quantità, se la sottraiamo al totale (1 o 100%, a seconda di come vogliamo esprimere il totale), otteniamo quanta variabilità viene spiegata dal nostro modello econometrico.
La formula dell'R_squared può essere riscritta come:
R_squared = Var(x)/Var(y)
Quindi la variabilità che viene spiegata dalle variabili esplicative del modello divisa la variabilità totale del modello.
Tale esplicitazione è facilmente ottenibile svolgendo la frazione, infatti otterremmo:
R_squared = (TSS - RSS) / TSS =
= VAR(X) / VAR(Y)
in quanto
TSS - RSS = VAR(X)
TSS = VAR(Y)
Quindi, attraverso questo indicatore è possibile comprendere quanto le variabili che vengono inserite all'interno del modello siano importanti, in quanto, se ottengo un R_squared pari a 0.05, è molto probabile che non stia considerando una o più variabili che spiegano in maniera importante il fenomeno che sto considerando.
Il grande difetto di questo indice è che più variabili vengono inserite e più è elevato. In poche parole, è possibile ottenere un "buon" modello inserendo moltissime variabili, anche "inutili", facendo così aumentare in maniera artificiale l'R_squared.
Se seguissimo questa strategia, non ci atterremmo al principio di parsimonia, ovvero inseriremmo molte variabili, che non spiegano il fenomeno, se non in minima parte, accettando di aumentare la variabilità complessiva del modello.
Ciò significa che spieghiamo molto poco e come se non bastasse aumentiamo la varianza, e quindi gli standard errors del modello.
Per tale motivo, solitamente, assieme all'R_squared, viene proposto anche l'adjusted R_squared, che si differenzia per un fattore di ponderazione che dipende dal numero di osservazioni presenti nel campione (n) e dal numero di variabiili esplicative presenti nel modello (k).
In particolare, se aggiungo variabili che spiegano pochissimo del fenomeno preso in considerazione, questo indicatore non aumenterà, bensì diminuirà, a differenza dell'R_squared, che sarebbe aumentato a prescindere.
Perché tale indicatore può diminuire?
Ragioniamo insieme!
Quando aggiungiamo una variabile esplicativa all'interno del modello al quale ci riferiamo, stiamo agendo su due componenti che fanno variare l'adjusted R_squared:
RSS;
(n-1) / (n-k-1).
RSS diminuisce ogni volta che aggiungo una variabile, sia che spieghi pochissimo che spieghi molto, mentre (n-1) / (n-k-1) aumenta. Questo succede perché, se aumento il numero di regressori, sto aumentando k, che si trova a denominatore, facendolo diminuire in valore e conseguentemente aumentando il valore della frazione.
In conclusione è possibile dire che l'adjusted R_squared non è altro che un "gioco di forze" che rende possibile identificare una variabile esplicativa che spieghi veramente il fenomeno, in quanto questa, farà aumentare il valore dell'indice di bontà di adattamento, mentre una variabile esplicativa che spiega poco o niente, lo farà senza dubbio diminuire.
I modelli afferenti le serie storiche sono quelli che cercano di predire l'andamento di una particolare variabile dipendente nel futuro, avendo a disposizione una serie di dati osservati nel tempo.
La prima cosa che dobbiamo dire è che, nel momento in ci accingiamo a stimare un modello afferente le serie storiche, è che più osservazioni abbiamo e meglio è.
Questo si traduce nell'avere in intervallo temporale il più ampio possibile, overo avere la variabile di interesse osservata ogni anno (o quadrimeste o trimestre, a seconda della rilevazione statistica).
Il modello più semplice delle serie storiche, di solito anche il primo che viene presentato agli studenti, è il modello autoregressivo del primo ordine, ovvero:
Variabile al tempo t = Variabile al tempo t-1 + costante+ errore
Questa specificazione implica una cosa molto ovvia, ovvero che ci sia una dipendenza tra passato e presente, o in termini equivalenti, tra presente e futuro.
Sembra tutto pronto per stimare il modello di interesse, ma in realtà dobbiamo fare una cosa molto importante:
Verificare la stazionarietà del modello
Ma cosa significa verificare la stazionarietà di un modello?
Guardiamo assieme le immagini per capire il concetto di stazionarietà!
Il primo grafico, quello con la linee tratteggiate e continue arancioni, ci mostra un andamento crescente della variabile y.
I valori che assume y sono indicati dalla linea continua, mentre quella tratteggiata indica un trend lineare.
Questo processo non è stazionario, perché ha un andamento, una tendenza, o più specificamente, un trend, in questo caso positivo.
Il secondo grafico invece, ci mostra un processo stazionario, in quanto i valori di y "orbitano" intorno alla media (in arancione). Inoltre, per completezza ho aggiunto il trend (indicato sempre con la linea tratteggiata) che, come è facilmente visibile, presenta una pendenza quasi pari a zero. Ci tengo a puntualizzare come tale pendenza probabilmente dipenda dal fatto che ho preso un intervallo di tempo molto breve di dati inventati.
Il terzo grafico, non è altro che una traslazione del secondo. In questo caso ho sottratto la media dalle osservazioni, centrando in zero il tutto.
La normalità, solitamente, è quella di non avere una serie storica stazionaria, quindi ciò che generalmente si fa è rendere la serie stazionaria, senza inficiare la qualità dei dati.
Questa operazione viene fatta prendendo le differenze prime della y, ovvero calcolando (y_t - y_t-1) e regredendolo.
Questo, solitamente basta per ottenere una serie stazionaria e fare inferenza.
Infine, voglio confessarvi una cosa molto importante sui grafici che ho creato... Ho utilizzato gli stessi dati per tutti e tre!
Il primo è la serie "pura", mentre il secondo e il terzo sono le le differenze prime, che mi "trasformano" la serie in stazionaria.
L'ultima cosa che voglio dire è che l'analisi esemplificativa che ho riportato in questo articolo è la stessa che viene fatta in sede di costruzione di un modello econometrico, anche se parziale. Infatti, se è vero che i grafici sono tra le prime cose che vengono visionate quando si trattano le serie storiche, è altrettanto vero che si utilizzano dei test statistici che vanno a vedere se il modello ha un trend o una radice unitaria.
Alcune note molto importanti:
La stazionarietà forte, richiede che la distribuzione di un processo aleatorio sia invariante rispetto a traslazioni avanti e indietro nel tempo. La stazionarietà forte è una proprietà molto restrittiva, raramente soddisfatta dalle serie storiche economiche o finanziarie. La stazionarietà debole richiede solamente l’invarianza dei primi due momenti della distribuzione delle variabili casuali che compongono il processo.
"radice unitaria", vuol dire che il coefficiente ha valore pari ad uno, ciò comporta una dinamica esplosiva del modello, che come il trend, rende impossibile stimare gli standard error (in quanto tendono ad infinito) e quindi a non avere delle statitistiche t attendibili.
Nel caso di un modello autoregressivo del primo ordine, si può verificare la stazionarietà del modello semplicemente vedendo se il coefficiente che premoltiplica la variabile indipendente è minore di uno, fermo restando che ci sono specifici test che danno una formalità superiore a questo metodo.
Se avete capito il ragionamento che c'è dietro un modello autoregressivo di primo ordine, allora capirete ancora più velocemente il modello a media mobile!
Nel modello a media mobile, o moving average (MA), la dipendenza temporale non risiede all'interno della variabile dipendente, bensì nel termine di errore.
Guardando l'equazione del modello possiamo descrivere le parti che lo compongono:
y_t è la variabile dipendente;
α è l’intercetta del modello, ma anche la media, assumendo ovviamente che l’errore abbia media pari a zero;
ε_t e ε_(t-1) rappresentano rispettivamente il termine di errore al tempo t e t-1;
ρ è il coefficiente angolare del termine di errore di ritardo pari ad uno.
La prima grande differenza (ed anche la più ovvia) tra il modello MA e AR (autoregressivo) è come viene "mappata" la dipendenza temporale del fenomeno in oggetto:
AR descrive una dipendenza temporale della variabile dipendente;
MA descrive una dipendenza temporale del termine di errore;
Una differenza meno ovvia, che però vi invito a guardare e a studiare con più attenzione è la persistenza o memoria temporale dei due modelli.
Il modello AR(1) ha generalmente una "memoria" maggiore rispetto ad un MA(1), anche se per capire il grado di persistenza di un modello autoregressivo dobbiamo necessariamente vedere il coefficiente del termine di lag=1, in quanto più grande sarà e più il processo avrà una memoria "forte".
Un modello MA(1) invece ha una memoria pari ad un periodo.
In generale, la memoria di un MA(q) arriva fino al suo ritardo q, non va oltre.
Un modo molto più sintetico e sicuramente più intuitivo per capire questa cosa consiste nell'andarsi a vedere in correlogramma dei due modelli, cosi da vedere come la correlazione temporale dell' AR(1) decada più dolcemente rispetto a quella di un MA(1).
Inoltre, questa evidenza è visibile, in termini più pratici e matematici, se sostituite in maniera iterativa la vostra lagged variable.
Una nota molto importante è che il valore atteso di un modello lineare stimato tramite OLS e quello di un modello a media mobile potrebbero sembrare, di primo impatto, ad un occhio poco esperto ed allenato, identici. Ciò porterebbe a dire, in maniera assolutamente errata, che stimare un modello lineare di tipo OLS oppure un MA(q) (modello a media mobile di ordine o ritardo q), è assolutamente identico.
Se ciò fosse vero ( e non lo è) non avrebbe avuto alcun senso creare un modello a media mobile.
In realtà, le stime dei coefficienti cambiano di molto!
Infatti, quando stimiamo un MA(q) stiamo implicitamente dicendo che nei dati c'è una dipendenza temporale, che, per assunzione, in un modello lineare di tipo OLS manca. Per tale motivo, i coefficienti saranno distorti, oltretutto, gli standard error saranno diversi, quindi anche le statistiche t, sempre per il medesimo motivo.
Il modello ARMA (autoregressive moving average model) è un modello di serie storiche che si pone l'obiettivo di andare oltre la semplice trattazione di un modello autoregressivo o a media mobile.
Come fa a "spiegare" meglio un fenomeno?
Semplice, utilizza in parte un modello AR(p) (autoregressivo di ordine p) ed in parte un MA(q) (autoregressivo di ordine q). Quindi questo modello, molto intuitivamente, prende i due modelli e li utilizza insieme, in quanto ognuno di questi è specializzato nel catturare un particolare tipo di dipendenza temporale tra i dati.
Non dobbiamo dimenticare che, poiché stiamo parlando sempre di serie storiche, dobbiamo verificare la presenza o meno di un trend e delle radici unitarie, altrimenti la nostra analisi rischia di essere inutile.
Quando si usa l'ARIMA?
Il modello ARIMA, si usa tutte le volte che dobbiamo effettuare almeno una differenza prima relativamente alla nostra variabile dipendente, infatti la "I" sta per "Integrated". L'integrazione, serve per rendere il modello stazionario dopo che dai test risulta impossibile rifiutare l'ipotesi nulla di "non stazionarietà"
Prima di concludere questo breve paragrafo, faccio alcune note più che doverose e secondo me utili:
Eliminate ogni possibile dubbio sugli AR e MA, perché se ne avete ve li ritroverete inevitabilmente in questo tipo di modello;
q e p, i lag o ritardi dei modelli AR e MA, non sono necessariamente identici;
Per quanto riguarda le differenze prime, dovete sapere che in teoria è possibile effettuare una differenza seconda, oppure terza, e così via, però nella pratica è molto difficile andare oltre la first difference.
La power analysis viene utilizzata per stimare il numero minimo di osservazioni necessarie affinché la nostra analisi abbia la giusta "potenza".
Ma cosa vuol dire?
Facciamo un passo indietro!
Quando iniziamo a "modellare" un fenomeno, è di centrale importanza che i test che facciamo, ad esempio per vedere se i coefficienti e quindi gli effetti di determinate variabili siano significativi, siano abbastanza "potenti".
Cos'è la potenza (di un test)?
La potenza dei un test è la sua probabilità di rifiutare l’ipotesi nulla quando l’ipotesi nulla è falsa.
Tradotto in termini brutali (che NON dovete mai dire all'esame ):
Più un test è potente e più le mie probabilità che il test ci stia "azzeccando" aumentano, quindi è buono.
La power analysis serve a "creare" un test abbastanza potente, ovvero stimo, attraverso un campione indicativo (chiamato pilot) il numero di osservazioni minime che servono per avere un test abbastanza potente.
Una volta ottenuto il pilot, calcolo la varianza campionaria, o la varianza pooled.
Infine dobbiamo decidere il valore dei parametri di riferimento:
Alpha, che rappresenta l'errore del primo tipo;
Beta, che rappresenta l'errore del secondo tipo;
Una volta fatto ciò, attraverso i software di riferimento, oppure a mano, è possibile calcolare il numero minimo di osservazioni necessarie per avere un test potente.
Se non posso raggiungere il numero di osservazioni che la power analysis mi indica cosa faccio?
La soluzione, che mi rendo conto essere poco soddisfacente, è ambire ad una potenza inferiore.
Quindi, se dal pilot emerge che mi servono 200 osservazioni ottenere una potenza pari all'80% e non posso raggiungerle, mi dovrò accontentare di una potenza inferiore, compatibile con il numero di osservazioni che posso ottenere.
Com'è possibile che non si possano raggiungere le osservazioni necessarie?
La risposta è molto semplice e riguarda i fondi disponibili per effettuare l'indagine. Infatti, le persone sottoposte alle domande dovranno essere pagate (non sempre, ma è la procedura standard) e se i fondi non sono sufficientemente capienti la numerosità campionaria ne risente e di conseguenza anche la potenza del test.
Note:
Ho caricato un immagine relativa al calcolo della numerosità campionaria minima per un t-test. In particolare, abbiamo le media della popolazione rispetto l'ipotesi nulla e quella alternativa e le "z" per i livelli alpha e beta scelti, assieme ad "s", la varianza campionaria.
Quella nell'immagine è una formula base, che si "complica" a mano a mano che rendiamo la situazione più complessa o realistica, come ad esempio testare se l'effetto di un trattamento su un gruppo è efficace o meno rispetto ad un gruppo di controllo (quest'ultimo per definizione, non trattato)
Questa categoria di modelli autoregressivi, oltre a "modellare" la variabile dipendente, Yt, trattano anche la varianza.
Partiamo col descrivere il modello ARCH!
ARCH sta per autoregressive conditional heteroskedastic, e come è facilmente comprensibile tenta di spiegare la variabilità assumendola non costante, quindi eteroschedastica.
Come è facilmente visibile dall'immagine che ho caricato, un modello ARCH(p) (modello autoregressivo condizionato eteroschedastico di ordine p) presenta una varianza che dipende dai valori ritardati, elevati al quadrato, della variabile dipendente scelta.
Il modello GARCH, generalized autoregressive conditional heteroskedastic, è una versione più complessa, o meglio, completa del modello precedente, infatti la varianza non dipende solo dai valori ritardati elevati al quadrato della variabile dipendente, ma anche da se stessa ritardata.
Perché dovrei preferirei questa complicazione ad un semplice AR o modelli simili?
Mi rendo conto che a primo impatto questi modelli non siano affatto "amichevoli" ma sono molto importanti per descrivere i fenomeni caratterizzati da elevata variabilità, come ad esempio i le azioni, quindi in generale i titoli finanziari.
La seconda immagine che vi propongo è un esempio totalmente inventato da me, dove si può notare come la varianza della variazione del valore del titolo non è costante, quindi, in termini più formali potremmo dire che non è omoschedastica.
Infatti, possiamo vedere come per i primi tre periodi la varianza assuma valori molto piccoli, per poi "esplodere" ed infine, dopo il ventesimo periodo assume di nuovo valori molto piccoli.
Ecco, l'ARCH o il GARCH servono proprio in relazione a questi fenomeni, in quanto un modello autoregressivo semplice avrebbe mappato il fenomeno assumendo una varianza non altalenante come quella che vi ho presentato.
Alcune proprietà di queste importanti grandezze statistiche semplificano i calcoli in alcuni esercizi che vengono proposti in determinati esami, per tale ragione vale la pena approfondire l'argomento e cercare un metodo per ricordarle.
Il valore atteso è un operatore lineare, per tale ragione, se la variabile casuale è moltiplicata per una costante, questa "slitta fuori" dall'operatore atteso, premoltiplicando lo stesso.
Se viene sommata o sottratta una costante?
Stessa identica cosa, questa andrà fuori dal valore atteso
E(aX+b)=aE(X)+b
Spiegazione intuitiva
Il valore atteso non è altro che una media, e questa viene influenzata sia quando le sue componenti vengono moltiplicate per una costante, che quando si somma o sottrae la stessa.
Per la varianza le cose cambiano, anche se leggermente.
Infatti, le costanti che moltiplicano le variabili casuali "escono" dall'operatore di varianza, ma devono essere elevate al quadrato, mentre le costanti "scompaiono".
Var(aX+b)= a^2 Var(X)
Spiegazione intuitiva
La variabilità viene influenzata se la variabile casuale viene moltiplicata per una costante, in altri casi no.
Infatti, sommando io sottraendo una costante, la variabilità non cambia, bensì traslo la variabile casuale, alterandone la media, ma non le "escursioni" rispetto ad essa.
Inoltre, il quadrato nasce dal fatto che la varianza è un operatore quadratico.
La covarianza si comporta un po' come il valore atteso ed un po' come la varianza, infatti la somma o sottrazione di costanti non la influenza, mentre se le variabili casuali sono premoltiplicate per una costante, questa "esce fuori" dall'operatore di covarianza.
Cov(aX+b,cY)=acCov(X,Y)
Spiegazione intuitiva
La covarianza non è un operatore quadratico, di conseguenza le costanti non subiscono una trasformazione del genere, mentre le costanti additive (sommate o sottratte) non influenzano le relazione tra le variabili casuali.
Infatti, se due variabili covariano alla stessa maniera, ovvero si muovono in una determinata direzione, che sia concorde o meno, tale relazione non risulterà inficiata dall'addizione o sottrazione di una costante.
Il valore atteso ha delle proprietà molto semplici, che delle volte, quando applicate fanno sì che ci si imbatta in degli interrogativi che fanno la differenza tra un esame andato bene ed una bocciatura.
Quanto fa E(1/Y)?
Partiamo col dire qual è la risposta sbagliata!
E(1/Y) non fa 1/E(Y)
Se date un'occhiata all'immagine che ho caricato assieme a questo articolo, potrete apprezzare come questi due grandezze siano molto diverse e quindi, come l'operazione più intuitiva, ovvero quella di spostare l'operatore di valore atteso (E) a denominatore sia concettualmente sbagliata.
Quindi quanto fa?
Beh, la risposta, per quanto possa sembrare una presa in giro è la seguente:
E(1/Y) = E(1/Y)
Questa informazione assume particolare importanza quando, all'interno di un esercizio vi compare una cosa del genere:
E(X/Y)
Ovvero il valore atteso del rapporto tra due variabili casuali.
La tentazione di scrivere:
E(X/Y)= E(X)/E(Y)
E' elevata, anche perché semplificherebbe tutti i calcoli, ma sarebbe sbagliata.
Ciò che possiamo scrivere è:
E(X/Y)= E(X)*E(1/Y)
Ovviamente ciò vale se le due variabili casuali sono indipendenti.
Quindi ricordate che il valore atteso non "si sposta" a denominatore, in quanto, in tale maniera state svolgendo un'operazione totalmente differente da quella che vi siete posti come obiettivo.
Il tema dell'efficienza di uno stimatore è molto importante in statistica ed econometria, in quanto, a parità di determinate condizioni, ci permette di stabilire se uno stimatore è più o meno preferibile rispetto ad un altro.
Prendiamo in considerazione due stimatori;
Stimatore A;
Stimatore B;
Entrambi si occupano di stimare la media e sono corretti per questa, ovvero:
E(Media_campionaria) = Media della popolazione
Più in generale
E(Parametro_stimato) = Parametro della popolazione
Quindi abbiamo che, essendo entrambi gli stimatori corretti:
E(Media_camp_A) = E(Media_camp_B)=Media della popolazione
La domanda sorge spontanea:
Se entrambi gli stimatori sono corretti quale prendo tra i due?
RISPOSTA VELOCE E SBAGLIATA:
Se sono entrambi corretti ne prendo uno a caso, tanto in media "catturano" il valore medio relativo ala popolazione
RISPOSTA PIU' LUNGA E CORRETTA:
Entrambi gli stimatori sono corretti, quindi in media "catturano" la media della popolazione, però necessito di quello con varianza minore.
Domanda più che legittima:
Perché devo andare a controllare la varianza degli stimatori se entrambi sono corretti?
Il fatto è che anche se entrambi sono corretti, uno dei due, con elevata probabilità, graviterà attorno al valore del parametro della popolazione in maniera più prossima/vicina, rispetto all'altro.
L'esempio che vi porto (TOTALMENTE INVENTATO) vi mostra due stimatori (A e B per l'appunto), che hanno la stessa media (zero), ma varianza diversa.
In particolare, lo stimatore B mostra una varianza più elevata.
Guardando lo scatter plot, ovvero il primo grafico, notiamo come i valori di A, siano più prossimi/vicini a quelli relativi alla media, rispetto a B.
Quindi lo stimatore A è più preciso di B, oppure, detto in una maniera più elegante:
Lo stimatore A è più efficiente dello stimatore B.
Andando ancora più nello specifico dell'esempio, possiamo notare come, l'osservazione numero 1 (la prima a sinistra, si avvicini molto di più a quella dello stimatore B).
Si può dire lo stesso per quanto riguarda le osservazioni 3, 6 e 9.
Chi è più attento avrà notato come però lo stimatore B sia più vicino alla media rispetto allo stimatore A guardando le altre osservazioni.
Sì, lo stimatore B è più preciso per le altre osservazioni, però in media è più preciso lo stimatore A.
Per vedere la variabilità nel complesso dobbiamo fare riferimento alla varianza, che tiene conto di tutte le osservazioni, dandoci un valore riassuntivo del tutto.
Note:
Vi allego il file dell'esempio che ho inventato.
Uno stimatore è efficiente quando la media del parametro stimato è uguale al parametro della popolazione:
E(Parametro_stimato) = Parametro_popolazione
Ovvero
E(Theta_stimato) = Theta
Con E(.) che indica l'operatore "valore atteso".
Cosa vuol dire più nello specifico che uno stimatore è corretto?
Se uno stimatore è corretto, vuol dire che, in media, questo descrive il parametro della popolazione.
Attenzione, non vuol dire che qualsiasi valore che genera lo stimatore sia identico a quello della popolazione, in media ci "azzecca", ma singolarmente possiamo aspettarci valori differenti, magari anche di molto.
Alcune volte è difficile trovare uno stimatore che sia corretto, per tale ragione si fa riferimento da una caratteristica più "debole" della correttezza, ma comunque auspicabile, in assenza di questa:
La correttezza asintotica
Cos'è la correttezza asintotica?
La correttezza asintotica non è altro che quella proprietà che asserisce che un particolare stimatore è corretto solo per una numerosità campionaria molto elevata.
Perché è una proprietà più debole della correttezza?
E' una proprietà più debole perché nel caso ci trovassimo ad avere un campione poco numeroso (per un motivo o per un altro) avremmo uno stimatore non corretto e quindi che in media non descrive il parametro della popolazione.
In particolare uno stimatore corretto asintoticamente avrà la seguente forma:
T(x, Theta)= f(x) + a/n
T(x, Theta) rappresenta lo stimatore;
f(x, Theta) una funzione dipendente dalla variabile casuale x e dal parametro Theta;
a è una costante;
n è la numerosità campionaria.
Effettuando il valore atteso ottengo:
E[T(x, Theta)]= Theta + E[a/n]
Dall'applicazione del valore atteso ottengo il valore del parametro relativo alla popolazione più "qualcosa" che possiamo chiamare bias o distorsione.
Ora, per come ho strutturato lo stimatore, all'aumentare di n (numero di osservazioni), ottengo una diminuzione del rapporto a/n (ricordo che a è una costante).
Quindi, all'aumentare di n ottengo un valore atteso di un qualcosa che tende a zero (E[a/n] --> 0), quindi posso affermare che se prendo una numerosità campionaria abbastanza ampia, quel bias tenderà a zero e quindi potrò dire che lo stimatore è asintoticamente corretto.
Ci tengo a precisare che lo stimatore che ho proposto è inventato e serve semplicemente a mostra in termini molto generali e semplici le caratteristiche di uno stimatore asintoticamente corretto.
Uno stimatore si dice consistente quando all'aumentare della numerosità campionaria (n) la sua distribuzione di probabilità si concentra attorno al parametro da stimare (ovvero quello relativo alla popolazione).
Cerchiamo di tradurre in termini più semplici quello che ci dice la definizione di consistenza di uno stimatore!
Facciamo riferimento alla prima formula che trovate nell'immagine relativa a questo paragrafo:
T_n(x) rappresenta lo stimatore;
Theta è il parametro relativo alla popolazione;
Epsilon è un valore numerico molto piccolo, praticamente infinitamente piccolo.
La prima formula ci dice che la probabilità (P(.)) che la differenza tra il parametro stimato dallo stimatore ( T_n(x) - Theta), presa in modulo (quindi positiva), sia maggiore di Epsilon, è uguale a zero al tendere di n (numerosità campionaria) a infinito.
Fondamentalmente questa formula ci dice che se la numerosità campionaria tende ad un valore molto elevato, la probabilità che il parametro stimato sia diverso da quello della popolazione è molto bassa o tendente a zero.
Quindi si dice una cosa molto importante:
"Cerca di avere più osservazioni possibili, così da rendere molto probabile che il parametro stimato sia molto simile a quello relativo alla popolazione".
La seconda formula ci dice la stessa identica cosa, anche se sono necessari alcuni cambiamenti!
Infatti ci dice che la probabilità che la differenza tra quanto viene stimato e il parametro relativo alla popolazione, presa in modulo sia minore di una quantità molto piccola (infinitesimale), al tendere della numerosità campionaria verso infinito, è pari a 1.
Dopo alcune lezioni di econometria vi sarete imbattuti sicuramente in questo importante argomento:
I dati panel
Questi dati sono frutto di un particolare mix, dato da una "somma" tra cross-section e time series.
Cosa intendo quando dico "mix"?
Per spiegare questa affermazione dobbiamo prima di tutto richiamare alla mente cosa sia una cross-section e una time series.
Cross section:
Rappresenta una raccolta di dati, informazioni relative ad un solo periodo temporale.
Esempio:
Raccolgo le informazioni relative ad un campione di 1000 persone, come ad esempio genere, età, reddito, etc.
Fondamentalmente è come se stessi scattando una fotografia riguardo le caratteristiche del campione in uno specifico periodo temporale.
Time series:
Osservo la stessa unità per un periodo di tempo più lungo.
Esempio:
I dati relativi al Pil italiano dal 1980 al 2023, sui quali posso eseguire un qualsiasi modello che tiene conto della dipendenza temporale delle osservazioni.
Detto ciò possiamo dire che vale la seguente "relazione":
Dati panel = Cross-section + Time series
In particolare ho più osservazioni per un periodo di tempo più o meno lungo.
Esempio:
I dati relativi al Pil di Germania, Italia, Francia e Spagna, dal 1980 al 2023.
In questo caso abbiamo una componente cross-section perché prendiamo come riferimento un gruppo di Paesi ( nel caso specifico quattro, ma nulla ci vieta di prenderne di più) ed una componente time series, che è dato dal fatto che le abbiamo gli stessi soggetti (Stati) osservati per più periodi temporali (nel caso specifico più di quaranta, ma nulla ci vieta di prenderne un più ampio, quando possibile).
Questa introduzione, molto semplificata, mira a far comprendere in maniera molto intuitiva cosa sono i dati panel, attraverso una somiglianza con alcuni argomenti già trattati, ma anche alcune differenza che li rendono particolari).
Adesso passiamo alla parte interessante dei dati panel:
Gli effetti
In questa sezione ci concentreremo sugli effetti fissi.
Nei dati panel gli effetti fissi si suddividono in:
Effetti fissi individuali, che sono definibili come effetti che variano tra gli individui ma non nel tempo;
Effetti fissi temporali, definibili come effetti che variano nel tempo ma non tra gli individui.
In maniera più semplice possiamo dire che:
Gli effetti fissi individuali sono fissi nel tempo (ma non tra gli individui)
Gli effetti fissi temporali sono fissi tra gli individui ( ma non nel tempo)
Prima di proseguire è doveroso dire cosa significano i pedici che trovate in figura:
i indica l'individuo
t il tempo
Quindi y_it si legge:
"Variabile dipendente y relativa all'osservazione i al tempo"
Facendo un esempio più concreto, PIL_Italia,2000 si legge:
"Pil dell'Italia nell'anno 2000".
Effetti fissi individuali
Nel caso degli effetti fissi individuali possiamo considerare Beta_0 e Beta2*Zi come un unico termine, il cui valore cambia al variare di i .
Per tale ragione è possibile dire che questo nuovo termine, dato dalla somma della costante e di una variabile che varia solo in i, non è altro che un'intercetta mobile, che varia al variare dell'individuo, ovvero un effetto fisso individuale.
Potremmo anche dire che tale modello ha tante intercette quante sono le osservazioni "i".
Effetti fissi temporali
Similmente si può fare per il modello ad effetti fissi temporali, creando un nuovo termine che è dato dalla somma della costante e di una variabile che varia solo in t.
Anche in questo caso la nostra intercetta sarà "mobile", ovvero varierà al variare di t, quindi avremo un effetto fisso temporale.
Unione dei due
Il caso più completo è quello di un modello con dati panel nel quale abbiamo sia effetti individuali fissi che temporali fissi.
In questo caso non ci sono grossi cambiamenti in termini visivi del modello, in quanto avremo due componenti, una che varia al variare degli individui ed una che varia al variare del tempo, oppure se volete, avrete una componente, che è data dalla somma degli effetti fissi temporali e quelli individuali, tali per cui questa varierà sia al variare di i che t.
Quando parliamo di dati panel ad effetti random stiamo ragionando in maniera diversa rispetto agli effetti fissi ed è importante capire cosa stiamo dicendo con questa particolare specifica.
Nel momento in cui stiamo applicando un modello, in questo caso dati panel, ad effetti random stiamo semplicemente dicendo che non vogliamo degli effetti fissi temporali o individuali.
Quindi, invece di imporre un effetto fisso, si decide di aggiungere un effetto randomico, ovvero un alpha_i con una determinata distribuzione.
Fondamentalmente la scelta di un particolare tipo di modello dipende:
dal fenomeno empirico che ci accingiamo a descrivere;
da come pensiamo possa essere "mappato" il modello;
dalla letterature scientifica.
Però questi tre fattori (purtroppo) non bastano, in quanto per decidere se fare affidamento a un modello a effetti fissi o random dobbiamo eseguire l'Hausman test.
Tale test ci dice quale dei due modelli è "più efficiente e consistente rispetto all'altro".
Ipotesi Hausman test:
Ipotesi nulla: Random effect is preferred
Ipotesi alternativa: Fixed effect is preferred
Infine, una particolarità dei dati panel ad effetti random è che l'effetto randomico (alpha_i) deve essere incorrelato con le variabili esplicative (le X).
La t di Student non è altro che il rapporto tra due grandezze:
Z, una variabile aleatoria che segue una distribuzione normale standard N(0,1);
K/n (sotto radice quadrata), dove K rappresenta una variabile aleatoria che segue una distribuzione Chi-quadrato con n gradi di libertà.
La t di Student è molto popolare nei test statistici, tanto da venire presentato nei corsi di statistica base per risolvere problemi relativamente "semplici" e preparatori per l'inizio di un lungo percorso in questa affascinante materia e nei corsi di inferenza, specificamente quando si decide di testare la significatività dei coefficienti dei modelli che vengono presentati.
La t di Student è molto simile ad una distribuzione normale, ciò che la differenzia da quest'ultima sono le code.
Prima di addentrarci in questa particolarità forse si rende necessario chiarire cosa si intende per "code".
Quando si parla di "code" si intende l'area al di sotto dell'estrema destra e dell'estrema sinistra della funzione di densità che stiamo trattando.
Le code della distribuzione indicano gli eventi più estremi e più sono "alte" ("basse") più l'area al di sotto di esse sarà grande (piccola) e quindi più questi eventi estremi saranno (im)probabili.
Quindi la t di Student si caratterizza per il fatto di descrivere dei fenomeni dove gli eventi estremi sono più probabili rispetto a quelli descritti da una distribuzione normale.
Detto ciò, è utile approfondire un ulteriore aspetto di questa distribuzione!
All'aumentare dei gradi di libertà (gdl), questa tende ad "assomigliare" sempre più ad una normale standard;
Ma quando aumentano i gradi di libertà di una t di Student?
I gdl di una t aumentano se aumenta la numerosità del campione;
quindi è possibile dire che all'aumentare della numerosità campionaria, la t di Student si "avvicina" sempre di più ad una normale standard.
A cosa dovrebbe essermi utile questa informazione?
Di primo impatto sembra più un'informazione utile a livello teorico che pratico, ma approfondendo scopriamo una cosa importante, ovvero che se il campione al quale ci stiamo riferendo è molto grande, quindi ha una numerosità campionaria particolarmente elevata, allora posso guardare direttamente la tavola della normale.
Posso fare questa operazione in quanto la differenza tra ciò che guardo sulla tavola della t e quella della normale standardizzata trascurabile, praticamente tendente a zero, poiché la numerosità campionaria è elevata.
Quando la numerosità campionaria è sufficientemente elevata?
Generalmente il campione è sufficientemente ampio quando la sua numerosità è maggiore di 30; quindi se ho più di trenta osservazioni posso utilizzare la tavola della normale, altrimenti no.
La cosa che mi sento di aggiungere è che generalmente la soglia delle trenta osservazioni viene abbondantemente superata, salvo casi molto specifici.
Il test F viene usato quando si vuole testare che più coefficienti siano CONGIUNTAMENTE diversi da zero.
Le due ipotesi sono le seguenti:
H0 (ipotesi nulla): Tutti i coefficienti sono congiuntamente e statisticamente pari a zero, quindi li posso togliere dalla regressione;
H1 (ipotesi alternativa):almeno un coefficiente è pari a zero, quindi non li posso togliere dalla regressione
La formula del test non è assolutamente amichevole a primo impatto, ma cercherò di fare del mio meglio per renderla più "digeribile" agli occhi dei meno esperti.
Partiamo col dire cosa rappresentano gli elementi che sono presentati nella formula:
RSS, residual sum of squares, rappresenta la somma dei residui al quadrato dei residui
P2 e P1, rappresentano il numero di parametri del modello, con P1<P2
N, rappresenta la numerosità campionaria.
Inoltre, il pedice ci identifica il modello al quale stiamo facendo riferimento, con:
1 che indica il modello con meno parametri da stimare (il più parsimonioso);
2 che indica il modello con più parametri da stimare (il meno parsimonioso).
Facendo riferimento alla formula che si vede in figura è possibile definirla in due parti:
Numeratore, differenza tra la variabilità del modello 1 e 2, corretta per i gdl (gradi di libertà);
Denominatore, variabilità relativa al modello 2, corretta per i gdl.
Ragionamento intuitivo per capire il senso del test F
Se il numeratore è molto grande, allora il rapporto crescerà, portando ad un rifiuto di H0.
Ma cosa significa?
Numeratore molto elevato
L'aumento del numeratore si traduce in una maggiore variabilità del modello con meno parametri da stimare (modello), rispetto al modello con più parametri (modello 2), quindi RSS1>RSS2.
Ciò significa che il modello 1 ha una varianza dell'errore crescente rispetto al modello 2, quindi è meno preciso rispetto al secondo modello.
In sintesi, se la statistica F è molto elevata (in particolare oltre i valori critici tabellati), vuol dire che il modello con meno parametri da stimare (chiamato anche ristretto), ha una varianza più elevata rispetto al modello con più parametri da stimare, quindi è poco "affidabile".
Denominatore molto elevato
Similmente, se il rapporto è molto basso, vuol dire che RSS2 (il denominatore) è molto elevato, ovvero che il modello con più parametri da stimare, è caratterizzato da una variabilità molto più elevata rispetto all'altro modello.
Quindi, per tale motivo, è meglio utilizzare il modello con più parametri.
Notate che questa è una spiegazione molto intuitiva per far comprendere in maniera semplice la logica di fondo di questo test molto usato nella calibrazione di un modello, quindi non è da prendere come una spiegazione di livello accademico o scientifico.
Note:
Con parametri intendo i coefficienti del modello di regressione;
I due modelli sono "annidati", ovvero il modello 2 comprende il modello 1 con l'aggiunta di alcune variabili;
Per capire se la statistica F è grande o piccola si deve far riferimento ai valori critici della distribuzione (sono valori tabellati) e tenendo presenti i gdl del numeratore e denominatore.
In statistica il bias non è altro che una distorsione tale per cui il parametro stimato, nonostante l'aumentare del numero delle osservazioni, e quindi delle informazioni che queste portano, non converge in probabilità al parametro vero.
Quindi, fondamentalmente, il bias è quel qualcosa, o meglio, disturbo, che fa sì che ciò che stimo non sia probabilmente rappresentativo del fenomeno a monte, ovvero, non sia rappresentativo della popolazione.
Capite bene che la presenza di un bias pone problematiche non da poco conto per un lavoro di ricerca o in un esame, in quanto fa cadere totalmente ogni ragionamento per cui vale la pena fare inferenza.
Quello che voglio dire è:
"Se la mia analisi è "viziata" da un bias allora perde di senso fare inferenza, in quanto qualsiasi cosa tiri fuori da quei dati è biased (distorta), quindi inutile all'indagine del fenomeno in sé"
Per quanto la situazione possa sembrare drammatica, ci sono delle metodologie per trattare ed eliminare le distorsioni che, altrimenti, annullerebbero il lavoro di ricerca di innumerevoli ricercatori.
Nelle prossime sezioni potrete trovare (mi servirà del tempo per aggiornare la pagina) alcuni dei più importanti bias ed i metodi di risoluzione.
E' senza ombra di dubbio il più conosciuto e, per la sua semplicità, è sempre il primo ad essere trattato.
Il bias da variabile omessa si sostanzia nel non considerare una o più variabili, rilevanti ai fini della spiegazione del fenomeno, all'interno del proprio modello econometrico.
Tale problematica porta a dei coefficienti distorti (biased), in quanto i coefficienti delle variabili considerate cercano di spiegare contemporaneamente sia quanto descritto dalle variabili ad essi associate, sia quanto descritto dalle variabili omesse.
Questo porta con sé la considerazione del fatto che la distorsione dipende dal fatto che i coefficienti delle variabili che considero non sono "puliti", ovvero cercano di spiegare anche quanto omesso, di conseguenza non sono rappresentativi di quanto descritto dal fenomeno.
Faccio due considerazione per quanto concerne la distorsione dei coefficienti calcolati:
La prima si riferisce al fatto che omettendo una variabile rilevante all'interno del modello, l'errore non sarà in media pari a zero. Quindi viene chiaramente violata l'assunzione che sta alla base del modello, in quanto compio un errore sistematico, ovvero non tengo conto di qualcosa sistematicamente all'interno del processo descritto dal modello;
La seconda fa riferimento al fatto che il coefficiente stimato è uguale, in probabilità e all'aumentare della numerosità campionaria al coefficiente relativo alla popolazione con l'aggiunta di un "bias", tale per cui, quello che si stai descrivendo risulta non essere rappresentativo per la popolazione nel suo complesso.
Nell'immagine che ho caricato trovate la spiegazione più formale! :-)
La regressione lineare multipla non è altro che un'estensione di quella semplice.
Infatti, l'equazione non fa altro che "allungarsi", ovvero, invece di avere solo l'intercetta e un termine con annesso il proprio coefficiente angolare, avremo almeno tre componenti:
Intercetta;
Prima covariata;
seconda covariata.
Ovviamente possono esserci più regressori, questo è il caso più semplice di regressione lineare multipla.
La domanda che ci poniamo è la seguente:
L'interpretazione del coefficiente Beta è la stessa?
Per dirla in termini più semplici:
Il Beta rimane una pendenza?
In termini molto sbrigativi è possibile dire di sì!
Il Beta, ha la medesima interpretazione, ovvero rappresenta la pendenza in relazione alla variabile della quale si sta parlando.
In termini più precisi bisogna dire che non è proprio la stessa pendenza della regressione semplice.
Nella regressione semplice abbiamo la nostra y ed una sola x, quindi è semplice (anche graficamente) vedere come il Beta sia inequivocabilmente una pendenza, per la precisione un coefficiente angolare, in quanto l'equazione che abbiamo di fronte è una retta.
In una regressione lineare multipla abbiamo sempre una y, ma abbiamo molte x e perdiamo la possibilità di rappresentare il fenomeno su un piano cartesiano a due dimensioni.
Se volessimo fare le cose in maniera precisa, per rappresentare graficamente il tutto dovremmo avere tanti assi quante sono le variabili che stiamo studiando.
Quindi, nel caso di due regressori, ovvero due x, avremo tre assi:
Asse y;
Asse x1;
Asse x2.
In tre dimensioni, con una buona dose di matematica è possibile disegnare il grafico di interesse, ma capite bene che non è un metodo veloce e diventa molto più complesso se abbiamo molte variabili indipendenti.
Quando abbiamo una regressione lineare multipla dobbiamo ragionare come se ci fosse un punto (la nostra osservazione) su una superficie che viene descritta da tutte le possibili combinazioni date dalle nostre x.
In particolare, il nostro punto (osservazione) viene "spinto" verso varie direzioni, tante quante sono le variabili di interesse.
Ecco, le direzioni nelle quali il punto viene "spinto" (segno del coefficiente), con la relativa "forza" (modulo del coefficiente), non sono altro che i beta che vengono stimati dal processo di stima.
Per identificare il beta di interesse, si lavora con la condizione ceteris paribus, ovvero prendo in considerazione una variabile, tenendo ferme tutte le altre.
In questa maniera prendo di riferimento una sola variabile, quindi un solo beta, non considerando tutti gli altri.
A prima vista sembra un procedimento molto "goffo" ma in realtà trova fondamento nel fatto che la correlazione tra i coefficienti è pari a zero, o prossima dall'essere nulla, rendendo la condizione ceteris paribus un'espressione intelligente dell'assunzione di indipendenza tra i regressori.
Ritornando al nostro punto su una superficie, l'applicazione della condizione ceteris paribus consente di prendere in considerazione una sola variabile e conseguentemente una sola "freccia" che "spinge" la nostra osservazione e, poiché c'è mancanza di correlazione (o è prossima allo zero, sono certo che le altre "freccie" saranno nulle o prossime allo zero, permettendomi di leggere il Beta come l'effetto di quella variabile (se tutto è specificato nella maniera giusta).
Il bias di auto-selezione o self-selection bias fa parte di quelle distorsioni che possono inficiare il processo di inferenza, quindi vale la pena spendere due parole su di esso!
Questo tipo di bias mina le basi del processo di inferenza, in quanto il processo di selezione del campione non è random o casuale, bensì risulta autodefinito.
Vi pongo un esempio molto esemplificativo:
Il Governo dello Stato X vuole capire se la popolazione che lo compone ha un'elevata digital literacy e, nel caso in cui fosse bassa, capire quali sono i driver sui quali puntare per aumentarla.
Il Governo decide di somministrare dei questionari in via telematica, più nello specifico le persone dovranno accedere dal proprio PC, attraverso lo SPID o la CIE, nonché effettuare una registrazione da caricare sull'apposita piattaforma.
Dopo questa procedura le persone potranno compilare il questionario e il ricercatore trarre le sue conclusioni.
Forse avrete già intuito qual è il problema...
L'obiettivo dell'indagine riguarda stimare il livello di digital literacy, ma avendo messo una procedura online per accedere al questionario, che quindi presuppone un determinato livello iniziale di abilità digitali, avrò una auto-selezione del campione, ovvero otterrò un campione di persone che sono già formate dal punto di vista delle competenze digitali.
Quindi capite bene che lo studio, in questo caso, risulta inficiato dalla base, in quanto il massimo dell'inferenza che posso fare è riguardante un campione di persone già formate in termini di competenze digitali e non potrò dire nulla rispetto a chi ha competenze basse o nulle in tale tema.
Ok, ma come evito questo problema nell'esempio che hai fatto?
Una soluzione potrebbe essere quella di non vincolare la raccolta dati all'accesso ad una piattaforma online.
Quindi si potrebbe affiancare al questionario online anche uno cartaceo da somministrare per strada e via posta.
Il linear probability model o modello lineare delle probabilità (più sinteticamente LPM), fa parte di una classe di modelli che mirano a descrivere una variabile dipendente discreta, nel caso specifico bivariata, ovvero una variabile dipendente che assume valori 0 e 1.
Partiamo col dire che questo modello è il caso più semplice e con più "problemi", anche se offre alcuni vantaggi non indifferenti.
LPM mira a descrivere un fenomeno bivariato tramite la classica retta di regressione che siamo abituati a vedere e stimare, con tutti i vantaggi ad essa collegati:
Metodo semplice e conosciuto, ovvero quello OLS;
Interpretazione diretta dei risultati, il coefficiente beta ed il suo segno mi indicano la probabilità associata alla variazione unitaria della mia X;
È una semplice estensione del caso con variabile continua.
Fin qui è tutto molto bello ma questo modello ha anche dei lati negativi che non possono e non devono essere trascurati:
Soffre di eteroschedasticità, d'altronde ce lo dovevamo aspettare, non possiamo avere una varianza costante se la nostra variabile dipendente assume solo due valori. La cosa positiva è che possiamo correggere gli standard error per tenerne conto;
Dobbiamo "vincolare" il modello, ovvero dire che tutti i valori predetti di y_i, superiori ad uno vengono posti uguali ad uno, mentre quelli inferiori a zero sono posti pari a zero. Questa "forzatura" è necessaria se vogliamo far sì che il modello non dia risultati contrari agli assunti della statistica, ovvero che la probabilità di un determinato evento è compresa tra zero e uno, altrimenti, di base, questo modello dà, come risultati, probabilità superiori ad uno o inferiori a zero (non avrebbero senso!);
La distribuzione del termine di errore o dei residui (a seconda che vi stiate riferendo rispettivamente alla popolazione o al campione) non è normale, bensì binomiale, anche se, fortunatamente, al crescere della numerosità campionaria la binomiale tende ad una normale.
Questo vuol dire che LPM sia il modello migliore del mondo e che tutti gli altri modelli siano inutilmente complicati?
No.
Allora vuol dire che LPM è una stupidaggine da evitare?
No.
LPM è un modello caratterizzato da alcune caratteristiche positive ed alcune negative, risolvibili con alcune accortezze. Il modello si presta a spiegare le ricadute positive date dalla variazioni di determinate caratteristiche, e con una numerosità campionaria abbastanza ampia ben si presta al processo di inferenza, fermo restando l'indiscutibile importanza e rilevanza di altri modelli, come il logit o il probit.
Dovete capire se il vostro modello soffre di eteroschedasticità al fine, eventualmente, di correggere gli SE (Standard Errors) e conseguentemente le statistiche t?
Bene, preparati ad eseguire il Breusch-Pagan test!
Questo test viene utilizzato per verificare statisticamente la presenza o meno dell'eteroschedasticità nel modello che si sta utilizzando.
Premetto che non è l'unico test disponibile e che delle volte può lasciare a desiderare, ma è molto utile, almeno in maniera esplorativa, per verificare o meno l'ipotesi nulla di omoschedasticità.
Vi faccio un breve ripasso di quello che dovete sapere prima di parlare più propriamente del test in questione:
Omoschedasticità: vuol dire che la varianza è costante, ovvero non varia all'aumentare o al diminuire dei regressori;
Eteroschedasticità: vuol dire che la varianza non è costante, ovvero che varia al variare dei regressori;
Ora che sai le "basi" partiamo col descrivere questo importantissimo test statistico!
Per eseguire un Breusch-Pagan test si devono seguire i seguenti punti:
La prima cosa che si deve fare è eseguire la regressione di interesse, ovvero quella con la nostra variabile dipendente/obiettivo;
Prendere i residui di questa regressione;
Elevare i residui al quadrato;
Regredire i residui al quadrato su tutte le variabili indipendenti (i regressori), ovvero le stesse che abbiamo utilizzato nella regressione di partenza;
Calcolare l'R^2 di questa regressione che viene chiamata "regressione ausiliaria";
Ottenere la statistica di interesse moltiplicando l'R^e per la numerosità campionaria;
La statistica ottenuta si distribuisce come un Chi-quadrato con J-1 gradi di libertà ( con J che rappresenta il numero di regressori ad eccezione dell'intercetta).
Il sistema di ipotesi al quale dobbiamo fare riferimento è il seguente:
H0: C'è omoschedasticità
H1: C'è Eteroschedasticità
Molto semplice,no?
Per quanto sia uno strumento utile questo test ha un problema, ovvero assume la linearità della relazione tra residui e variabili esplicative.
Se ci fate caso, nel test non compaiono interazioni o elevamenti a potenza, sintomo proprio di tale "difetto".
Questo non vuol dire che il test sia inutile, ma che è da accompagnare con ulteriori verifiche, come ad esempio il White test che vedremo più in là.
La varianza è una di quelle cose che vengono insegnate nelle prime lezioni di statistica, anche se la sua formula ha un problema, o forse è più nostro che suo...
La sbagliamo!
Sì, la formula più "complicata" della varianza è tendenzialmente più soggetta a errori rispetto alla sua controparte "semplice".
Perché?
Forse andiamo troppo di fretta quando svolgiamo le differenze rispetto alla media elevate al quadrato ma è altrettanto vero che la versione più semplice ha molti meno passaggi, il che non è un male visto che il tempo scorre fin troppo velocemente durante l'esame.
Quindi, riassumendo la formula semplificata della varianza consente di essere più veloci svolgendo meno calcoli ed esponendoci a meno possibilità di compiere errori, anche se primariamente dobbiamo avere meno fretta nello svolgere gli esercizi.
Inoltre, le due formule sono equivalenti, quindi è matematicamente impossibile che utilizzando gli stessi dati vengano due risultati differenti.
Infine, la dimostrazione è molto richiesta dai prof, quindi ti invito a vederla sul mio canale youtube, dove spiego passo passo tutti i passaggi (link al canale).
Il coefficiente di variazione è definito come il rapporto tra la deviazione standard e la media campionaria, il tutto moltiplicato per cento.
La forza, e quindi il vantaggio, del coefficiente di variazione sta nella sua capacità di standardizzare la variabilità di due o più unità, così da comprendere quale di questi sia più variabile e quindi necessiti di una particolare attenzione.
Immaginate di dover capire quale dei seguenti prezzi medi dei seguenti beni risulti più o meno variabile:
Macchinario industriale: prezzo= 2000 € , S.D.= 800€
1 unità di materiali plastici: prezzo= 700 € , S.D.= 300€
1 unità di sementi: prezzo= 200 € , S.D.= 100€
1 unità di verdure: prezzo= 15 € , S.D.= 12€
1 unità di terreno: prezzo= 12000 € , S.D.= 5000€
1 unità di petrolio: prezzo= 70€ , S.D.= 35€
1 unità di carne: prezzo= 28 € , S.D.=16€
1 unità di semilavorati: prezzo= 1550€ , S.D.= 50€
1 unità di ferro: prezzo= 580 € , S.D.=175€
Capite che non è semplice riuscire a rilevare la variabilità ad occhio.
Ciò per due motivi fondamentali:
I prezzi medi sono tutti diversi gli uni dagli altri;
La deviazione standard è diversa per ogni prezzo medio.
Infatti, (purtroppo) non basta guardare la deviazione standard per rispondere al nostro quesito...
Il problema sarebbe incredibilmente più semplice in due casi estremi:
I prezzi medi sono tutti identici, consentendoci di confrontare le deviazioni standard e capire così quale di questi è più variabile;
Le deviazioni standard sono tutte identiche, quindi il prezzo con la media più elevata sarà quello meno variabile. Infatti, se il prezzo medio è elevato e la variazione è piccola rispetto a questo, allora vorrà dire che la variabilità complessiva sarà molto bassa, viceversa nel caso opposto.
Mi rendo conto che il secondo caso sia più difficile da comprendere se siete alle prime armi, ma facendo un po' di esercizi capirete meglio quello che ho detto.
Inoltre, la possibilità di confrontare differenti coefficienti di variazione deriva dal fatto che il rapporto tra le due grandezze in campo ( S.D. e media campionaria) mi consento di eliminare l'effetto derivante dall'unità di misura, dandomi quindi, come risultato, un numero puro.
Ti invito ad approfondire la questione sul mio canale youtube dove, con un piccolo esempio, spiego meglio questo argomento.
Una delle domande più importanti che ci poniamo nel momento in cui decidiamo di stimare un modello al fine di descrivere un particolare fenomeno, è quella relativa alle variabili da inserire.
In particolare:
Quali variabili metto all'interno del mio modello?
La strategia più semplice, ma anche peggiore, che una persona inesperta potrebbe fare è quella di mettere le variabili a caso e scartare quelle non significative.
Ora, per quanto sia bello ed entusiasmante vedere le fantastiche stelline relative alla significatività, devo dirvi che non è un metodo assolutamente valido.
La prassi consiste in un mix di due componenti:
Documentarsi sulla letteratura scientifica nell'ambito che si è deciso di analizzare;
Utilizzare la logica e il buon senso.
Partiamo dal primo punto, quello che secondo me è più semplice!
Documentarsi sulla letteratura pubblicata fino ad oggi è fondamentale per molteplici motivi:
Vi consente di avere un quadro complessivo e ben strutturato di quello che state studiando;
Potete farvi un'idea delle metodologie usate;
Vi aiuta a capire le variabili utilizzate negli studi precedenti, fornendovi una base di partenza fondamentale che, nel caso, potete ampliare con ulteriori variabili e metodologie.
In sostanza la revisione della letteratura vi consente di avere coscienza di tutti gli strumenti, metodologie e variabili utilizzati da altri ricercatori e che si sono dimostrati scientificamente validi.
La seconda, ovvero il buon senso consiste nel fare riferimento alle conoscenze della teoria economica e statistica (faccio riferimento a queste due perché sono il mio ambito di studio).
Per esempio, mettiamo caso che voglia stimare lo stato di salute dell'abitante medio di un determinato comune. La mia variabile dipendente y sarà lo stato di salute percepito/autovalutato dall'intervistato (ad es, quanto ti senti bene da 1 a 10?) mentre alcune variabili dipendenti potrebbero essere:
Il genere;
Il numero di bibite gassate bevute durante la setimana;
Il numero di volte che l'individuo va al fast-food;
Il tempo medio di allenamento durante la settimana;
Variabili che non avrebbe senso aggiungere sono ad esempio:
La lunghezza dei capelli dell'intervistato (avrebbe senso aggiungerlo?);
Il colore degli occhi (potrebbe mai influenzare lo stato di salute?);
I metri quadrati della casa di residenza (in che modo influenza la salute?);
Ovviamente ho fatto un esempio estremo, ma rende l'idea!
Se stimassi un modello di regressione lineare (o qualsiasi altro) e aggiungessi le ultime insensate variabili di cui vi ho parlato finirei con il dire qualcosa senza senso, come:
"Più i capelli dell'intervistato sono lunghi e più la sua salute è elevata"
Magari i coefficienti potrebbero anche venirvi significativi, ma capite bene che stiamo parlando di correlazioni spurie, quindi, a meno di non voler far ridere qualcuno, direi che sarebbe cosa più che giusta non metterle.
Come detto precedentemente, questi due "componenti" si utilizzano insieme, un po' serve il lavoro fatto da chi è più esperto di noi e un po' serve anche la conoscenza del campo che stiamo studiando.
Diff in Diff o Difference in Difference, che per brevità abbrevierò in DID, è una metodologia di stima degli effetti di un generico trattamento avvenuto in un determinato periodo temporale e che necessita di due gruppi (i trattati e i non trattati) e di almeno due periodi temporali.
La DID offre il vantaggio di poter ragionare in termini causali, ovvero rende possibile dire che il trattamento in esame ha causato una determinata variazione coloro i quali sono stati trattati.
Questa cosa non è da poco, passare da una correlazione significativa ad un nesso causale tra due variabili ha un valore enorme in ambito di policy.
Prima di farti vedere l'equazione più generica e semplice di un modello che tenga conto della DID dobbiamo elencare le assunzioni, in quanto ciò che è stato detto fino ad ora vale solo e soltanto se le assunzioni della DID sono rispettate:
SUTVA (Stable Unit Treatment Value Assumption), indica che l'outcome potenziale del generico individuo i non dipende dal trattamento (o mancato trattamento) di un altro individuo afferente al campione in esame ;
Parallelismo del trend, tale assunzione si traduce in una uguale pendenza delle curve relative ai trattati e ai non trattati prima della data del trattamento;
Esogeneità del trattamento, cioè il trattamento non deve essere correlato con altre variabili;
Qui può sorgere spontanea la seguente domanda:
Non sarebbe più semplice comparare i trattati prima e dopo il trattamento?
Sarebbe incredibilmente più semplice ma anche sbagliato!
Comparando i trattati prima e dopo il momento in cui è avvenuto il trattamento implica un'assunzione forte da parte nostra, ovvero gli individui prima del trattamento siano il controfattuale rispetto al quale stiamo tarando l'analisi, ma (purtroppo) non è così.
Infatti, coloro che vengono trattati potrebbero avere caratteristiche peculiari, tali per cui il ragionamento della comparazione prima-dopo sarebbe valido solo per gli individui con quelle caratteristiche.
Inoltre, bisogna tenere conto del fatto che comparando i trattati prima e dopo il trattamento non ci consente di separare due effetti:
Quello relativo al trattamento, che è l'obiettivo che ci si pone in ambito di policy;
Quello relativo alla dinamica spontanea, ovvero quello che sarebbe avvenuto in assenza del trattamento.
Quanto detto fino ad ora ci dovrebbe far desistere dall'utilizzare un approccio prima-dopo e incoraggiare a trovare un gruppo di controllo che possa rappresentare un valido controfattuale.
Ora penso sia il momento di farti vedere la versione base del modello in questione:
Y= ß0 +ß1*Time +ß2*Treatment +ß3*Time*Treatment + (Other covariates)
Come potete vedere il modello si sostanzia in un'interazione tra il periodo temporale (Time, che in questo caso può assumere due valori, il momento prima dell'intervento e il momento in cui avviene in trattamento) e il trattamento (Treatment, che in questo caos identifica i trattati e i non trattati). Ci tengo a precisare che Time e Treatment sono variabili dummy (nota superflua perché già lo sapete, però repetita iuvant).
Se ci pensate questa cosa ha perfettamente senso, il periodo temporale e il venir trattati interagiscono tra di essi, infatti la somministrazione del trattamento avviene dopo una determinata data, rendendo impensabile un modello che non ne tenga conto!
Ovviamente questa è la spiegazione più "carina", in quanto nella realtà dei fatti, per quanto sia innegabile quanto appena detto, si rende necessaria una dimostrazione riguardo quanto utilizzato, in modo da provare quanto detto e non basarsi su "opinioni".
Infine vi riporto alcune fonti che ho utilizzati al fine di essere il più chiaro possibile e non dimenticarmi qualcosa di importante:
Columbia University Irving Medical Center (anche il grafico è loro, lo riporto per correttezza e trasparenza nei confronti di chi legge);
Vi invito ad approfondire sulle fonti, in quanto sono (per ovvie ragioni) più dettagliate, ma anche più tecniche, quindi leggete con calma quanto scritto nell'articolo e poi lanciatevi sui link! :-)
Il Variance Inflation Factor (VIF) è uno degli strumenti che possono essere utilizzati quando abbiamo bisogno di verificare se le variabili che stiamo analizzando nel modello sono troppo correlate tra di esse.
Come potete vedere dalla formula, la varianza del coefficiente Beta può essere riscritta come il prodotto di due componenti di cui quella di destra rappresenta il VIF.
Il VIF è definito come il seguente rapporto:
1 / (1 - R_squared)
Prima di andare avanti dobbiamo spendere qualche parola sull'R_squared che compare nella formula, così da non perderci.
R_squared è il risultato della regressione di una delle variabili indipendenti (X) su tutte le altre.
La prima cosa che dobbiamo notare è che più R_squared è elevato e più il VIF aumenta... ma perché?
Ovviamente è matematica ma il perché riguarda il senso, ovvero, per quale motivo se l'R_squared aumenta il VIF aumenta e le cose si mettono male?
Se R_squared aumenta vuol dire che quella variabile indipendente è molto correlata alle altre variabili indipendenti, quindi "forse" non è molto indipendente in quanto si "muove" insieme alle altre variabili e di conseguenza lascia spazio ad un problema di elevata correlazione o peggio, di perfetta multicollinearità.
Una domanda molto importante che sono sicuro vi state facendo in questo momento è:
Qual è un valore accettabilie di VIF?
La regola generale è che questo debba essere il più basso possibile però, come sappiamo non sempre è così, e ciò lascia spazio a delle zone di ombra.
Ad esempio se ho i seguenti VIF:
VIF = 0.5;
VIF=3.5;
VIF= 1;
VIF=12;
Sappiamo che il "migliore" è il primo, in quanto è il più basso, ma dove troviamo il limite di accettabilità di questo valore tale per cui posso escludere alcuni regressori?
Il valore soglia che solitamente si utilizza è VIF=10.
Quindi se VIF > 10 la variabile è "troppo" correlata e quindi va scartata, mentre se VIF<10 può essere mantenuta.
Ci tengo a sottolineare come il VIF non sia l'unico indicatore adatto per indentificare ed eliminare le variabili altamente correlate tra di esse.
Infatti, un altro metodo, da un certo punto di vista più semplice e intuitivo consiste nel generarsi una matrice con gli indici di correlazione, tali per cui se l'indice è superiore a 0.3 (altro limite fissato per regola) vuol dire che quella variabile è troppo correlata con le altre).
Ovviamente anche in questo caso rimane il fatto che più è basso il coefficiente di correlazione e meglio è!
Le variabili strumentali sono un argomento molto interessante anche se, in sede universitaria, possono diventare un qualcosa di molto scomodo se non se ne comprende bene la logica che le caratterizza.
Partiamo col dire che le variabili strumentali vengono utilizzate se si presenta:
Omissione di variabili utili per la descrizione del fenomeno di interesse;
Causalità inversa;
Errore di misurazione delle variabili.
Le variabili strumentali consentono di "ripulire" i coefficienti da questi effetti indesiderati che caratterizzano la nostra analisi.
Prima dicontinuare devo dirvi che generalmente una variabile strumentale o più semplicemente "strumento" viene indicata con la lettera "Z".
I passaggi per utilizzare Z sono due e costituiscono il cosidetto 2SLS (Two Stage Least Squares);
Primo stadio: La variabile indipendente (X) che vogliamo "strumentare" viene regredita sullo strumento (Z);
Secondo stadio: Prendo i valori predetti della variabile indipendente (X_hat) e li utilizzo come variabile indipendente del modello che voglio stimare; In altre parole regredisco la variabile dipendente (Y) su X_hat.
Fin qui sembra tutto semplice (ed in effetti lo è!) ma non è la metodologia delle variabili strumentali ad essere complessa, bensì la comprensione dello strumento e delle caratteristiche che devono essere controllate affinché ciò che stiamo dicendo sia valido ed abbia un senso.
Lo strumento deve avere delle caratteristiche specifiche:
Rilevanza, lo strumento deve essere correlato con la variabile indipendente (Corr(X,Z) deve essere diversa da 0);
Esogeneità, lo strumento deve essere esogeno, ovvero il valore atteso dei residui, condizionato allo strumento deve essere uguale a zero (E(u/Z)=0).
Volendo dire il tutto in maniera sintetica e semplice:
"Lo strumento Z deve essere correlato con la X che si vuole "strumentare", in quanto una variazione di Z deve tradursi in una variazione di X. Inoltre, si noti come Z debba influenzare direttamente X ma indirettamente Y. Questo significa che se Z varia, la X varia e conseguentemente la Y varia (ma a causa della variazione di X e non dalla diretta variazione di Z).
Capite bene qual è il "problema" delle strumentali:
Sono strumenti utilissimi ma difficili da trovare...
Continuando la descrizione di questo argomento dobbiamo parlare di almeno due test che si utilizzano per capire se la variabile strumentale che si è scelta è in quanto tale o se abbiamo preso una direzione di ricerca sbagliata.
I test sono i seguenti:
Il test F sugli strumenti del primo stadio (ovviamente, se avete un solo strumento farete un test t); Se i coefficienti relativi agli strumenti sono significativi, allora è lecito e più che giustificato che ci sia una relazione stabile tra la X e la Z;
La statistica J (Over-identifying restriction tests) nella quale si testa l'esogeneità degli strumenti;
Vi lascio il link con la spiegazione più dettagliato sui due test appena descritti (TEST).
Per concludere, le variabili strumentali sono uno strumento (scusate il gioco di parole) di grandissima utilità, in quanto consentono di eliminare le classiche problematiche relative a variabili omesse, errore di misurazione e causalità inversa, ma sono difficili (anche se non impossibili) da trovare.
Inoltre, nel paragrafo appena descritto ho fatto il caso con un solo strumento, il tutto è generalizzabile per quando si hanno più strumenti.
Note:
L'immagine per l'articolo è stata generata tramite Chat GPT
L'argomento che tratterò oggi è tanto semplice quanto insidioso:
La differenza tra il concetto di termine di errore e residui.
Definisco in maniera semplice e intuitiva i due protagonisti di oggi:
Il termine di errore non è altro che ciò che il modello relativo alla popolazione che si sta esaminando non riesce a spiegare;
I residui rappresentano ciò che non viene spiegato da un modello econometrico con riferimento ad un campione con una determinata numerosità campionaria.
Da questa prima spiegazione si può intuire quale sia il problema che affligge molti di noi all'esame:
I due concetti sono QUASI perfettamente sovrapponibili
Infatti, sono sempre degli scarti e rappresentano sempre un qualcosa di non spiegato.
Per quanto simili, c'è una differenza sostanziale tra questi due concetti, tale per cui rende totalmente errata la presunzione di una identità tra i due concetti esposti.
L'errore afferisce alla popolazione, quindi è, da un certo punto di vista, oltre il concetto di campione, mentre i residui fanno riferimento al campione che ci serve al fine di fare inferenza sulla popolazione obiettivo.
Vi faccio un esempio per capire la sottile differenza tra i due concetti.
Esempio errore.
La popolazione italiana ammonta a 59 milioni di individui (siamo in decremento quindi probabilmente ora saremo di meno) e viene deciso di somministrare un questionario al fine di capire quali sono i fattori che guidano l'aumento del reddito, così da tarare le nuove misure in relazione alla politica fiscale.
Ora, tralasciando il fatto che ho descritto il sogno di praticamente tutti i ricercatori sul pianeta terra, in quanto una numerosità campionaria del genere è più che invidiabile, vi faccio notare che il campione (popolazione italiana) combacia con la popolazione obiettivo, quindi è un processo di inferenza un po' diverso, almeno a livello concettuale.
In questo caso possiamo parlare di termine di errore, in quanto le discrepanze fanno riferimento alla popolazione.
(Suggerisco di leggerti anche il prossimo esempio, può aiutare a capire per contrasto)
Esempio residui.
La popolazione italiana, come detto precedentemente, ammonta a circa 59 milioni di individui e si vuole somministrare un sondaggio per il medesimo fine MA a causa di una limitata disponibilità di fondi, il questionario potrà essere somministrato "solo" a 2'000 persone.
In questo caso parliamo di inferenza vera e propria, in quanto da un numero limitato di individui si cerca di capire il comportamento e le dinamiche relative alla popolazione.
Inoltre, è proprio in questo caso che si parla di residui, in quanto le discrepanze, ciò che non viene spiegato, fanno riferimento ad un campione che servirà a capire i comportamenti della popolazione di riferimento.
Concludendo, è possibile dire che la differenza tra residui e termine di errore da un lato sia meramente concettuale, in quanto rappresentativi di una componente non spiegata, ma, approfondendo la questione, è possibile notare una sottile differenza che, se parlate con gli "addetti ai lavori" servirà necessariamente al fine di capire a cosa state facendo riferimento.
Note: l'immagine è stata creata con IA
Il termine di interazione è una di quelle cose che possono definirsi semplici dopo che le abbiamo comprese, in quanto non è poco frequente che alcuni studenti possano rimanere leggermente confusi dopo la sua presentazione.
Il termine di interazione non è altro che il prodotto tra due variabili che la letteratura, ma anche il ragionamento razionale, ci indicano interagire tra di esse.
Di fianco a questa sezione vi ho allegato l'immagine di un generico modello con termine di interazione, così da rendere la spiegazione più semplice.
Immaginate di volere stimare il reddito(Yi) date due caratteristiche degli individui che compongono il vostro campione:
l'essere donna, X1;
Il livello di educazione, X2.
Il ricercatore potrebbe pensare di interagire queste due variabili in quanto ipotizza, date le conoscenze relative al contesto che sta analizzando e la letteratura scientifica riguardante il caso di ricerca.
Quando dico "interagire" intendo dire "fare il prodotto".
Quella che vi ho dato è una spiegazione teorica, ma a livello pratico come si legge una regressione con un coefficiente di regressione che è dato da una interazione tra due variabili?
Tenendo in mente che:
Y= reddito
X1= Donna
X2= Livello di educazione.
Il coefficiente Beta3, ovvero il coefficiente del termine di interazione ci dirà quanto "impatta" un anno di educazione aggiunto su un individuo di sesso femminile. Ovviamente, se questo coefficiente è significativo allora possiamo dire di aver trovato qualcosa da dire, altrimenti o non è presente il gender gap, oppure si è specificato male il modello.
Per quale motivo all'interno della regressione inserisco sia il termine di interazione che le singole variabili?
Domanda intelligente! Le singole variabili ci servono per tenere conto dell'effetto dato dal loro non interagire. Prendendo l'esempio di prima, potrebbe essere che il livello di educazione abbia sia un effetto "autonomo" sulla determinazione del livello di reddito, che un effetto che viene catturato dal termine di interazione. Stessa cosa per quanto riguarda il genere.
Quindi, la cosa migliore da fare quando si decide inserire un termine di interazione all'interno della regressione di interesse, è quello di "controllare", per le le variabili che lo compongono, così da non avere coefficienti biased.
Il box plot, o scatola a baffi, è una rappresentazione grafica dei dati che ben si presta a carpire alcune informazioni dei dati.
Prima di tutto devo dirvi che farò riferimento a due tipi di boxplot, il primo non indica i valori estremi o anomali (outliers) il secondo lo fa.
Il boxplot, in entrambe le immagini è composto da una scatola, al cui interno è indiciata la mediana e i cui estremi, superiori ed inferiori rappresentano il primo e il terzo quartile.
Quindi, la scatola contiene la mediana e il 50% delle osservazioni totali (questo deriva dal fatto che gli estremi rappresentano, come detto precedentemente, il primo e terzo quartile).
I "baffi" nella prima immagine mi indicano il valore massimo e quello minimo, dandomi l'idea di quanto i dati siano "dispersi", mentre nel secondo, il valore soglia, superiore o inferiore che sia, è calcolato con una specifica formula (che descrivo sul mio canale youtube) che mi indica il confine tra valori anomali (quelli che vanno oltre la soglia" e non.
In entrambi i casi si ha un'idea della variabilità della distribuzione dei dati ma, nel secondo caso, si ha il vantaggio di poter vedere anche degli ipotetici valori estremi e studiarne meglio la natura.