Asumsi “normalitas” sering dianggap sebagai salah satu asumsi statistik yang paling penting. Memang, banyak atribut terukur (khususnya di alam semesta) yang mengikuti pola distribusi Gaussian. Namun seringkali variabel independen atau dependen suatu penelitian finansial justru tidak terdistribusi secara normal. Dalam berbagai ulasan ilmiah, kita sering mengalami kritik bahwa asumsi statistik inferensial telah dilanggar karena variabel independen atau dependen tidak terdistribusi secara normal. Terlepas dari ketidakstabilan metode regresi biasa (OLS), metode ini relatif tahan terhadap pelanggaran asumsi (Pedhazur dan Kerlinger 1982) dan faktanya regresi OLS sering memberikan estimator yang tidak bias, efisien dan konsisten dalam kebanyakan situasi (Wooldridge 2002).
Asal kritik yang mempersyaratkan normalitas ini tidaklah jelas dan kita hanya bisa berspekulasi. Memang prinsip normalitas dalam distribusi variabel dibutuhkan untuk kebenaran statistik parametrik tertentu (Micceri 1989), namun pada akhirnya hal ini digeneralisasi untuk semua jenis analisis statistik. Buku teks statistik terapan secara tidak sengaja juga memberikan kontribusi untuk kesalahpahaman ini dengan tidak cukup jelas menggambarkan konteks yang terbatas di mana asumsi normalitas harus berlaku. Contohnya, kutipan dari satu buku teks (Altman 1991), yang menjabarkan persyaratan untuk analisis parametrik:
“[...]Untuk sekelompok pengamatan independen, metode parametrik memerlukan hasil observasi di masing-masing variabel anggota kelompok untuk memiliki distribusi data mendekati normal, dan standar deviasi dalam setiap anggota kelompok juga harus serupa. Jika data mentah tidak memenuhi kondisi ini, maka transformasi data mungkin perlu dilakukan [...]”
Pembaca buku ini tidak dapat disalahkan untuk mengambil kesimpulan bahwa setiap analisis statistik parametrik, termasuk regresi linier melalui OLS, seluruh variabelnya harus terdistribusi normal. Buku teks formal (misalnya (Cohen dan Cohen 2003, Pedhazur dan Kerlinger 1982, Wooldridge 2002)) hanya berisi daftar asumsi yang diperlukan bagi regresi linear untuk dapat bekerja; buku tersebut tidak menyebutkan tentang daftar asumsi yang tidak perlu dipenuhi.
Persyaratan distribusi, dalam konteks model linear secara umum, berkaitan dengan distribusi kesalahan/error residual, bukan distribusi dari variabel independen ataupun dependen. Asumsi pertama sering disebut sebagai “varian konstan” atau “homoscedasticity” (Pedhazur dan Kerlinger 1982). Asumsi ini hanya menyatakan bahwa varians dari error tidak tergantung/berkorelasi dengan nilai variabel independen. Asumsi kedua menyatakan bahwa error harus terdistribusi normal. Jika kita kemudian menganggap variabel independen diketahui dengan sempurna, dua asumsi ini sudah cukup untuk memastikan bahwa regresi secara formal telah memberikan hasil yang benar. Tidak ada asumsi distribusi normal untuk variabel dependen atau independen yang diperlukan.
Secara teoritis, Gauss-Markov Teorema menyatakan (Pedhazur dan Kerlinger 1982, Wooldridge 2002): ketika kesalahan/error tidak bias dan tidak berkorelasi dengan variabel independen dan ukuran besarnya error juga independen dari besarnya variabel independen, maka formalisme regresi OLS akan selalu memberikan estimasi linear terbaik (BLUE), dimana perkiraan yang keluar dari regresi akan selalu memiliki kemungkinan varians minimal, terlepas dari distribusi kesalahan yang ada.
Distribusi variabel independen tidak relevan jika asumsi homoscedasticity dan normalitas sudah terpenuhi untuk residual/error nya. Tapi bagaimana dengan distribusi variabel dependen? Variabel dependen mungkin sering mengikuti distribusi Gaussian, tapi ini tidak dengan otomatis menyiratkan bahwa Gaussianity atas variabel dependen diperlukan dalam regresi linier untuk dapat bekerja.
Kekhawatiran tentang distribusi, bahkan dalam residu/error, tidak perlu disikapi secara berlebihan. Lebih penting mencegah terjadinya “kesalahan spesifikasi” (Pedhazur dan Kerlinger 1982), yang menyebabkan terjadinya collinearities antara error/residual dan variabel independen; Collinearities melanggar asumsi dasar dari teorema Gauss-Markov, membatalkan properti BLUE dan estimasi parametrik yang dihasilkan regresi, dan mungkin juga probabilitas kesalahan statistik jenis 1 (type 1 error)
Apa yang harus dilakukan dalam kasus residual tidak berperilaku baik, menghasilkan p-value yang salah dan bobot regresi yang mungkin bias? Terdapat beberapa rekomendasi praktis untuk memeriksa apakah persyaratan validitas sudah terpenuhi dengan cara berikut (Pedhazur dan Kerlinger 1982, Cohen dan Cohen 2003):
1. Plot residual sebagai histogram dan periksa secara visual bentuk distribusi untuk mencari bias, skewness dan kurtosis.
2. Periksa orthogonality residual untuk semua variabel independen, yaitu dengan menghitung korelasi masing-masing prediktor dengan residual dan menentukan apakah terdapat korelasi yang signifikan hadir.
3. Plot residual terhadap variabel independen - apakah terlihat struktur atau hubungan meskipun nilai korelasi secara nominal cukup rendah?
Kesimpulannya, jika residual dalam regresi linear berperilaku baik, bentuk distribusi variabel dependen atau independen tidak lagi relevan.
Transformasi variabel, misalnya menggunakan logaritma atau fungsi transendental lainnya, tidak akan menghasilkan perbedaan tingkat kebenaran dari inferensi statistik. Transformasi variabel cocok dilakukan jika terdapat keperluan interpretability atau kendala keterbatasan model uji, bukan untuk alasan memperbaiki bentuk distribusi variabel independen ataupun dependen.
Referensi
Altman, Douglas G. 1991. Practical statistics for medical research. [1st ed. London ; New York: Chapman and Hall.
Cohen, Jacob, and Jacob Cohen. 2003. Applied multiple regression / correlation analysis for the behavioral sciences. 3rd ed. Mahwah, N.J.: L. Erlbaum Associates.
Micceri, T. 1989. "The unicorn, the normal curve, and other improbable creatures." no. 105:156-166. doi: 10.1037/0033-2909.105.1.156.
Pedhazur, Elazar J., and Fred N. Kerlinger. 1982. Multiple regression in behavioral research : explanation and prediction. 2nd ed. New York: Holt, Rinehart, and Winston.
Wooldridge, Jeffrey M. 2002. Econometric analysis of cross section and panel data. Cambridge, Mass.: MIT Press.