Welcome you to the site of Trieu Kim Lanh
Bước 1: chốt tên đề tài
Khi có danh sách GVHD, liên hệ GV để được add vào nhóm, nộp lit-reiview cho GVHD theo mẫu excel, họp nhóm online lần 1 trao đổi về chốt đề tài thực hiện và viết đề cương.
Bước 2: sửa đề cương
1 tuần sau, họp nhóm online để sửa đề cương từng bạn. Sau đó hẹn ngày gặp trực tiếp ký.
Bước 3: tìm data và chạy mô hình
Sau khi đã nộp đề cương cho Khoa hoặc Ban CTCLC, 4 tuần tiếp theo, sinh viên tìm dữ liệu theo các biến đã đề xuất trong mô hình nghiên cứu, tự thực hiện chạy mô hình sơ bộ xem kết quả như thế nào.
Viết kết quả ra (trình bày chương 4). Lưu ý: khi đánh giá kết quả theo từng biến nên đánh giá theo 3 ý sau: (1) đánh giá từng biến theo kết quả thực nghiệm từ mô hình (cuối), (2) đánh giá kết quả từng biến so với cơ sở lý thuyết / các nghiên cứu trước (đã nêu trong giả thuyết), (3) đánh giá kết quả từng biến so với thực tiễn.
Bước 4: ký giữa tiến độ
GVHD chỉ ký giữa tiến độ khi sinh viên đã chạy được mô hình đề xuất và ra kết quả. Sinh viên trình bày (viết) khoá luận được đến đâu thì in ra và mang theo gặp cô để sửa đến đó.
Bước 5: sửa khoá luận
2 tuần tiếp theo, sinh viên viết tiếp hoàn thiện khoá luận (đủ 5 chương). Hẹn gặp cô để sửa khoá luận.
Bước 6: quét turnitin
Sau khi đã sửa khoá luận và hoàn chỉnh về hình thức. Sinh viên cung cấp email để GVHD add vào tài khoản turnitin và quét.
TUYỆT ĐỐI KHÔNG ĐƯỢC QUÉT KIỂM TRA ĐẠO VĂN BÊN NGOÀI. SV phải tự chịu trách nhiệm hoàn toàn nếu bài bị lưu kho bên ngoài.
Về tìm ý tưởng để thực hiện
Sinh viên nên tìm theo từ khoá (key word) trên google scholar để biết được vấn đề mình cần nghiên cứu đã được thực hiện bởi các nghiên cứu trước như thế nào. Ví dụ từ khoá: "tiền điện tử", "chính sách thuế", "mục tiêu phát triển bền vững", "phát triển kinh tế bền vững", "hành vi bầy đàn trên thị trường chứng khoán", "thuế quan", "độ mở tài chính", "độ mở thương mại", "phát triển tài chính", "tài chính toàn diện", "thao túng giá cổ phiếu", ... => tìm cả từ khoá tiếng Việt và tiếng Anh.
Ý tưởng có thể đến từ việc: nghe/xem bản tin kinh tế-tài chính, từ các môn học yêu thích, từ thầy cô gợi ý, từ sinh viên tham gia hoạt động NCKH, tham gia các cuộc thi, đi nghe hội thảo, ...
Về chọn đề tài khoá luận
Sinh viên không nên chọn những chủ đề mà đã được thực hiện quá nhiều bởi các đợt làm khoá luận trước đó. Sinh viên tránh bị bó buộc vào các đề tài mà các đợt khoá luận trước đã làm nhiều.
Dữ liệu có liên quan đến vấn đề nghiên cứu chính (biến phụ thuộc) và các biến độc lập có tìm được hay không? Phải hiểu được công thức tính của các biến, hiểu được dữ liệu.
Về thực hiện mô hình kinh tế lượng (thực nghiệm)
Link xem hướng dẫn chạy hồi quy mô hình dữ liệu bảng: link 1, link 2, NotebookLM
Link xem hướng dẫn chạy hồi quy mô hình dữ liệu chuỗi thời gian: vào kênh eureka uni (youtube) để xem theo từng mô hình nhé.
Sinh viên dùng phần mềm thống kê: Eviews, Stata, R, hay dùng Python thì lưu ý, đừng nhầm lẫn giữa phương pháp ước lượng, phần mềm thống kê sử dụng và tính mới của khoá luận.
Phân tích kết quả mô hình nên gắn với thực tiễn của nội dung nghiên cứu.
Về trình bày khoá luận
Sinh viên đảm bảo tuân thủ về mặt hình thức trình bày theo quy định HUB.
Trích dẫn và tài liệu tham khảo nên thực hiện bằng phần mềm để đảm bảo đúng quy định (ví dụ: dùng zotero).
Được phân biệt theo trường hợp số đối tượng (N) và số thời gian (T), cùng với các bước kiểm định và khắc phục lỗi liên quan.
I. Giới thiệu về Dữ liệu Bảng (Panel Data)
Dữ liệu bảng là một loại dữ liệu bao gồm các quan sát lặp lại theo thời gian của nhiều đối tượng. Nó tổng hợp thông tin từ dữ liệu chéo (nhiều đối tượng tại một thời điểm) và dữ liệu chuỗi thời gian (một đối tượng qua nhiều thời điểm).
Dữ liệu bảng có hai chiều thông tin chính:
Chiều không gian (N): đại diện cho số lượng các đối tượng, đơn vị chéo (ví dụ: công ty, quốc gia, cá nhân).
Chiều thời gian (T): đại diện cho số điểm thời gian mà mỗi đối tượng được quan sát.
Dữ liệu bảng có thể được phân loại thành:
Dữ liệu bảng cân bằng (Balanced Panel Data): Tất cả các đối tượng đều có cùng số điểm dữ liệu thời gian như nhau.
Dữ liệu bảng không cân bằng (Unbalanced Panel Data): Các đối tượng có số điểm dữ liệu thời gian khác nhau.
Ngoài ra, dữ liệu có thể được tổ chức dưới dạng:
Dạng dài (Long Format): Các quan sát của một đối tượng được xếp chồng lên nhau theo thời gian, sau đó đến đối tượng tiếp theo. Đây là định dạng phổ biến và thuận tiện cho phân tích trong Stata.
Dạng rộng (Wide Format): Các quan sát của cùng một biến được xếp ngang theo thời gian.
II. Quy trình ước lượng cơ bản trong Stata (Các bước chung)
Đây là các bước chung áp dụng cho hầu hết các phân tích dữ liệu bảng trong Stata:
Nhập liệu và Khai báo Dữ liệu Bảng:
Nhập dữ liệu: Trong Stata, bạn có thể nhập dữ liệu từ file Excel bằng cách vào File -> Import -> Excel spreadsheet và chọn file của bạn.
Kiểm tra và mã hóa biến: Sau khi nhập, kiểm tra dữ liệu bằng data editor. Nếu có biến hiển thị màu đỏ (dạng string), bạn cần mã hóa chúng sang dạng số bằng lệnh encode ten_bien, gen(ten_bien_moi).
Khai báo dữ liệu bảng: Sử dụng lệnh xtset để Stata nhận diện cấu trúc dữ liệu bảng của bạn. Cú pháp: xtset id_bien_doi_tuong bien_thoi_gian (ví dụ: xtset country year).
Thống kê Mô tả và Phân tích Tương quan:
Thống kê mô tả: Sử dụng sum ten_cac_bien để xem các thống kê cơ bản như trung bình, độ lệch chuẩn, min, max. Lệnh xtsum cung cấp thêm thông tin về biến động trong nội bộ (within) và giữa các đối tượng (between).
Phân tích tương quan: Sử dụng pwcorr ten_cac_bien hoặc corr ten_cac_bien để kiểm tra mối quan hệ giữa các biến. Bạn có thể thêm tùy chọn star(0.05) để hiển thị mức ý nghĩa thống kê.
III. Ước lượng các Mô hình Bảng Phổ biến
Các mô hình cơ bản cho dữ liệu bảng bao gồm:
Mô hình Pooled OLS: Ước lượng hồi quy OLS thông thường, bỏ qua cấu trúc bảng và coi tất cả các quan sát là độc lập. Lệnh: reg bien_phu_thuoc bien_doc_lap. Mô hình này thường không phù hợp trong thực tế do bỏ qua các khác biệt giữa các đối tượng.
Mô hình Hiệu ứng Cố định (Fixed Effects - FE): Kiểm soát các đặc điểm riêng không thay đổi theo thời gian của từng đối tượng (hiệu ứng cố định), bằng cách loại bỏ ảnh hưởng của chúng. Lệnh: xtreg bien_phu_thuoc bien_doc_lap, fe. FE hiệu quả trong việc xử lý các biến bị bỏ sót (omitted variables) không đổi theo thời gian. Các biến không thay đổi theo thời gian sẽ bị loại khỏi mô hình FE.
Mô hình Hiệu ứng Ngẫu nhiên (Random Effects - RE): Giả định rằng các khác biệt riêng giữa các đối tượng là ngẫu nhiên và không tương quan với các biến độc lập. Lệnh: xtreg bien_phu_thuoc bien_doc_lap, re.
IV. Lựa chọn Mô hình Tối ưu (Pooled OLS, FE, RE)
Sau khi ước lượng các mô hình, bạn cần thực hiện các kiểm định để chọn mô hình phù hợp nhất với dữ liệu của mình:
Kiểm định F-test (cho Pooled OLS vs. FE):
Kiểm định này được thực hiện tự động khi chạy xtreg ..., fe.
Giả thuyết H0: Tất cả các hiệu ứng cố định cá nhân đều bằng 0 (tức là Pooled OLS phù hợp hơn FE).
Nếu p-value nhỏ (ví dụ <0.05), bác bỏ H0, tức là mô hình FE phù hợp hơn Pooled OLS.
Kiểm định Breusch-Pagan Lagrange Multiplier (LM) test (cho Pooled OLS vs. RE):
Chạy mô hình RE trước: xtreg bien_phu_thuoc bien_doc_lap, re.
Sau đó chạy lệnh: xttest0.
Giả thuyết H0: Phương sai của các thành phần lỗi ngẫu nhiên cá nhân (u_i) bằng 0 (tức là Pooled OLS phù hợp hơn RE).
Nếu p-value nhỏ (ví dụ <0.05), bác bỏ H0, tức là mô hình RE phù hợp hơn Pooled OLS.
Kiểm định Hausman (cho FE vs. RE):
Ước lượng và lưu trữ kết quả của cả hai mô hình FE và RE:
xtreg bien_phu_thuoc bien_doc_lap, fe
estimates store fe_model.
xtreg bien_phu_thuoc bien_doc_lap, re
estimates store re_model.
Chạy kiểm định Hausman: hausman fe_model re_model.
Giả thuyết H0: Sự khác biệt trong các hệ số của FE và RE không có hệ thống (tức là RE phù hợp hơn FE).
Nếu p-value nhỏ (ví dụ <0.05), bác bỏ H0, tức là FE phù hợp hơn RE.
Lưu ý: Nếu kiểm định Hausman cho kết quả chi2 âm, bạn có thể thêm tùy chọn sigma more hoặc sigma vào lệnh Hausman (ví dụ: hausman fe_model re_model, sigma more) để điều chỉnh ma trận hiệp phương sai. Trong Stata 19, có thể sử dụng xtreg ..., cre để thực hiện kiểm định Hausman robust trực tiếp.
Kiểm định Đa Cộng Tuyến (Multicollinearity) cho mô hình được lựa chọn
Kiểm định đa cộng tuyến bằng lệnh vif (uncentered) sau khi chạy một mô hình hồi quy vừa lựa chọn. Nếu giá trị VIF lớn hơn 10 (theo quy tắc kinh nghiệm) thì có thể có vấn đề đa cộng tuyến nghiêm trọng và cần xử lý bằng cách loại bỏ biến hoặc gia tăng kích thước mẫu.
V. Kiểm định các Khuyết tật sau khi Chọn Mô hình
Sau khi chọn được mô hình tối ưu (FE hoặc RE), cần kiểm tra các khuyết tật của mô hình:
Phương sai thay đổi (Heteroscedasticity):
Đối với mô hình FE, sử dụng lệnh xttest3 sau khi chạy xtreg ..., fe. Lệnh này cần được cài đặt trước bằng ssc install xttest3.
Đối với mô hình RE, sử dụng lệnh xttest0 (Breusch-Pagan) sau khi chạy xtreg ..., re.
Giả thuyết H0: Không có phương sai thay đổi (homoscedasticity).
Nếu p-value nhỏ hơn 0.05 (hoặc mức ý nghĩa bạn chọn), bác bỏ H0, tức là có phương sai thay đổi.
Tự tương quan (Serial Correlation):
Đối với cả mô hình FE và RE, sử dụng lệnh xtserial sau khi chạy mô hình. Lệnh này cần được cài đặt trước bằng cách tìm kiếm và cài đặt gói st0039 (ví dụ: findit xtserial rồi chọn link cài đặt).
Giả thuyết H0: Không có tự tương quan bậc 1.
Nếu p-value nhỏ hơn 0.05, bác bỏ H0, tức là có tự tương quan.
Phụ thuộc chéo (Cross-sectional Dependence):
Lệnh kiểm định phổ biến là xtcsd ten_cac_bien. Lệnh này cũng cần cài đặt bằng ssc install xtcsd.
Giả thuyết H0: Không có phụ thuộc chéo giữa các đối tượng.
Nếu p-value nhỏ hơn 0.05, bác bỏ H0, tức là có phụ thuộc chéo.
Lưu ý: Đối với dữ liệu không cân bằng, có thể sử dụng xtcsd2.
Kiểm định Tính dừng (Unit Root Test) - Khi T lớn hơn N:
Tính dừng của chuỗi dữ liệu rất quan trọng khi T lớn hơn N đáng kể. Nếu T không đủ lớn, tính dừng không ảnh hưởng đáng kể.
Khi không có phụ thuộc chéo: Sử dụng các kiểm định tính dừng thế hệ thứ nhất như Levin-Lin-Chu (xtunitroot llc), Im-Pesaran-Shin (xtunitroot ips), Fisher-type (xtunitroot fisher), Harris-Tzavalis (xtunitroot ht). Lệnh chung: xtunitroot [ten_kiem_dinh] bien_moi_kiem_dinh.
Khi có phụ thuộc chéo: Sử dụng kiểm định tính dừng thế hệ thứ hai, phổ biến nhất là CIPS (xtciabs bien_moi_kiem_dinh). Lệnh này cần cài đặt trước.
Giả thuyết H0: Chuỗi có nghiệm đơn vị (tức là không dừng).
Nếu p-value nhỏ hơn 0.05, bác bỏ H0, tức là chuỗi là dừng.
Nếu biến không dừng, cần lấy sai phân bậc 1 (D.bien_moi_kiem_dinh) và kiểm định lại.
Kiểm định Đồng liên kết (Cointegration Test) - Khi biến không dừng:
Khi các biến không dừng ở cùng bậc I(1), cần kiểm định đồng liên kết để xác định mối quan hệ dài hạn.
Khi có phụ thuộc chéo: Sử dụng kiểm định Westerlund (xtcointtest westerlund list_bien).
Khi không có phụ thuộc chéo: Sử dụng kiểm định Pedroni (xtcointtest perroni list_bien) hoặc Kao (xtcointtest kao list_bien).
Giả thuyết H0: Không có đồng liên kết.
Nếu p-value nhỏ hơn 0.05, bác bỏ H0, tức là có đồng liên kết.
VI. Khắc phục Khuyết tật và các Mô hình Nâng cao
Tùy thuộc vào kết quả kiểm định, bạn sẽ có các hướng xử lý khác nhau:
A. Khắc phục Phương sai thay đổi và Tự tương quan:
Sai số chuẩn Robust/Cluster Robust:
Cách đơn giản nhất là sử dụng tùy chọn robust hoặc vce(cluster id_bien_doi_tuong) trong lệnh ước lượng (ví dụ: xtreg ..., fe robust hoặc xtreg ..., fe vce(cluster country)). Điều này điều chỉnh sai số chuẩn để ước lượng vẫn nhất quán dưới sự hiện diện của phương sai thay đổi hoặc tự tương quan, nhưng các hệ số ước lượng vẫn không bị chệch.
Ước lượng FGLS (Feasible Generalized Least Squares):
FGLS được sử dụng để khắc phục đồng thời phương sai thay đổi và tự tương quan.
Lệnh: xtgls bien_phu_thuoc bien_doc_lap, pa(heteroscedastic) corr(ar1).
Tùy chọn pa(): pa(heteroscedastic) để khắc phục phương sai thay đổi (P-value của xttest0/xttest3 nhỏ hơn 0.05). Nếu không có phương sai thay đổi thì không cần tùy chọn này.
Tùy chọn corr(): corr(ar1) để khắc phục tự tương quan bậc 1 (P-value của xtserial nhỏ hơn 0.05). Nếu không có tự tương quan thì không cần tùy chọn này.
Phân biệt theo N và T:
T lớn hơn N: Phương pháp FGLS của Park (1967) được áp dụng và Stata hỗ trợ trực tiếp bằng xtgls. Phương pháp này dựa trên tính chất tiệm cận của T.
N lớn hơn T: Phương pháp của Kiefer (1980) được đề xuất. Stata hiện chưa có lệnh sẵn cho trường hợp này, việc tính toán thường phải thực hiện thủ công.
Lưu ý: FGLS thường giả định các biến độc lập là ngoại sinh chặt. Kết quả FGLS có thể bị sai số chuẩn quá nhỏ, dẫn đến kết luận sai về ý nghĩa thống kê. Có thể đối chiếu với kết quả sai số chuẩn PCSE (xtpcse).
B. Khắc phục Nội sinh (Endogeneity):
Nội sinh xảy ra khi biến độc lập có tương quan với sai số.
Nguyên nhân: Thiếu biến (omitted variable bias), sai dạng hàm, tác động đồng thời, nhân quả ngược, sai số đo lường.
Hậu quả: Ước lượng OLS bị chệch và không nhất quán.
Phương pháp Biến Công cụ (Instrumental Variables - IV) / Bình phương bé nhất hai giai đoạn (2SLS):
Ý tưởng: Tìm một biến công cụ (Z) thỏa mãn hai điều kiện: Ngoại sinh (không tương quan với sai số) và Liên quan (có tương quan với biến nội sinh).
Kiểm định điều kiện liên quan: Kiểm tra tương quan trực tiếp giữa biến công cụ và biến nội sinh bằng pwcorr hoặc corr.
Kiểm định công cụ yếu (Weak Instruments): Xảy ra khi tương quan giữa biến công cụ và biến nội sinh quá yếu. Stata cung cấp các kiểm định F-statistic (ví dụ trong estat firststage sau ivregress) để đánh giá.
Kiểm định giới hạn nhận dạng quá mức (Overidentifying Restrictions) / Sargan test / Hansen test: Kiểm tra điều kiện ngoại sinh của các biến công cụ, chỉ thực hiện được khi số lượng biến công cụ nhiều hơn số lượng biến nội sinh. Giả thuyết H0: Các công cụ là hợp lệ (ngoại sinh).
Kiểm định biến nội sinh (Endogeneity Test) / Durbin-Wu-Hausman test: Kiểm tra liệu biến độc lập có thực sự nội sinh hay không. Giả thuyết H0: Biến là ngoại sinh.
Lệnh trong Stata:
ivregress 2sls bien_phu_thuoc (bien_noi_sinh = bien_cong_cu) bien_doc_lap_ngoai_sinh.
xtivreg bien_phu_thuoc (bien_noi_sinh = bien_cong_cu) bien_doc_lap_ngoai_sinh, fe (cho dữ liệu bảng).
Sử dụng tùy chọn first để hiển thị kết quả giai đoạn 1.
Phương pháp Mô men Tổng quát (Generalized Method of Moments - GMM):
Phù hợp cho mô hình bảng động (Dynamic Panel Models) nơi biến phụ thuộc trễ được sử dụng làm biến giải thích, tạo ra vấn đề nội sinh.
Lệnh trong Stata:
xtabond cho Arellano-Bond (difference GMM).
xtdpd cho Blundell-Bond (system GMM).
Kiểm định trong GMM:
Kiểm định tự tương quan AR(2): Kiểm tra giả định không có tự tương quan bậc hai trong sai số đã sai phân.
Kiểm định Sargan/Hansen: Kiểm tra tính hợp lệ của các công cụ.
Lưu ý: GMM thường yêu cầu T nhỏ và N lớn.
Mô hình ARDL dữ liệu bảng (Panel ARDL):
Ưu điểm: Ước lượng các mô hình mà trong đó các biến có thể dừng ở các bậc khác nhau (I(0) hoặc I(1)). Phù hợp với dữ liệu bảng nhỏ (N nhỏ). Cho phép các độ trễ khác nhau giữa các biến.
Lựa chọn độ trễ tối ưu: Sử dụng phương pháp của Pesaran và Cộng sự (2018) bằng cách chạy vòng lặp cho từng quốc gia và chọn độ trễ xuất hiện nhiều nhất.
Các phương pháp ước lượng: Mean Group (MG), Pooled Mean Group (PMG), Dynamic Fixed Effects (DFE).
Lệnh trong Stata: xtpmg.
VII. Trình bày và Giải thích Kết quả
Lưu kết quả ước lượng: Sau mỗi mô hình, bạn có thể lưu kết quả bằng estimates store ten_model_luu.
Trình bày bảng kết quả: Sử dụng lệnh est table (hoặc esttab, cần cài đặt ssc install esttab) để tạo bảng so sánh các mô hình. Bạn có thể tùy chỉnh tên cột, số chữ số thập phân, hiển thị sai số chuẩn, thống kê t/z/p-value, và dấu sao ý nghĩa thống kê.
Giải thích hệ số Beta (Standardized Beta Coefficients): Hệ số Beta là hệ số hồi quy đã chuẩn hóa, giúp loại bỏ ảnh hưởng của đơn vị đo và cho phép so sánh mức độ tác động của các biến độc lập lên biến phụ thuộc. Lệnh: reg bien_phu_thuoc bien_doc_lap, beta. Ý nghĩa: Khi biến độc lập tăng một độ lệch chuẩn của chính nó, biến phụ thuộc sẽ tăng (hoặc giảm) Beta lần độ lệch chuẩn của biến phụ thuộc.
Quy trình trên cung cấp một lộ trình toàn diện để phân tích dữ liệu bảng trong Stata, từ các mô hình cơ bản đến nâng cao, và cách xử lý các vấn đề thường gặp.
Dữ liệu bảng (Panel Data) là loại dữ liệu được thu thập cho nhiều đối tượng (ví dụ: cá nhân, công ty, quốc gia) qua nhiều thời điểm khác nhau, kết hợp các đặc tính của dữ liệu chéo và dữ liệu chuỗi thời gian. Dữ liệu bảng có thể là cân bằng (các đối tượng có số điểm thời gian thu thập dữ liệu giống nhau) hoặc không cân bằng (số điểm thời gian khác nhau giữa các đối tượng).
Dữ liệu bảng mang lại nhiều ưu điểm so với dữ liệu chéo hoặc chuỗi thời gian thuần túy, bao gồm việc cung cấp thông tin đa dạng, số lượng quan sát lớn hơn, nhiều bậc tự do hơn, giảm hiện tượng đa cộng tuyến và khả năng mô hình hóa cả đặc tính riêng lẫn chung của một nhóm.
Có nhiều mô hình dữ liệu bảng khác nhau, mỗi mô hình được sử dụng trong các trường hợp và điều kiện cụ thể:
Mô hình Pooled OLS (OLS gộp):
Mục đích: Là dạng hồi quy OLS cơ bản áp dụng cho dữ liệu bảng, coi tất cả các quan sát là độc lập và không xét đến các đặc điểm riêng của từng đối tượng hoặc tác động thời gian.
Khi sử dụng: Mô hình này giả định rằng không có sự khác biệt về thông tin theo thời gian hoặc không gian giữa các đối tượng. Trong thực tế, đây thường là mô hình kém phù hợp nhất do hầu hết dữ liệu bảng đều có những khác biệt cá nhân không quan sát được.
Mô hình hiệu ứng cố định (Fixed Effects Model - FEM hay FE):
Mục đích: Kiểm soát các đặc điểm riêng của từng đối tượng không thay đổi theo thời gian nhưng có thể ảnh hưởng hoặc làm thiên lệch các biến độc lập. Mô hình này loại bỏ ảnh hưởng của các đặc tính cố định theo thời gian đó.
Khi sử dụng:
Khi bạn quan tâm đến việc phân tích tác động của các biến thay đổi theo thời gian.
Khi các đặc tính riêng của từng đối tượng được giả định là duy nhất và có tương quan với các biến độc lập trong mô hình.
Kiểm định lựa chọn: Để lựa chọn giữa mô hình FE và Pooled OLS, sử dụng kiểm định F-test. Nếu F-test có ý nghĩa thống kê (p < 0.05), FE được ưu tiên hơn Pooled OLS.
Để lựa chọn giữa mô hình FE và RE, sử dụng kiểm định Hausman. Nếu kiểm định Hausman bác bỏ giả thuyết H0 (tức là có sự khác biệt hệ thống trong các hệ số hoặc hiệu ứng cá nhân Ui có tương quan với biến độc lập), thì FE là mô hình phù hợp hơn.
Hạn chế: Mô hình FE không thể ước lượng các hệ số cho các biến không đổi theo thời gian.
Mô hình hiệu ứng ngẫu nhiên (Random Effects Model - REM hay RE):
Mục đích: Ước lượng tác động của các đặc điểm riêng của từng đối tượng, giả định rằng các đặc điểm này là các biến ngẫu nhiên và không tương quan với các biến độc lập.
Khi sử dụng:
Khi bạn tin rằng các đặc điểm riêng của các đối tượng là ngẫu nhiên và không tương quan với các biến độc lập.
Kiểm định lựa chọn: Để lựa chọn giữa mô hình RE và Pooled OLS, sử dụng kiểm định Breusch-Pagan. Nếu kiểm định này có ý nghĩa, RE được ưu tiên hơn Pooled OLS.
Để lựa chọn giữa mô hình FE và RE, sử dụng kiểm định Hausman. Nếu kiểm định Hausman chấp nhận giả thuyết H0 (tức là không có sự khác biệt hệ thống trong các hệ số hoặc hiệu ứng cá nhân Ui không tương quan với biến độc lập), thì RE là mô hình phù hợp hơn.
Ưu điểm: Có thể ước lượng hệ số cho các biến không đổi theo thời gian.
Mô hình bình phương tối thiểu tổng quát khả thi (Feasible Generalized Least Squares - FGLS):
Mục đích: Khắc phục các vấn đề liên quan đến sai số của mô hình như phương sai sai số thay đổi (heteroscedasticity) và tự tương quan (serial correlation). Ngoài ra, nó cũng có thể xử lý tương quan chéo (cross-sectional dependence) trong một số trường hợp.
Khi sử dụng: Sau khi kiểm định và phát hiện các vấn đề về phương sai sai số thay đổi hoặc tự tương quan hoặc cả hai trong các mô hình Pooled OLS, FE, hoặc RE.
Việc lựa chọn phương pháp FGLS cụ thể (ví dụ: phương pháp Park hoặc Kiefer-Wooldridge) phụ thuộc vào kích thước tương đối của N (số đối tượng) và T (số giai đoạn thời gian). Đặc biệt, nếu T nhỏ hơn N và có tương quan chéo, FGLS có thể không thực hiện được do ma trận hiệp phương sai bị suy biến.
Mô hình biến công cụ (Instrumental Variables - IV) / Bình phương bé nhất hai giai đoạn (Two-Stage Least Squares - 2SLS):
Mục đích: Xử lý vấn đề biến nội sinh (endogeneity), xảy ra khi một biến độc lập có tương quan với sai số của mô hình. Các nguyên nhân của nội sinh bao gồm biến thiếu, dạng hàm sai, tác động đồng thời, nhân quả ngược, và sai số đo lường. Hậu quả của nội sinh là ước lượng OLS bị chệch và không nhất quán.
Khi sử dụng: Khi nghi ngờ có biến nội sinh trong mô hình hồi quy. IV/2SLS yêu cầu tìm một biến công cụ (instrumental variable) Z thỏa mãn hai điều kiện: ngoại sinh (không tương quan với sai số) và liên quan (có tương quan với biến nội sinh).
2SLS là một thủ tục cụ thể của IV khi có nhiều biến công cụ cho một biến nội sinh hoặc nhiều biến nội sinh.
Kiểm định: Cần kiểm tra tính nội sinh của biến độc lập (ví dụ: kiểm định Durbin-Wu-Hausman) và tính hợp lệ của biến công cụ (kiểm định overidentifying restrictions, ví dụ: Sargan test). Vấn đề biến công cụ yếu (weak instruments) cũng cần được xem xét.
Mô hình Phương pháp tổng quát các momen (Generalized Method of Moments - GMM):
Mục đích: Ước lượng các mô hình bảng động (dynamic panel models) có chứa biến phụ thuộc trễ làm biến giải thích. GMM khắc phục vấn đề nội sinh phát sinh từ sự tương quan giữa biến phụ thuộc trễ và sai số của mô hình.
Khi sử dụng: Chủ yếu cho các mô hình động. Có hai loại GMM chính là Difference GMM (Arellano-Bond) và System GMM (Blundell-Bond).
Kiểm định: Các kiểm định quan trọng cho GMM bao gồm kiểm định tự tương quan (AR test) để kiểm tra các phần dư và kiểm định giới hạn nhận dạng quá mức (Sargan/Hansen test). Số lượng biến công cụ thường cần nhỏ hơn số nhóm.
Mô hình tự hồi quy với độ trễ phân phối trong dữ liệu bảng (Panel Autoregressive Distributed Lag - Panel ARDL):
Mục đích: Nhận diện mối quan hệ dài hạn giữa các biến trong dữ liệu bảng, đặc biệt hữu ích khi các biến có thể dừng ở các bậc khác nhau (I(0) hoặc I(1)). Panel ARDL phù hợp với dữ liệu bảng có kích thước mẫu nhỏ.
Khi sử dụng: Khi các biến nghiên cứu không dừng (non-stationary) nhưng có mối quan hệ đồng liên kết (cointegration) trong dài hạn.
Các phương pháp ước lượng: Bao gồm MG (Mean Group), PMG (Pooled Mean Group), và DFE (Dynamic Fixed Effects).
Kiểm định tiền đề: Trước khi sử dụng Panel ARDL, cần thực hiện kiểm định tính dừng (Panel Unit Root Test) để xác định bậc dừng của các biến và kiểm định đồng liên kết (Panel Cointegration Test) để xác định sự tồn tại mối quan hệ dài hạn.
Dữ liệu bảng (Panel Data) là loại dữ liệu được thu thập cho nhiều đối tượng (hay còn gọi là đơn vị chéo, ký hiệu là N) qua nhiều thời điểm khác nhau (hay còn gọi là giai đoạn thời gian, ký hiệu là T). Dữ liệu bảng kết hợp các đặc tính của dữ liệu chéo và dữ liệu chuỗi thời gian, mang lại nhiều ưu điểm như cung cấp thông tin đa dạng, số lượng quan sát lớn hơn, nhiều bậc tự do hơn, giảm hiện tượng đa cộng tuyến và khả năng mô hình hóa cả đặc tính riêng lẫn chung của một nhóm. Dữ liệu bảng có thể là cân bằng (các đối tượng có số điểm thời gian thu thập dữ liệu giống nhau) hoặc không cân bằng (số điểm thời gian khác nhau giữa các đối tượng).
Việc lựa chọn mô hình dữ liệu bảng phù hợp phụ thuộc vào mối quan hệ giữa N (số đối tượng/đơn vị chéo) và T (số thời điểm/giai đoạn), cùng với các đặc điểm của dữ liệu và giả định của mô hình.
a. Trường hợp N lớn, T nhỏ (Short Panel)
Đặc điểm: Đây là trường hợp phổ biến, đặc biệt với dữ liệu cấp doanh nghiệp, chứng khoán hoặc lao động, nơi bạn có thể thu thập dữ liệu từ hàng chục đến hàng trăm đối tượng trong một khoảng thời gian tương đối ngắn (ví dụ T < 30 hoặc T < N). Trong trường hợp này, tính dừng của chuỗi dữ liệu thường không ảnh hưởng đáng kể.
Mô hình phổ biến:
Mô hình Pooled OLS (OLS gộp): Coi tất cả các quan sát là độc lập và không tính đến các đặc điểm riêng của từng đối tượng hoặc tác động thời gian. Mô hình này thường ít phù hợp nhất trong thực tế do bỏ qua các khác biệt không quan sát được giữa các đối tượng.
Mô hình hiệu ứng cố định (Fixed Effects Model - FEM hay FE): Kiểm soát các đặc điểm riêng của từng đối tượng không thay đổi theo thời gian nhưng có thể gây thiên lệch các biến độc lập. Mô hình này phù hợp khi các đặc tính riêng của từng đối tượng là duy nhất và có tương quan với các biến độc lập trong mô hình. Tuy nhiên, FEM không thể ước lượng các hệ số cho các biến không đổi theo thời gian.
Mô hình hiệu ứng ngẫu nhiên (Random Effects Model - REM hay RE): Ước lượng tác động của các đặc điểm riêng của từng đối tượng, giả định rằng các đặc điểm này là các biến ngẫu nhiên và không tương quan với các biến độc lập. Ưu điểm của REM là có thể ước lượng hệ số cho các biến không đổi theo thời gian.
Xử lý các vấn đề:
Nội sinh (Endogeneity): Nếu có nghi ngờ biến độc lập có tương quan với sai số của mô hình (nội sinh), có thể sử dụng Instrumental Variables (IV) / Two-Stage Least Squares (2SLS) (ví dụ dùng lệnh ivregress hoặc xtivreg trong Stata).
Phương sai sai số thay đổi (Heteroscedasticity) và Tự tương quan (Serial Correlation): Có thể khắc phục bằng cách sử dụng Robust Standard Errors hoặc Feasible Generalized Least Squares (FGLS). Với N lớn hơn T, phương pháp FGLS của Park có nhiều yếu điểm và kết quả có thể không đáng tin cậy. Thay vào đó, cần cân nhắc phương pháp của Kiefer (1980) cho ước lượng FE và OLS gộp. Lệnh xtgls mặc định trong Stata chỉ phù hợp cho T lớn hơn N.
Tương quan chéo (Cross-sectional dependence - CSD): Cần kiểm tra CSD. Với N lớn, T nhỏ, nếu có CSD, cần sử dụng các mô hình chuyên dụng để kiểm soát vấn đề này, ví dụ như hồi quy kinh tế lượng không gian (spatial regression).
b. Trường hợp T lớn, N nhỏ (Long Panel)
Đặc điểm: Dữ liệu có nhiều điểm thời gian cho mỗi đối tượng (ví dụ T > 30 hoặc T > N). Trong trường hợp này, kiểm định tính dừng của chuỗi dữ liệu trở nên cần thiết để tránh hồi quy giả mạo.
Mô hình phổ biến:
Panel Autoregressive Distributed Lag (Panel ARDL): Hữu ích khi các biến có thể dừng ở các bậc khác nhau (I(0) hoặc I(1)) và khi cần nhận diện mối quan hệ dài hạn giữa các biến. Panel ARDL phù hợp với dữ liệu bảng có kích thước mẫu nhỏ. Các phương pháp ước lượng bao gồm Mean Group (MG), Pooled Mean Group (PMG), và Dynamic Fixed Effects (DFE).
Generalized Method of Moments (GMM): Chủ yếu được sử dụng cho các mô hình bảng động (dynamic panel models) có chứa biến phụ thuộc trễ làm biến giải thích (ví dụ Y_it-1), nhằm khắc phục vấn đề nội sinh phát sinh từ sự tương quan giữa biến phụ thuộc trễ và sai số của mô hình. Có hai loại GMM chính là Difference GMM (Arellano-Bond) và System GMM (Blundell-Bond).
FGLS: Với T lớn hơn N, phương pháp FGLS của Park (1967) có thể phù hợp để giải quyết phương sai sai số thay đổi, tự tương quan (bậc 1) và tương quan chéo.
c. Trường hợp N và T đều lớn (Large N, Large T)
Trong trường hợp cả N và T đều lớn, các mô hình như Panel ARDL và GMM vẫn là những lựa chọn mạnh mẽ. Các kiểm định tính dừng và đồng liên kết vẫn rất quan trọng.
Để quyết định mô hình phù hợp, quy trình phân tích dữ liệu bảng thường tuân theo các bước và kiểm định sau:
a. Chuẩn bị dữ liệu và kiểm tra ban đầu
Nhập dữ liệu và mã hóa biến: Nhập dữ liệu vào phần mềm (ví dụ Stata) và đảm bảo các biến dạng chuỗi (string) được mã hóa sang dạng số nếu cần.
Khai báo dữ liệu bảng (xtset): Bắt buộc phải thực hiện để phần mềm nhận diện dữ liệu bảng, chỉ định biến đối tượng (ID) và biến thời gian (Year/Time). Ví dụ trong Stata: xtset ID Year.
Thống kê mô tả (sum, xtsum): Cung cấp thông tin cơ bản về dữ liệu (trung bình, độ lệch chuẩn, min, max, số quan sát) và đặc biệt với xtsum, phân tích độ biến động giữa các nhóm (between) và trong nhóm (within).
Phân tích tương quan (pwcorr hoặc cor): Đánh giá mối quan hệ giữa các biến và tìm dấu hiệu của đa cộng tuyến.
Kiểm định đa cộng tuyến (vif): Kiểm tra xem mô hình có bị đa cộng tuyến nghiêm trọng hay không. Nếu VIF lớn hơn 10 (hoặc 5), cân nhắc loại bỏ biến.
b. Lựa chọn mô hình tĩnh cơ bản (Pooled OLS, FE, RE)
Ước lượng các mô hình:
Pooled OLS: Lệnh reg.
Fixed Effects: Lệnh xtreg với tùy chọn fe (ví dụ: xtreg depvar indepvars, fe).
Random Effects: Lệnh xtreg với tùy chọn re (ví dụ: xtreg depvar indepvars, re).
Lưu trữ kết quả: Sử dụng lệnh estimates store [tên mô hình] để lưu trữ kết quả của từng mô hình (ví dụ: estimates store ols, estimates store fe, estimates store re).
Kiểm định lựa chọn mô hình:
Kiểm định F-test (Pooled OLS so với FE): Kiểm tra xem các hiệu ứng cá nhân có đồng thời bằng 0 hay không. H0: Không có sự khác biệt giữa Pooled OLS và FE (tức là tất cả các hiệu ứng cá nhân bằng 0). Nếu p-value < 0.05, bác bỏ H0, chọn FE.
Kiểm định Breusch-Pagan LM test (xttest0) (Pooled OLS so với RE): Kiểm tra xem phương sai của hiệu ứng ngẫu nhiên có bằng 0 hay không. H0: Phương sai của hiệu ứng ngẫu nhiên bằng 0 (tức là RE không phù hợp, nên dùng Pooled OLS). Nếu p-value < 0.05, bác bỏ H0, chọn RE.
Kiểm định Hausman (hausman FE RE): Đây là kiểm định quan trọng nhất để chọn giữa FE và RE.
H0: Hiệu ứng ngẫu nhiên (Ui) không tương quan với các biến độc lập (tức là RE là phù hợp và cho ước lượng không chệch và nhất quán).
H1: Hiệu ứng ngẫu nhiên (Ui) có tương quan với các biến độc lập (tức là RE bị chệch, FE là phù hợp và cho ước lượng nhất quán).
Quy tắc quyết định: Nếu p-value nhỏ hơn 0.05 (hoặc mức ý nghĩa khác), bác bỏ H0, chọn FE. Ngược lại, nếu p-value lớn hơn 0.05, chấp nhận H0, chọn RE.
Lưu ý: Kiểm định Hausman có thể gặp vấn đề nếu ma trận hiệp phương sai không xác định dương. Có thể dùng tùy chọn sigma_more hoặc vc_cluster để khắc phục.
c. Kiểm định khuyết tật sau khi chọn mô hình (FE hoặc RE)
Sau khi đã chọn được mô hình FE hoặc RE, cần kiểm tra các khuyết tật sau:
Kiểm định Phương sai sai số thay đổi (Heteroscedasticity):
Với FE: Sử dụng lệnh xttest3. H0: Mô hình đồng nhất (homoscedasticity). Nếu p-value < 0.05, bác bỏ H0, mô hình có phương sai sai số thay đổi.
Với RE: Sử dụng lệnh xttest0. H0: Không có phương sai sai số thay đổi. Nếu p-value < 0.05, bác bỏ H0, mô hình có phương sai sai số thay đổi.
Kiểm định Tự tương quan (Serial Correlation):
Sử dụng lệnh xtserial (kiểm định Wooldridge). H0: Không có tự tương quan bậc 1. Nếu p-value < 0.05, bác bỏ H0, mô hình có tự tương quan.
Kiểm định Tương quan chéo (Cross-sectional dependence - CSD):
Sử dụng lệnh xtcsd. H0: Không có phụ thuộc chéo. Nếu p-value < 0.05, bác bỏ H0, mô hình có phụ thuộc chéo.
Lưu ý: Với N lớn và T nhỏ, nếu có CSD, cần xem xét các mô hình chuyên biệt.
d. Xử lý khuyết tật (nếu có)
Nếu mô hình được chọn có các khuyết tật (phương sai sai số thay đổi, tự tương quan, hoặc tương quan chéo), cần khắc phục bằng:
Robust Standard Errors: Sử dụng tùy chọn robust trong lệnh hồi quy (ví dụ: xtreg depvar indepvars, fe robust).
Feasible Generalized Least Squares (FGLS): Sử dụng lệnh xtgls. Có thể khắc phục đồng thời phương sai sai số thay đổi và tự tương quan (ví dụ: xtgls depvar indepvars, panels(heteroscedastic) corr(ar1)).
Lưu ý về N và T: Lệnh xtgls mặc định trong Stata chỉ phù hợp cho trường hợp T lớn hơn N. Với N lớn hơn T, cần cân nhắc phương pháp của Kiefer-Wooldridge hoặc tính toán thủ công.
e. Kiểm định tính dừng và đồng liên kết (chủ yếu cho T lớn)
Các kiểm định này đặc biệt quan trọng nếu T lớn.
Kiểm định tính dừng (Panel Unit Root Test): Nếu các biến không dừng (non-stationary), kết quả hồi quy có thể bị chệch.
Sử dụng lệnh xtunitroot.
Các phương pháp phổ biến bao gồm Levin-Lin-Chu (LLC), Im-Pesaran-Shin (IPS), Hadri, và Fisher-type.
Việc lựa chọn phương pháp kiểm định tính dừng thế hệ thứ nhất hay thế hệ thứ hai phụ thuộc vào việc có sự phụ thuộc chéo giữa các đối tượng hay không. Nếu có phụ thuộc chéo, nên dùng kiểm định thế hệ thứ hai (ví dụ: xtcips).
Kiểm định đồng liên kết (Panel Cointegration Test): Nếu các biến không dừng nhưng có mối quan hệ dài hạn.
Sử dụng lệnh xtcointtest.
Các phương pháp phổ biến bao gồm Pedroni, Kao, Westerlund, Peroni. Lựa chọn phương pháp cũng phụ thuộc vào sự có mặt của phụ thuộc chéo.
Nếu có đồng liên kết, cân nhắc mô hình dài hạn như Panel ARDL, DOLS hoặc VECM.
f. Mô hình bảng động (Dynamic Panel Models)
Nếu mô hình chứa biến phụ thuộc trễ (ví dụ: Y_it = alpha * Y_it-1 + beta * X_it + epsilon_it), sẽ phát sinh vấn đề nội sinh do Y_it-1 tương quan với epsilon_it.
Generalized Method of Moments (GMM): Là phương pháp chính để ước lượng mô hình động và xử lý nội sinh này.
Các kiểm định liên quan cho GMM bao gồm kiểm định tự tương quan (AR(1) và AR(2) cho phần dư) và kiểm định giới hạn nhận dạng quá mức (Sargan/Hansen test).
Sau khi đã hoàn thành các bước kiểm định và xử lý khuyết tật, bạn có thể tự tin hơn vào kết quả ước lượng và tiến hành phân tích, luận giải kết quả của mô hình đã chọn. Bạn có thể sử dụng các lệnh như esttab, outreg2, hoặc estimates table để xuất kết quả hồi quy ra các định dạng khác nhau (Word, Excel) để báo cáo.
Để trả lời câu hỏi về mô hình FEM (Fixed Effects Model) và REM (Random Effects Model) một chiều và hai chiều, chúng ta sẽ đi sâu vào cấu trúc dữ liệu bảng và cách các mô hình này xử lý các yếu tố không quan sát được.
Dữ liệu của bạn có N = 27 doanh nghiệp (số đối tượng) và T = 5 năm (số thời gian quan sát), đây là dạng dữ liệu bảng "N lớn, T nhỏ" hay "short panel".
Dữ liệu bảng (Panel data) là sự kết hợp của dữ liệu chuỗi thời gian (time series) và dữ liệu cắt ngang (cross-sectional). Nó có hai chiều thông tin:
Chiều không gian (cross-sectional dimension): Là chiều của các đối tượng (ví dụ: các doanh nghiệp, quốc gia, cá nhân). Ký hiệu là N (số lượng đối tượng).
Chiều thời gian (time dimension): Là chiều của các mốc thời gian (ví dụ: các năm, quý, tháng). Ký hiệu là T (số lượng thời gian quan sát).
Khi nói đến mô hình "chiều", chúng ta thường đề cập đến cách mô hình kiểm soát các yếu tố không quan sát được (unobserved effects) theo các chiều này, thường được gom vào thành phần sai số.
Mô hình FEM và REM một chiều (one-way) là các mô hình cơ bản nhất của dữ liệu bảng, chúng tập trung kiểm soát các yếu tố không quan sát được theo chiều không gian (đối tượng). Điều này có nghĩa là chúng kiểm soát các đặc điểm riêng biệt, không thay đổi theo thời gian của từng đối tượng.
Mô hình FEM một chiều (One-way Fixed Effects Model):
Kiểm soát các đặc tính riêng (individual characteristics) của từng đối tượng không thay đổi theo thời gian (ký hiệu là $\alpha_i$ hoặc $u_i$). Các đặc tính này có thể là nguyên nhân gây ra tương quan với các biến độc lập trong mô hình.
Để làm điều này, FEM sử dụng các biến giả (dummy variables) cho từng đối tượng (N-1 biến giả nếu có N đối tượng). Do đó, nó còn được gọi là mô hình LSDV (Least Squares Dummy Variable).
Hạn chế: Các biến độc lập không thay đổi theo thời gian (ví dụ: giới tính, chủng tộc, khoảng cách địa lý nếu không đổi) sẽ bị loại bỏ khỏi mô hình (omitted) vì chúng bị trùng lặp với các biến giả cố định của đối tượng.
Trong Stata: Sử dụng lệnh xtreg y x1 x2, fe.
Mô hình REM một chiều (One-way Random Effects Model):
Cũng tính đến các đặc tính riêng của từng đối tượng ($u_i$) nhưng xem chúng là các giá trị ngẫu nhiên được rút ra từ một phân phối, và giả định rằng chúng không tương quan với các biến độc lập.
REM sử dụng cả thông tin "trong nhóm" (within-variation) và "giữa các nhóm" (between-variation) của dữ liệu để ước lượng.
Trong Stata: Sử dụng lệnh xtreg y x1 x2, re.
Mô hình FEM và REM hai chiều (two-way) là các mô hình nâng cao hơn, chúng kiểm soát đồng thời cả các yếu tố không quan sát được theo chiều không gian (đối tượng) và chiều thời gian.
Ngoài các đặc tính riêng của từng đối tượng ($\alpha_i$), mô hình hai chiều còn bao gồm các tác động cố định theo thời gian (time fixed effects), thường được ký hiệu là $\delta_t$ hoặc $v_t$. Các tác động này đại diện cho những yếu tố không quan sát được, chung cho tất cả các đối tượng tại một thời điểm nhất định (ví dụ: chính sách kinh tế vĩ mô, biến động thị trường chung trong một năm cụ thể).
Khi nào nên kiểm tra mô hình hai chiều:
Bạn nên cân nhắc kiểm tra mô hình hai chiều khi có lý do để tin rằng có những yếu tố không quan sát được ảnh hưởng đến tất cả các doanh nghiệp của bạn trong cùng một năm (hoặc cùng một thời kỳ), ngoài các đặc điểm riêng của từng doanh nghiệp. Ví dụ, một cuộc khủng hoảng kinh tế toàn cầu sẽ ảnh hưởng đến tất cả 27 doanh nghiệp trong một năm cụ thể.
Một cách thực tế để kiểm tra là sau khi đã chọn được mô hình tĩnh (FEM hoặc REM một chiều) bằng kiểm định Hausman test, bạn sẽ chạy lại mô hình đó và thêm vào các biến giả thời gian (time dummy variables).
Sau đó, bạn có thể thực hiện một kiểm định đồng thời (joint F-test) để xem liệu các biến giả thời gian này có đồng thời bằng không hay không. Nếu p-value của kiểm định này nhỏ hơn mức ý nghĩa (ví dụ 0.05), điều đó cho thấy các tác động cố định theo thời gian là có ý nghĩa thống kê và bạn nên sử dụng mô hình hai chiều.
Trong Stata:
FEM hai chiều: Sử dụng lệnh xtreg y x1 x2 i.year, fe (trong đó year là biến thời gian của bạn).
REM hai chiều: Sử dụng lệnh xtreg y x1 x2 i.year, re.
Đối với Stata 19, có thêm lệnh xtreg ..., cre cho mô hình Correlated Random Effects (CRE), cho phép ước lượng hệ số của FEM nhưng vẫn giữ lại các biến không đổi theo thời gian và là một lựa chọn cho kiểm định Hausman robust.
Theo các nguồn cung cấp, quy trình phân tích dữ liệu bảng tĩnh thường bao gồm các bước sau:
Khai báo dữ liệu bảng: Sử dụng lệnh xtset ID_variable Time_variable trong Stata.
Ước lượng các mô hình cơ bản: Chạy Pooled OLS, FEM (Fixed Effects Model) và REM (Random Effects Model).
Pooled OLS: reg y x1 x2.
FEM (Fixed Effects): xtreg y x1 x2, fe.
REM (Random Effects): xtreg y x1 x2, re.
Lựa chọn mô hình tối ưu giữa ba mô hình cơ bản:
Kiểm định F-test để so sánh FEM và Pooled OLS (kiểm tra xem các hiệu ứng cá thể có đồng thời bằng 0 không). Nếu F-test bác bỏ H0, chọn FEM.
Kiểm định Breusch-Pagan LM test (hoặc xttest0 trong Stata) để so sánh REM và Pooled OLS (kiểm tra xem phương sai của hiệu ứng ngẫu nhiên có bằng 0 không). Nếu p-value nhỏ hơn 0.05, chọn REM.
Kiểm định Hausman test để lựa chọn giữa FEM và REM.
H0: REM là phù hợp (không có tương quan giữa sai số cá thể và biến độc lập).
Nếu p-value < 0.05 (bác bỏ H0), chọn FEM.
Nếu p-value > 0.05 (chấp nhận H0), chọn REM.
Bạn có thể dùng tùy chọn sigmamore để khắc phục lỗi ma trận hiệp phương sai không xác định dương trong Hausman test.
Kiểm định khuyết tật sau mô hình: Sau khi chọn được mô hình (thường là FEM hoặc REM), cần kiểm tra các khuyết tật như phương sai thay đổi (heteroskedasticity) và tự tương quan (serial correlation).
Phương sai thay đổi: Sử dụng xttest3 cho FEM hoặc xttest0 cho REM.
Tự tương quan: Sử dụng xtserial cho cả FEM và REM.
Tương quan chéo (cross-sectional dependence): Sử dụng xtcsd.
Khắc phục khuyết tật:
Cách phổ biến và đơn giản nhất là sử dụng sai số chuẩn vững (Robust Standard Errors) bằng tùy chọn vce(robust) hoặc vce(cluster ID_variable). Phương pháp này không thay đổi hệ số mà chỉ điều chỉnh sai số chuẩn để kết quả suy luận không bị sai lệch.
Ước lượng FGLS (Feasible Generalized Least Squares): Tuy nhiên, với dữ liệu N lớn, T nhỏ (như của bạn), lệnh xtgls mặc định của Stata (theo phương pháp Park) không phù hợp và có thể cho kết quả sai lệch hoặc không chạy được. Trong trường hợp N lớn hơn T, cần dùng General FGLS (của Kiefer/Wooldridge), nhưng Stata chưa có lệnh tích hợp sẵn.
Xử lý biến nội sinh (Endogeneity): Nếu bạn nghi ngờ có biến nội sinh (ví dụ: biến phụ thuộc trễ), có thể cân nhắc:
GMM (Generalized Method of Moments): Đặc biệt phù hợp cho dữ liệu bảng "N lớn, T nhỏ" và có biến nội sinh, đặc biệt khi có biến phụ thuộc trễ trong mô hình (mô hình động).
IV (Instrumental Variables) / 2SLS (Two-Stage Least Squares): Nếu bạn có thể tìm được biến công cụ phù hợp.
Hy vọng phần giải thích này giúp bạn hiểu rõ hơn về các mô hình FEM/REM một chiều và hai chiều, cũng như khi nào nên sử dụng chúng cho dữ liệu của bạn.