Trong thực hành Stata,ta thường áp dụng một quy trình gần như mặc định: chạy hồi quy OLS, FEM, REM, chọn mô hình, kiểm định phương sai sai số thay đổi, nếu phát hiện heteroskedasticity thì chuyển sang FGLS để “khắc phục”. Quy trình này về mặt kỹ thuật không sai, nhưng về mặt học thuật lại có thể chưa đủ điều kiện để kết luận rằng FGLS là lựa chọn phù hợp.
Trên thực tế, nhiều tài liệu kinh tế lượng kinh điển đã chỉ ra rằng FGLS chỉ phát huy hiệu quả trong những điều kiện nhất định, và trong không ít trường hợp dữ liệu luận văn, việc dùng FGLS còn làm suy luận thống kê kém tin cậy hơn so với các phương án đơn giản hơn.
Vấn đề mấu chốt nằm ở chỗ: FGLS phụ thuộc rất mạnh vào chất lượng ước lượng cấu trúc sai số. Khi cấu trúc này không được ước lượng tốt, FGLS không những không cải thiện mô hình mà còn tạo ra kết quả “đẹp giả”, dễ bị phản biện khi đánh giá khoa học.
Trường hợp 1: Cỡ mẫu nhỏ – FGLS kém tin cậy hơn OLS/FE với robust
Trong mẫu nhỏ hoặc mẫu vừa – tình huống rất phổ biến trong luận văn thạc sĩ và nhiều nghiên cứu ứng dụng – việc ước lượng ma trận phương sai–hiệp phương sai của sai số thường không ổn định. Greene (2018) chỉ ra rằng trong bối cảnh này, FGLS có thể hoạt động kém do chính sai số trong bước ước lượng cấu trúc phương sai, khiến toàn bộ ước lượng phía sau bị ảnh hưởng. Cụ thể, ông nhấn mạnh rằng trong mẫu nhỏ, feasible GLS có thể cho kết quả kém hơn OLS vì ma trận hiệp phương sai của sai số được ước lượng với sai số lớn.
Wooldridge (2010) cũng đưa ra lập luận tương tự khi cho rằng trong nhiều nghiên cứu thực nghiệm với cỡ mẫu không lớn, việc sử dụng sai số chuẩn mạnh (robust standard errors) thường được ưu tiên hơn FGLS vì không yêu cầu phải ước lượng chính xác cấu trúc phương sai sai số. Điều này có nghĩa là, phát hiện phương sai sai số thay đổi không đồng nghĩa với việc FGLS luôn là lựa chọn tốt hơn.
Trường hợp 2: Dữ liệu panel với T nhỏ, N lớn
Trong dữ liệu bảng, đặc biệt là các nghiên cứu có số năm quan sát (T) nhỏ nhưng số đơn vị quan sát (N) lớn, việc ước lượng cấu trúc sai số theo thời gian là rất khó chính xác. Wooldridge (2010) cho rằng trong trường hợp T nhỏ, các ước lượng FGLS yêu cầu ước lượng ma trận hiệp phương sai của sai số thường hoạt động kém và dễ nhạy cảm với sai lệch mô hình.
Baltagi (2005) cũng khuyến nghị rằng với panel data dạng N lớn – T nhỏ, mô hình tác động cố định hoặc ngẫu nhiên kết hợp với sai số chuẩn mạnh thường là lựa chọn an toàn hơn so với GLS. Điều này đặc biệt quan trọng trong luận văn, nơi mục tiêu không chỉ là ước lượng mà còn là bảo vệ lập luận trước phản biện khoa học.
Trường hợp 3: Ưu tiên suy luận khoa học hơn là “đẹp số”
Một lý do khiến FGLS được sử dụng rộng rãi là vì nó thường cho sai số chuẩn nhỏ hơn và p-value “đẹp” hơn. Tuy nhiên, White (1980) đã chỉ ra rằng sai số chuẩn mạnh được thiết kế để đảm bảo suy luận thống kê hợp lệ mà không cần giả định đúng dạng heteroskedasticity. Wooldridge (2010) cũng nhấn mạnh rằng trong nhiều nghiên cứu ứng dụng, việc đảm bảo tính vững của suy luận thống kê quan trọng hơn so với việc đạt được hiệu quả ước lượng tối đa thông qua GLS khi các giả định chưa chắc chắn.
Do đó, trong bối cảnh luận văn và nghiên cứu ứng dụng, việc chấp nhận kết quả “xấu hơn một chút” nhưng suy luận đáng tin cậy hơn thường được đánh giá cao hơn việc sử dụng một mô hình phức tạp nhưng khó bảo vệ về mặt giả định.
Kết luận
Việc phát hiện phương sai sai số thay đổi là một tín hiệu quan trọng, nhưng không phải là điều kiện đủ để sử dụng FGLS. Nhiều tài liệu kinh tế lượng kinh điển đã chỉ ra rằng trong mẫu nhỏ, panel data với T nhỏ, hoặc khi cấu trúc phương sai sai số không được xác định rõ, FGLS có thể cho kết quả kém tin cậy hơn so với OLS hoặc FE/RE kết hợp với sai số chuẩn mạnh. Vì vậy, lựa chọn mô hình không nên dựa trên việc “mô hình nào xử lý được nhiều vi phạm hơn”, mà cần dựa trên mức độ phù hợp giữa giả định của mô hình và đặc điểm thực tế của dữ liệu.