Trong phân tích hồi quy, việc lựa chọn phương pháp ước lượng phù hợp là yếu tố then chốt để đảm bảo kết quả nghiên cứu đáng tin cậy. Ba phương pháp phổ biến là:
- OLS (Ordinary Least Squares) – Hồi quy tuyến tính thông thường
- GLS (Generalized Least Squares) – Hồi quy bình phương tối thiểu tổng quát
- FGLS (Feasible Generalized Least Squares) – GLS khả thi khi không biết chính xác cấu trúc sai số
1. OLS là gì?
OLS là phương pháp hồi quy tuyến tính cổ điển, được sử dụng rộng rãi nhờ sự đơn giản và hiệu quả trong đa số các bài toán cần giải quyết.
Giả định chính của OLS:
- Phương sai sai số không đổi (homoskedasticity)
- Không có tự tương quan
- Không có đa cộng tuyến hoàn hảo
Cách chạy OLS trong Stata:
reg y x1 x2 x3
Ưu điểm:
Dễ sử dụng, diễn giải rõ ràng
Ước lượng không chệch (unbiased) nếu các giả định được đảm bảo
Nhược điểm:
Khi giả định bị vi phạm (ví dụ: phương sai thay đổi), sai số chuẩn sẽ bị sai lệch → kiểm định t và F không còn đáng tin cậy
2. GLS là gì?
GLS là phiên bản tổng quát của OLS, dùng khi biết cấu trúc của phương sai sai số hoặc ma trận hiệp phương sai.
GLS phù hợp khi:
Có tự tương quan (AR1, MA1…)
Có phương sai sai số thay đổi (heteroskedasticity)
Và bạn biết rõ cấu trúc của sai số
Ưu điểm:
Cho ước lượng BLUE (Best Linear Unbiased Estimator) trong điều kiện vi phạm giả định của OLS
Hiệu quả hơn OLS nếu áp dụng đúng
Nhược điểm:
Hiếm khi biết chính xác cấu trúc sai số trong thực tế → ít được áp dụng trực tiếp
3. FGLS là gì?
FGLS (Feasible GLS) là phiên bản thực tế hơn của GLS, khi cấu trúc sai số không biết nhưng có thể ước lượng được từ dữ liệu.
FGLS là lựa chọn tốt trong các nghiên cứu vi phạm giả định phương sai đồng nhất hoặc có tự tương quan.
Cách chạy FGLS trong Stata với dữ liệu bảng (panel):
xtset id time
xtgls y x1 x2 x3, panels(heteroskedastic)
Hoặc nếu có tự tương quan:
xtgls y x1 x2 x3, panels(heteroskedastic) corr(ar1)
Ưu điểm:
Ứng dụng thực tế cao
Hiệu quả hơn OLS trong trường hợp vi phạm giả định
Có thể xử lý đồng thời nhiều vấn đề (phương sai thay đổi + tự tương quan)
Nhược điểm:
Nhạy cảm với sai số trong ước lượng ma trận hiệp phương sai
Không luôn tốt hơn OLS trong mẫu nhỏ
4. So sánh tổng quát giữa OLS, GLS và FGLS
| Tiêu chí | OLS | GLS | FGLS |
|---|---|---|---|
| Điều kiện áp dụng | Giả định cổ điển đúng | Biết cấu trúc sai số | Cấu trúc sai số không biết nhưng có thể ước lượng |
| Ước lượng BLUE? | Có nếu giả định đúng | Có nếu cấu trúc đúng | Gần BLUE nếu ước lượng chính xác |
| Độ phổ biến | Rất phổ biến | Ít dùng | Phổ biến trong phân tích nâng cao |
| Độ phức tạp | Thấp | Cao nếu tính tay | Trung bình, có thể dùng Stata |
| Xử lý phương sai thay đổi | Không | Có | Có |
| Xử lý tự tương quan | Không | Có | Có |
5. Khuyến nghị sử dụng theo kinh nghiệm giảng dạy
Là người từng hướng dẫn hàng trăm luận văn và nghiên cứu thực nghiệm, tôi đề xuất quy trình sau để lựa chọn phương pháp:
Bước 1: Bắt đầu với OLS và kiểm định các giả định:
Kiểm định phương sai thay đổi: estat hettest, estat imtest, white
Kiểm định tự tương quan (với dữ liệu chuỗi thời gian/bảng): dwstat , xtserial
Bước 2: Nếu vi phạm => chuyển sang sử dụng:
reg …, robust nếu chỉ có phương sai thay đổi
xtgls … nếu là dữ liệu bảng hoặc vi phạm phức tạp
Bước 3: Luôn trình bày rõ ràng trong bài nghiên cứu:
Kết quả kiểm định giả định
Lý do chọn FGLS hoặc robust SE thay cho OLS
Trong quá trình sử dụng các bạn có cần hỗ trợ cứ liên hệ nhóm theo số phone sau nhé
