Vì sao cần kiểm định tính dừng trong dữ liệu bảng?
Trong phân tích dữ liệu bảng, kiểm định tính dừng (stationarity) là một bước nền tảng nhưng lại thường bị xem nhẹ, đặc biệt là với sinh viên mới làm luận văn.
Về bản chất, tính dừng đề cập đến việc một chuỗi dữ liệu có duy trì được các đặc trưng thống kê ổn định theo thời gian hay không, bao gồm giá trị trung bình, phương sai và mối quan hệ phụ thuộc theo độ trễ. Khi dữ liệu không dừng, các mô hình hồi quy như FEM, REM hay thậm chí OLS đều có nguy cơ rơi vào tình trạng hồi quy giả mạo, tức là cho ra kết quả có vẻ rất “đẹp” về mặt thống kê nhưng hoàn toàn không phản ánh mối quan hệ thực sự giữa các biến, từ đó dẫn đến kết luận sai lệch trong nghiên cứu.
Do đó, kiểm định tính dừng là bước bắt buộc trước khi ước lượng các mô hình như FEM, REM, hay GLS.
Khái niệm tính dừng (Stationarity)
Một chuỗi dữ liệu được gọi là dừng khi:
- Kỳ vọng (mean) không đổi theo thời gian
- Phương sai (variance) không đổi
- Hiệp phương sai chỉ phụ thuộc vào độ trễ, không phụ thuộc thời gian
- Ngược lại, nếu dữ liệu có xu hướng (trend), chu kỳ hoặc biến động không ổn định thì là không dừng
Các kiểm định tính dừng phổ biến trong dữ liệu bảng
Đối với dữ liệu bảng, việc kiểm định tính dừng không thể áp dụng trực tiếp các phương pháp của chuỗi thời gian đơn mà cần sử dụng các kiểm định chuyên biệt. Một trong những kiểm định phổ biến nhất là Levin–Lin–Chu (LLC), phương pháp này giả định rằng tất cả các đơn vị trong dữ liệu bảng có cùng hệ số tự hồi quy, từ đó tăng sức mạnh kiểm định nhưng lại làm giảm tính linh hoạt. Trong khi đó, kiểm định Im–Pesaran–Shin (IPS) cho phép hệ số này khác nhau giữa các đơn vị, giúp phản ánh tốt hơn sự khác biệt giữa các quốc gia hoặc doanh nghiệp, do đó thường được sử dụng rộng rãi hơn trong thực tế.
Kiểm định Levin–Lin–Chu (LLC)
Giả định: các đơn vị chéo (cross-section) có cùng hệ số
Phù hợp khi:N lớn, T trung bình
Giả thuyết:
H0: Có nghiệm đơn vị (không dừng)
H1: Dừng
Đặc điểm: mạnh nhưng giả định khá chặt
Kiểm định Im–Pesaran–Shin (IPS)
Cho phép hệ số khác nhau giữa các đơn vị
Linh hoạt hơn LLC
Phù hợp thực tế hơn trong nhiều nghiên cứu
Thực hiện kiểm định tính dừng trong dữ liệu bảng trong Stata
Trong Stata, việc kiểm định tính dừng cho dữ liệu bảng được thực hiện khá đơn giản nhưng yêu cầu phải hiểu đúng quy trình. Trước tiên, cần khai báo cấu trúc dữ liệu bảng bằng lệnh xtset để xác định biến đại diện cho đối tượng và thời gian. Sau đó, có thể sử dụng các lệnh như xtunitroot llc, xtunitroot ips để thực hiện các kiểm định tương ứng. Kết quả trả về sẽ bao gồm thống kê kiểm định và giá trị p-value, từ đó ta có thể đưa ra quyết định về việc chuỗi có dừng hay không. Thông thường, nếu p-value nhỏ hơn 0.05, ta bác bỏ giả thuyết H0 và kết luận rằng chuỗi dữ liệu là dừng; ngược lại, nếu p-value lớn hơn mức ý nghĩa, chuỗi được xem là không dừng và cần được xử lý thêm trước khi đưa vào mô hình.
Cụ thể lệnh như sau:
Gán data panel: xtset id time
Kiểm định LLC : xtunitroot llc varname
Kiểm định IPS : xtunitroot ips varname
Cách đọc kết quả
p-value < 0.05 → bác bỏ H0 → biến dừng
p-value > 0.05 → không dừng
Và nếu biến không dừng: Khi phát hiện biến không dừng, giải pháp phổ biến nhất là lấy sai phân bậc một để loại bỏ xu hướng và làm cho chuỗi trở nên ổn định hơn. Tuy nhiên, việc sai phân cũng đồng nghĩa với việc mất đi thông tin về mối quan hệ dài hạn giữa các biến, do đó không phải lúc nào cũng là lựa chọn tối ưu. Trong nhiều trường hợp, nếu các biến không dừng nhưng có mối quan hệ đồng liên kết, người nghiên cứu vẫn có thể sử dụng mô hình hồi quy mà không cần sai phân toàn bộ dữ liệu. Điều này đặc biệt quan trọng trong các nghiên cứu kinh tế, nơi các biến thường có xu hướng di chuyển cùng nhau trong dài hạn, và việc giữ lại thông tin này sẽ giúp mô hình phản ánh đúng bản chất của hiện tượng nghiên cứu.
Lấy sai phân bậc 1:
gen d_var = D.var
Sau đó kiểm định lại
Lưu ý quan trọng: Không phải tất cả biến đều cần dừng ở mức (level)
Ứng dụng thực tế kiểm định tính dừng
Kiểm định tính dừng được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh tế học, tài chính và y tế, đặc biệt trong các nghiên cứu sử dụng dữ liệu bảng theo thời gian. Ví dụ, khi phân tích tác động của đầu tư trực tiếp nước ngoài (FDI) đến tăng trưởng kinh tế, hoặc ảnh hưởng của chi tiêu y tế đến tuổi thọ, việc đảm bảo các biến là dừng sẽ giúp kết quả nghiên cứu trở nên đáng tin cậy hơn.
Tóm lại, kiểm định tính dừng trong dữ liệu bảng là một bước trong quy trình phân tích định lượng, đặc biệt khi sử dụng các phần mềm như Stata. Việc hiểu rõ bản chất của tính dừng, lựa chọn đúng phương pháp kiểm định và xử lý dữ liệu hợp lý sẽ giúp người nghiên cứu tránh được những sai lầm phổ biến và nâng cao chất lượng bài nghiên cứu.