Đa cộng tuyến trong Stata: các dùng lệnh vif để phát hiện đa cộng tuyến

Nhóm MBA Hỗ Trợ Stata giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy ols stata, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Ví dụ minh họa đa cộng tuyến

File ví dụ để chạy hồi quy đa cộng tuyến Stata bạn có thể tải ở đây: phantichstata.com/data/hausman.dta

Sau khi tải về, tiến hành chạy hồi quy OLS bằng lệnh reg ROA ROE DA STD được kết quả như sau:

Kết quả hồi quy OLS với biến phụ thuộc là ROA, biến độc lập là ROE DA STD

Sau đó ta tiến hành dùng lệnh vif để kiểm tra đa cộng tuyến như sau:

Đánh giá kết quả đa cộng tuyến vif

Ta thấy giá trị VIF lần lượt là 3.85  3.6  1.77 , thường thì nếu vif <2 thì mình sẽ kết luận là không có hiện tượng đa cộng tuyến giữa các biến độc lập. Tuy nhiên thực tế, nếu vif <10 thì ta vẫn có thể chấp nhận được, kết luận là không có hiện tượng đa cộng tuyến. Trên đây là phần ví dụ đa cộng tuyến stata, còn sau đây là các phần lý thuyết liên quan và các khắc phục đa cộng tuyến stata

Định nghĩa đa cộng tuyến là gì?

Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến trong stata

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1 Dựa vào hệ số vif

khi thực hiện hồi quy OLS, ta gõ lệnh vif dể đánh giá: đây là cách đã làm trong ví dụ ở trên.
Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Cách 2 dựa vào hệ số tương quan

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến stata

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

  1. Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
  2. Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn đag cộng tuyến multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
  3. Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.

Nhóm MBA Bách Khoa Hỗ Trợ Stata đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Comments