Cách tạo biến giả dummy variable trong stata

Khái niệm đơn giản nhất về biến giả:

Biến giả là biến nhận một trong hai giá trị 0 hoặc 1. Thường các biến giả được tạo ra từ một biến thật. Ví dụ biến thật ở đây là biến học vấn HOCVAN với 4 biểu hiện là 1 2 3 4 ứng với các cấp học là: cấp 1, cấp 2, cấp 3, và trên cấp 3.

Như vậy làm cách nào để tạo 4 biến giả tương ứng?

Trong Stata ta dùng lệnh sau

tab HOCVAN , gen (HOCVANdummy)

Lúc đó 4 biến sau được sinh ra: HOCVANdummy1 HOCVANdummy2 HOCVANdummy3 HOCVANdummy4

Lưu ý giá trị của các biến giả dummy này chỉ gồm 0 và 1. Ví dụ giá trị HOCVANdummy2 bằng 0 ứng với là người này không phải trình độ cấp 2, mà có thể cao hơn hoặc thấp hơn. Còn nếu giá trị này bằng 1 thì người này có học vấn cấp 2 thôi. Như vậy xét trong cùng 1 dòng, trong các biến giả chắc chắn có 1 biến có giá trị 1. Còn các biến còn lại giá trị 0.

Tuy nhiên có một quy tắc là số biến giả phải bằng số phạm trù của biến trừ đi 1, ta chỉ cần đưa đưa ra ba biến giả để giải quyết bốn cấp của trình độ học vấn. Tất cả có 4 biến giả, khi đã biết giá trị của 3 biến thì chắc chắn biết giá trị của biến còn lại. Nên khi đưa các biến giả này vào hồi quy làm biến độc lập thì chỉ cần đưa 3 biến thôi nhé.

Comments