Tác động cố định, ngẫu nhiên, kích cỡ mẫu tối thiểu với data panel

Bài này sẽ ví dụ về biến cố định và biến ngẫu nhiên trong dữ liệu bảng,đồng thời giới thiệu về cỡ mẫu phù hợp khi chạy dữ liệu bảng Stata

Tác động cố định và tác động ngẫu nhiên

Có lẽ khái niệm xa lạ nhất đối với hầu hết các nhà nghiên cứu sử dụng hồi quy là tác động cố định so với ngẫu nhiên. Một điểm khác biệt chung giữa tác động cố định và tác động ngẫu nhiên là tác động cố định được sử dụng cho các tham số tổng thể (tức là một giá trị cố định duy nhất trên toàn bộ tổng thể) và tác động ngẫu nhiên được sử dụng khi biến chỉ đại diện cho một mẫu các tác động có thể xảy ra. Ví dụ, giới tính của học sinh sẽ được giả định là một ảnh hưởng cố định vì không bao giờ thay đổi. Nhưng thông tin  về các lớp học của học sinh được chọn ngẫu nhiên trong một trường học thì sao? Trong tình huống này, một hiệu ứng ngẫu nhiên đối với lớp sẽ xảy ra, ví dụ 2 học sinh học lớp 5A có giới tính là nam, thì sang lớp 6 cũng có giới tính là nam, tuy nhiên 2 học sinh này khi vào lớp 6 thì có thể 2 em vào lớp 6A và 6B, nghĩa là thông tin về lớp học là ngẫu nhiên không cố định.

Cuối cùng, sự lựa chọn giữa các hiệu ứng cố định và ngẫu nhiên như thế nào? Trong khi nhà nghiên cứu nên xem xét tác động của các tác động cố định so với ngẫu nhiên dựa trên các vấn đề đã thảo luận ở trên, thì cũng có một thử nghiệm thực nghiệm để cung cấp hướng dẫn. Kiểm định Hausman so sánh kết quả của mô hình hiệu ứng cố định với kết quả của mô hình hiệu ứng ngẫu nhiên. Mức ý nghĩa p= 0,05 ủng hộ giả thuyết rằng có sự khác biệt giữa hai mô hình và do đó mô hình tác động cố định nên được sử dụng. Nếu không có sự khác biệt đáng kể thì có thể sử dụng mô hình hiệu ứng ngẫu nhiên vì nó được ưu tiên hơn so với mô hình hiệu ứng cố định.

Cỡ mẫu khi chạy dữ liệu bảng

Cỡ mẫu phụ thuộc vào mức độ và dựa trên số lượng đơn vị phân tích. Như hồi quy OLS đơn giản, tất cả mẫu đều được sử dụng. Nhưng khi chúng ta chuyển sang các cấp phân tích cao hơn, đơn vị phân tích sẽ thay đổi thành số nhóm trên mỗi cấp (ví dụ: số lớp học, không phải số học sinh). Hơn nữa, số lượng quan sát mỗi nhóm ít quan trọng hơn số lượng nhóm. Quy mô nhóm từ năm quan sát trở lên có thể chấp nhận được miễn là  số lượng nhóm đủ lớn. Vậy có bao nhiêu nhóm và bao nhiêu quan sát mỗi nhóm là chấp nhận được? Heck và Thomas đề xuất quy tắc 20/30 — ít nhất 20 nhóm và 30 quan sát mỗi nhóm. Hox thay đổi điều này một chút với quy tắc 30/30 — ít nhất 30 nhóm và 30 quan sát cho mỗi nhóm. Tuy nhiên, nhiều tình huống nghiên cứu sẽ khác nhau, vì vậy điều nào là quan trọng nhất cần xem xét? Theo nghĩa thực tế, đó là số lượng các nhóm ở bất kỳ cấp độ nào, vì các nhóm bây giờ là đơn vị quan sát để phân tích. Tốt hơn là nên có 30 nhóm với 10 quan sát mỗi nhóm  hơn 10 nhóm với 60 quan sát mỗi nhóm vì có nhiều nhóm hơn để ước tính các tham số. Vì vậy, việc tăng số lượng nhóm ở bất kỳ cấp độ nào luôn hữu ích cho việc ước tính các ảnh hưởng ở cấp độ đó và tăng sức mạnh thống kê.

Vậy quy mô một nhóm có thể nhỏ đến mức nào?

Quy mô nhóm năm thành viên gặp phải trong nhiều tình huống nghiên cứu và cung cấp các ước tính hợp lý. Hơn nữa, chúng không ảnh hưởng đến sức mạnh của các bài kiểm định vì điều đó đến từ số lượng nhóm. Nhưng quy mô nhóm nhỏ hơn sẽ hạn chế độ chính xác của các bài kiểm tra hệ số ngẫu nhiên (sự khác biệt giữa các nhóm về các hệ số chặn hoặc các biến độc lập).

Comments