Có lúc dữ liệu bạn thu thập không phân phối chuẩn, hoặc chỉ ở dạng xếp hạng. Trong những tình huống đó, kiểm định phi tham số chính là lựa chọn phù hợp. Bài viết này Thạc sĩ Khánh và nhóm sẽ đi sâu vào kiểm định phi tham số, cung cấp những kiến thức cần thiết để đưa ra quyết định đúng, kèm theo ví dụ minh họa cụ thể. Bài viết này sẽ giúp bạn hiểu rõ:
- Khi nào nên dùng kiểm định phi tham số
- Các loại kiểm định kiểm định phi tham số phổ biến trong Stata
- Ưu điểm và hạn chế kiểm định phi tham số
- Ví dụ minh họa cụ thể với lệnh Stata
Kiểm định Phi tham số là gì?
Kiểm định phi tham số (Nonparametric Tests) là phương pháp thống kê không yêu cầu dữ liệu phải tuân theo phân phối chuẩn hoặc có giả định về phương sai đồng đều. Không giống như các kiểm định tham số (như t-test, ANOVA), kiểm định phi tham số làm việc trực tiếp với thứ bậc, vị trí hoặc tần suất, nên linh hoạt hơn trong các tình huống thực tế.
Thay vì dựa vào các tham số của tổng thể (như trung bình, độ lệch chuẩn), kiểm định phi tham số thường hoạt động dựa trên:
- Thứ hạng (ranks) của dữ liệu: Sắp xếp dữ liệu từ nhỏ đến lớn và sử dụng thứ hạng thay vì giá trị thực tế.
- Tần suất (frequencies): Đếm số lần xuất hiện của các giá trị trong các danh mục.
- Dấu (signs): Kiểm tra sự thay đổi về dấu (tăng/giảm).
Lý do cần đến kiểm định phi tham số: dữ liệu thu thập được từ các cuộc khảo sát đôi khi không tuân theo các giả định lý tưởng. Ví dụ, thu nhập của người dân thường có phân phối lệch phải hoặc trái, hoặc điểm số đánh giá trên thang Likert 1 2 3 4 5 là dữ liệu thứ bậc, không phải định lượng thực sự. Khi đó, việc cố gắng áp dụng kiểm định tham số có thể dẫn đến kết quả sai lệch, không đáng tin cậy.
Khi nào cần sử dụng Kiểm định Phi tham số?
1. Dữ liệu không phân phối chuẩn
2. Dữ liệu dạng thứ bậc (ordinal) , chẳng hạn, dữ liệu khảo sát theo thang Likert 1–5 về mức độ hài lòng -> nên dùng kiểm định phi tham số.
3. Cỡ mẫu nhỏ (n < 30) , khi không đủ quan sát để tin tưởng các định lý giới hạn trung tâm, kiểm định phi tham số là lựa chọn an toàn hơn.
4. Dữ liệu có ngoại lệ (outliers), các giá trị bất thường dễ làm sai lệch trung bình, nên chuyển sang phương pháp dựa trên thứ bậc.
Ưu điểm của kiểm định Phi tham số
- Không cần phân phối chuẩn , phù hợp với dữ liệu thực tế
- Xử lý tốt dữ liệu dạng ordinal hoặc dữ liệu có outliers
- Có thể áp dụng khi cỡ mẫu nhỏ
- Lệnh trong Stata đơn giản, dễ thực hiện
Nhược điểm của kiểm định Phi tham số
- Ít mạnh hơn kiểm định tham số nếu dữ liệu đã chuẩn
- Không cung cấp các chỉ số tham số như trung bình, độ lệch chuẩn
- Kết quả khó diễn giải về mặt thực tiễn hơn so với t-test hay hồi quy
- Không dùng được cho các phân tích phức tạp (ví dụ: mô hình tuyến tính đa biến)
Các Kiểm định Phi tham số phổ biến
Dưới đây là một số kiểm định phi tham số mà bạn chắc chắn sẽ gặp và cần biết cách sử dụng trong quá trình làm nghiên cứu:
Kiểm định Mann-Whitney U Test (còn gọi là Wilcoxon Rank-Sum Test):
Tương đương với Independent Samples t-test trong kiểm định tham số.
Mục đích: So sánh hai nhóm độc lập khi dữ liệu không phân phối chuẩn hoặc là dữ liệu thứ bậc.
Câu lệnh: ranksum [biến_định_lượng_hoặc_thứ_bậc], by([biến_nhóm_2_giá_trị])
Ví dụ: Bạn muốn so sánh ThuNhap giữa Nam và Nữ. Giả định rằng biến ThuNhap không tuân theo phân phối chuẩn.
ranksum ThuNhap, by(gioitinh_num)
Kiểm định Wilcoxon Signed-Rank Test
Tương đương với Paired Samples t-test trong kiểm định tham số.
Mục đích: So sánh hai mẫu phụ thuộc (ghép cặp), ví dụ như đo lường trước và sau can thiệp.
Câu lệnh signrank bien_sau_can_thiep = bien_truoc_can_thiep
Kiểm định Kruskal-Wallis H Test
Tương đương với One-way ANOVA trong kiểm định tham số.
Mục đích: So sánh ba hay nhiều nhóm độc lập.
Câu lệnh ví dụ kwallis bien_phu_thuoc, by(bien_nhom_nhieu_gia_tri)
Nếu kết quả có ý nghĩa thống kê, bạn cần thực hiện kiểm định hậu kỳ (post-hoc) để xác định cặp nhóm nào khác biệt.
Kiểm định Friedman Test
Tương đương với Repeated Measures ANOVA trong kiểm định tham số.
Mục đích: So sánh ba hay nhiều mẫu phụ thuộc (ghép cặp), ví dụ như đo lường trên cùng một đối tượng tại nhiều thời điểm khác nhau.
Câu lệnh Stata friedman bien_thoi_diem1 bien_thoi_diem2 bien_thoi_diem3
Kiểm định Chi-squared Test (Kiểm định Chi bình phương)
Mục đích: Kiểm tra mối liên hệ giữa hai biến định danh (phân loại).
Câu lệnh Stata tabulate bien_dinh_danh_1 bien_dinh_danh_2, chi2
Hệ số tương quan hạng Spearman
Mục đích: Đo lường mức độ và chiều hướng của mối quan hệ đơn điệu giữa hai biến định lượng hoặc thứ bậc.
Câu lệnh spearman bien_1 bien_2
Hãy tiếp tục theo dõi phantichstata.com để khám phá các bài viết chi tiết hơn về cách thực hiện từng kiểm định này trên phần mềm nhé