Phân Tích Stata

Trung bình, trung vị và mode: So sánh, công thức và ví dụ dễ hiểu

1. Giới thiệu trung bình, trung vị, mode

Trong thống kê mô tả, trung bình (mean), trung vị (median) và mode là 3 chỉ số trung tâm phổ biến nhất. Việc hiểu rõ từng khái niệm giúp bạn:

2. Khái niệm và công thức Trung bình (Mean) 

Định nghĩa: Là giá trị tổng của tất cả các quan sát chia cho số lượng quan sát.
Công thức:
Trung bình = (tổng giá trị các quan sát) /(số lượng quan sát)
Ví dụ: Điểm của 5 học sinh là: 6, 7, 8, 9, 10
Mean=(6+7+8+9+10)/5=8 , như vậy điểm trùng bình của nhóm học sinh này là 8 điểm.

3. Khái niệm và công thức Trung vị (Median)

Định nghĩa: Là giá trị đứng giữa khi sắp xếp các quan sát theo thứ tự tăng dần.
Nếu số lượng là lẻ, median là số ở giữa.
Nếu số lượng là chẵn, median là trung bình của hai số giữa.
Ví dụ:

4. Khái niệm và công thức Mode

Mode =Giá trị thường gặp nhất.
Định nghĩa Mode: là giá trị xuất hiện nhiều nhất trong tập dữ liệu.
Ví dụ: 6, 7, 7, 8, 9 thì Mode = 7
Nếu mọi giá trị xuất hiện 1 lần thì không có mode

5. So sánh Trung bình – Trung vị – Mode

6. Ví dụ thực tế trung bình, trung vị và mode về thu nhập hàng tháng

Dữ liệu thu nhập của 7 người (triệu đồng): 5, 6, 6, 7, 7, 8, 100
Trung bình Mean = (5 + 6 + 6 + 7 + 7 + 8 + 100) / 7 = 19.86
Trung vị Median = 7
Mode = 6 và 7 (cùng xuất hiện 2 lần). Nghĩa là có thể có nhiều giá trị mode nhé
Nhưng trung bình bị lệch do thu nhập quá lớn (100 triệu). Trung vị thể hiện mức trung tâm thực tế tốt hơn. Đây là điều đáng lưu ý.

Ví dụ này được chạy ở phần 8 dưới đây bằng Stata nhé.

7. Khi nào dùng cái nào trung bình, trung vị và mode?

  1. Trung bình: Khi dữ liệu không hoặc ít có giá trị ngoại lệ
  2. Trung vị: Khi dữ liệu lệch, có ngoại lệ (vd: thu nhập, giá nhà)
  3. Mode: Khi muốn tìm giá trị phổ biến nhất (vd: size giày phổ biến, màu yêu thích)

8. Câu lệnh tìm trung bình, trung vị và mode trong Stata

Trong Stata sử dụng lệnh 
summarize thunhap, detail   ( để tìm mean và median- thunhap là tên biến)

tabulate thunhap ( để tìm mode- thunhap là tên biến)

Ví dụ bạn mở stata lên và nhập các giá trị sau vào ô command để tạo bộ số liệu thu nhập:

clear
input thunhap
5
6
6
7
7
8
100
end

Sau đó gõ tab để xác định mode

tabulate thunhap

Giá trị nào có tần suất cao nhất chính là mode. Ở đây mode = 6 và 7 (cùng tần suất cao nhất: 2 lần)

Ngoài ra trung bình là 19.8 và trung vị là giá trị ở mức 50% percentile, chính là giá trị 7

Kết luận
Việc hiểu rõ sự khác nhau giữa trung bình, trung vị và mode sẽ giúp bạn lựa chọn phương pháp mô tả phù hợp và tránh sai lệch trong phân tích.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với ThS Khánh( nhóm MBA Bách Khoa) qua các kênh sau:

-Zalo 0903396688 

-Facebook  facebook.com/hotroStata

Comments