Category Archives: Stata

Kiểm định phi tham số trong Stata, ưu nhược điểm

Có lúc dữ liệu bạn thu thập không phân phối chuẩn, hoặc chỉ ở dạng xếp hạng. Trong những tình huống đó, kiểm định phi tham số chính là lựa chọn phù hợp. Bài viết này Thạc sĩ Khánh và nhóm sẽ đi sâu vào kiểm định phi tham số, cung cấp những kiến thức cần thiết để đưa ra quyết định đúng, kèm theo ví dụ minh họa cụ thể. Bài viết này sẽ giúp bạn hiểu rõ:

  • Khi nào nên dùng kiểm định phi tham số
  • Các loại kiểm định kiểm định phi tham số phổ biến trong Stata
  • Ưu điểm và hạn chế kiểm định phi tham số
  • Ví dụ minh họa cụ thể với lệnh Stata

Kiểm định Phi tham số là gì?

Kiểm định phi tham số (Nonparametric Tests) là phương pháp thống kê không yêu cầu dữ liệu phải tuân theo phân phối chuẩn hoặc có giả định về phương sai đồng đều. Không giống như các kiểm định tham số (như t-test, ANOVA), kiểm định phi tham số làm việc trực tiếp với thứ bậc, vị trí hoặc tần suất, nên linh hoạt hơn trong các tình huống thực tế.

Thay vì dựa vào các tham số của tổng thể (như trung bình, độ lệch chuẩn), kiểm định phi tham số thường hoạt động dựa trên:

  • Thứ hạng (ranks) của dữ liệu: Sắp xếp dữ liệu từ nhỏ đến lớn và sử dụng thứ hạng thay vì giá trị thực tế.
  • Tần suất (frequencies): Đếm số lần xuất hiện của các giá trị trong các danh mục.
  • Dấu (signs): Kiểm tra sự thay đổi về dấu (tăng/giảm).

Lý do cần đến kiểm định phi tham số: dữ liệu thu thập được từ các cuộc khảo sát đôi khi không tuân theo các giả định lý tưởng. Ví dụ, thu nhập của người dân thường có phân phối lệch phải hoặc trái, hoặc điểm số đánh giá trên thang Likert 1 2 3 4 5 là dữ liệu thứ bậc, không phải định lượng thực sự. Khi đó, việc cố gắng áp dụng kiểm định tham số có thể dẫn đến kết quả sai lệch, không đáng tin cậy.

Khi nào cần sử dụng Kiểm định Phi tham số?

1. Dữ liệu không phân phối chuẩn

2. Dữ liệu dạng thứ bậc (ordinal) , chẳng hạn, dữ liệu khảo sát theo thang Likert 1–5 về mức độ hài lòng -> nên dùng kiểm định phi tham số.
3. Cỡ mẫu nhỏ (n < 30) , khi không đủ quan sát để tin tưởng các định lý giới hạn trung tâm, kiểm định phi tham số là lựa chọn an toàn hơn.
4. Dữ liệu có ngoại lệ (outliers), các giá trị bất thường dễ làm sai lệch trung bình, nên chuyển sang phương pháp dựa trên thứ bậc.

Ưu điểm của kiểm định Phi tham số

  • Không cần phân phối chuẩn , phù hợp với dữ liệu thực tế
  • Xử lý tốt dữ liệu dạng ordinal hoặc dữ liệu có outliers
  • Có thể áp dụng khi cỡ mẫu nhỏ
  • Lệnh trong Stata đơn giản, dễ thực hiện

Nhược điểm của kiểm định Phi tham số

  • Ít mạnh hơn kiểm định tham số nếu dữ liệu đã chuẩn
  • Không cung cấp các chỉ số tham số như trung bình, độ lệch chuẩn
  • Kết quả khó diễn giải về mặt thực tiễn hơn so với t-test hay hồi quy
  • Không dùng được cho các phân tích phức tạp (ví dụ: mô hình tuyến tính đa biến)

Các Kiểm định Phi tham số phổ biến

Dưới đây là một số kiểm định phi tham số mà bạn chắc chắn sẽ gặp và cần biết cách sử dụng trong quá trình làm nghiên cứu:

Kiểm định Mann-Whitney U Test (còn gọi là Wilcoxon Rank-Sum Test):

Tương đương với Independent Samples t-test trong kiểm định tham số.

Mục đích: So sánh hai nhóm độc lập khi dữ liệu không phân phối chuẩn hoặc là dữ liệu thứ bậc.
Câu lệnh: ranksum [biến_định_lượng_hoặc_thứ_bậc], by([biến_nhóm_2_giá_trị])
Ví dụ: Bạn muốn so sánh ThuNhap giữa Nam và Nữ. Giả định rằng biến ThuNhap không tuân theo phân phối chuẩn.
ranksum ThuNhap, by(gioitinh_num)

Kiểm định Wilcoxon Signed-Rank Test

Tương đương với Paired Samples t-test trong kiểm định tham số.

Mục đích: So sánh hai mẫu phụ thuộc (ghép cặp), ví dụ như đo lường trước và sau can thiệp.
Câu lệnh  signrank bien_sau_can_thiep = bien_truoc_can_thiep

Kiểm định Kruskal-Wallis H Test

Tương đương với One-way ANOVA trong kiểm định tham số.

Mục đích: So sánh ba hay nhiều nhóm độc lập.
Câu lệnh ví dụ kwallis bien_phu_thuoc, by(bien_nhom_nhieu_gia_tri)

Nếu kết quả có ý nghĩa thống kê, bạn cần thực hiện kiểm định hậu kỳ (post-hoc) để xác định cặp nhóm nào khác biệt.

Kiểm định Friedman Test

Tương đương với Repeated Measures ANOVA trong kiểm định tham số.

Mục đích: So sánh ba hay nhiều mẫu phụ thuộc (ghép cặp), ví dụ như đo lường trên cùng một đối tượng tại nhiều thời điểm khác nhau.
Câu lệnh  Stata friedman bien_thoi_diem1 bien_thoi_diem2 bien_thoi_diem3

Kiểm định Chi-squared Test (Kiểm định Chi bình phương)

Mục đích: Kiểm tra mối liên hệ giữa hai biến định danh (phân loại).
Câu lệnh  Stata tabulate bien_dinh_danh_1 bien_dinh_danh_2, chi2

Hệ số tương quan hạng Spearman

Mục đích: Đo lường mức độ và chiều hướng của mối quan hệ đơn điệu giữa hai biến định lượng hoặc thứ bậc.
Câu lệnh  spearman bien_1 bien_2

Hãy tiếp tục theo dõi phantichstata.com để khám phá các bài viết chi tiết hơn về cách thực hiện từng kiểm định này trên phần mềm nhé

Sử dụng NotebookLM để tổng hợp cơ sở lý thuyết cho luận văn ứng dụng Stata

Trong quá trình làm luận văn hoặc nghiên cứu khoa học, việc tổng hợp cơ sở lý thuyết luôn là một trong những khâu “gian nan” nhất. Người học thường phải dành hàng giờ, thậm chí hàng tuần để đọc hàng loạt tài liệu, lọc ra những phần phù hợp và sắp xếp sao cho mạch lạc, nhất quán với mục tiêu nghiên cứu. Điều này không chỉ tốn công mà còn gây áp lực, vì giảng viên có thể truy vấn sâu như: "Nguồn lý thuyết này từ đâu?", "Có nghiên cứu nào trước đó đề cập không?", hay "Kết quả trước đây có gì liên quan đến đề tài hiện tại?".

Trước đây, việc này hoàn toàn phụ thuộc vào khả năng đọc hiểu và sắp xếp tài liệu thủ công. Nhưng giờ đây, với sự hỗ trợ từ trí tuệ nhân tạo, mọi thứ đã thay đổi. Thạc sĩ Khánh cùng nhóm cộng sự đã ứng dụng NotebookLM, một công cụ AI do Google phát triển, để giúp xử lý và hệ thống hóa các bài báo học thuật một cách hiệu quả. Bài viết dưới đây chia sẻ cách mà nhóm đã tận dụng công cụ này, với hy vọng bạn có thể rút ngắn đáng kể thời gian làm phần lý thuyết cho luận văn – mà vẫn đảm bảo được chiều sâu học thuật cần thiết.

NotebookLM là gì?

NotebookLM là một trợ lý nghiên cứu ứng dụng trí tuệ nhân tạo (AI) do Google phát triển, có khả năng phân tích và hiểu nội dung của các tài liệu bạn cung cấp – bao gồm PDF, Google Docs, hoặc Word. Sau khi bạn tải tài liệu lên, NotebookLM sẽ trở thành một "người bạn học" cực kỳ thông minh: bạn có thể đặt bất kỳ câu hỏi nào liên quan đến nội dung tài liệu, và hệ thống sẽ phản hồi chính xác dựa trên chính nguồn đó – không tự bịa, không lan man như nhiều chatbot thông thường.

Bạn có thể truy cập trực tiếp tại: https://notebooklm.google.com

Ví dụ: bạn muốn biết lý thuyết A được nêu ở trang nào, thuộc nghiên cứu của tác giả nào, hay mô hình nghiên cứu B đã từng được sử dụng trong bài nào chưa – chỉ cần hỏi NotebookLM, và bạn sẽ nhận được câu trả lời kèm trích dẫn cụ thể.
Điểm mạnh của NotebookLM

  • Xử lý hàng trăm trang tài liệu một cách hiệu quả, phù hợp với những bạn đang thu thập nhiều bài báo cho phần tổng quan lý thuyết.
  • Tạo workspace linh hoạt, có thể phân tích, đối chiếu nhiều tài liệu trong cùng một không gian làm việc.
  • Trả lời chính xác các câu hỏi học thuật, nhờ vào việc bám sát nội dung tài liệu gốc.
  • Hỗ trợ cả tiếng Việt lẫn tiếng Anh, không yêu cầu phải chuyển đổi ngôn ngữ hay định dạng.

Tại sao nên dùng NotebookLM để tổng hợp cơ sở lý thuyết?
Những khó khăn thường gặp khi viết phần lý thuyết:

  • Không biết chọn tài liệu nào là phù hợp với đề tài.
  • Phải đọc thủ công quá nhiều bài báo, mất thời gian.
  • Khó khăn trong việc diễn đạt lại lý thuyết theo văn phong khoa học.
  • Dễ bị cuốn vào sao chép ý tưởng mà không hiểu bản chất mô hình.

NotebookLM hỗ trợ bạn như thế nào?

  • Xác định và trích xuất các khái niệm, mô hình và lý thuyết từ tài liệu đã tải lên.
  • Tự động tóm tắt phần quan trọng, giúp bạn dễ dàng nắm bắt nhanh nội dung cốt lõi.
  • So sánh và đối chiếu mô hình giữa các bài viết, bạn chỉ cần hỏi: “Bài nào sử dụng mô hình FGLS?” – và AI sẽ tìm giúp.
  • Gợi ý cách nhóm và trình bày lý thuyết một cách logic, tạo nền tảng để viết phần tổng quan mạch lạc và có chiều sâu.

Hướng dẫn sử dụng NotebookLM để tổng hợp cơ sở lý thuyết cho nghiên cứu

Dưới đây là các bước chi tiết để bạn sử dụng NotebookLM hỗ trợ tổng hợp lý thuyết từ hàng loạt tài liệu học thuật, giúp rút ngắn thời gian chuẩn bị cho phần tổng quan nghiên cứu.

Bước 1: Chuẩn bị tài liệu đầu vào

Trước tiên, bạn cần thu thập các bài báo, luận văn hoặc nghiên cứu học thuật liên quan đến đề tài của mình. Một số nguồn tài liệu đáng tin cậy gồm:

  • Google Scholar
  • Scopus
  • Semantic Scholar
  • Và các luận văn, bài báo liên quan bằng tiếng Việt cũng được

Ưu tiên chọn các tài liệu có chỉ số trích dẫn cao, được đăng trên các tạp chí uy tín.

Tải về dưới dạng PDF hoặc lưu trực tiếp trên Google Docs để thuận tiện sử dụng với NotebookLM.

Bước 2: Truy cập và nạp tài liệu vào NotebookLM

Truy cập: https://notebooklm.google.com

Đăng nhập bằng tài khoản Google cá nhân.

Nhấn "+ Create New" để tạo một workspace mới.

Ví dụ tên workspace:
"Cơ sở lý thuyết – Luận văn Kiều hối, Năng lực cạnh tranh & Căn bệnh Hà Lan tại Việt Nam"

Chọn "Upload files" hoặc "Import from Google Drive" để nạp tài liệu.

Bước 3: Đặt câu hỏi và khai thác thông tin từ tài liệu

Sau khi tài liệu được tải lên, bạn có thể bắt đầu trò chuyện với NotebookLM để truy vấn thông tin học thuật. Một số câu hỏi gợi ý như:

"Trong các tài liệu đã tải, có mô hình nghiên cứu nào được trình bày không? Hãy mô tả chi tiết."

"Tóm tắt nội dung liên quan đến Lý thuyết Căn bệnh Hà Lan (Dutch Disease Theory)."

"Tài liệu nào sử dụng thang đo Likert 5 điểm?"

"So sánh các lý thuyết nền được sử dụng trong ba bài nghiên cứu gần đây nhất."

Bạn có thể đặt câu hỏi bằng tiếng Việt hoặc tiếng Anh – NotebookLM đều có thể xử lý và trả lời chính xác dựa trên nội dung bạn đã nạp vào.
Ghi chú: Nên đặt nhiều câu hỏi theo các khía cạnh khác nhau: lý thuyết nền, mô hình nghiên cứu, biến quan sát, thang đo, phương pháp phân tích…Tạo "Note" ngay trong NotebookLM để lưu lại các phần nội dung quan trọng cho quá trình viết bài.

 Ví dụ sau đây là yêu cầu hỏi và trả lời nhé.

Câu hỏi:hãy trả lời bằng tiếng việt, Tóm tắt nội dung liên quan đến Lý thuyết Căn bệnh Hà Lan (Dutch Disease Theory)

 

Câu trả lời, quá là tuyệt vời luôn:

Dựa trên các nguồn đã cung cấp, dưới đây là tóm tắt nội dung liên quan đến Lý thuyết Căn bệnh Hà Lan (Dutch Disease Theory):

Lý thuyết Căn bệnh Hà Lan (Dutch Disease Theory) mô tả một hiện tượng kinh tế trong đó sự bùng nổ của một ngành kinh tế (thường là ngành xuất khẩu tài nguyên) hoặc một luồng vốn ngoại tệ lớn đổ vào có thể gây ra những tác động tiêu cực đến các ngành kinh tế khác, đặc biệt là các ngành sản xuất hàng hóa có thể giao thương (tradable goods) như công nghiệp chế biến.

Ban đầu, khái niệm này được đặt tên theo trải nghiệm của Hà Lan vào những năm 1960 sau khi phát hiện các mỏ khí đốt tự nhiên lớn, dẫn đến sự tăng giá mạnh của đồng tiền nước này và làm suy yếu ngành sản xuất truyền thống. Tuy nhiên, lý thuyết này đã được mở rộng và áp dụng cho tác động của bất kỳ luồng ngoại tệ lớn nào, bao gồm viện trợ nước ngoài, đầu tư trực tiếp nước ngoài (FDI), và đặc biệt là kiều hối.

Cơ chế chính của Căn bệnh Hà Lan hoạt động thông qua hai hiệu ứng:

  • Hiệu ứng Chi tiêu (Spending Effect): Dòng vốn ngoại tệ lớn (như kiều hối) làm tăng thu nhập trong nước và tổng cầu. Sự gia tăng chi tiêu này thường tập trung vào các mặt hàng và dịch vụ không thể giao thương (non-tradable) như dịch vụ, bất động sản. Điều này dẫn đến việc giá cả các mặt hàng không thể giao thương tăng lên. Do giá các mặt hàng có thể giao thương được neo vào thị trường quốc tế, sự tăng giá tương đối của hàng hóa không thể giao thương dẫn đến sự tăng giá của tỷ giá hối đoái thực (Real Exchange Rate – REER).
  • Hiệu ứng Dịch chuyển Nguồn lực (Resource Movement Effect): Lợi nhuận cao hơn trong ngành hàng hóa/dịch vụ không thể giao thương thu hút các yếu tố sản xuất như lao động và vốn dịch chuyển từ các ngành có thể giao thương sang.

Tỷ giá hối đoái thực tăng giá làm cho hàng xuất khẩu của quốc gia trở nên đắt hơn và hàng nhập khẩu rẻ hơn, từ đó làm giảm khả năng cạnh tranh của các ngành sản xuất hàng hóa có thể giao thương trên thị trường quốc tế. Sự kết hợp của hai hiệu ứng này có thể dẫn đến sự suy giảm sản lượng và việc làm trong các ngành có thể giao thương, đôi khi được gọi là "phi công nghiệp hóa".

Các nghiên cứu chỉ ra rằng tác động của Căn bệnh Hà Lan đối với tăng trưởng kinh tế có thể là tiêu cực. Đặc biệt, nếu khu vực có thể giao thương là nguồn chính của sự đổi mới công nghệ và học hỏi kinh nghiệm ("learning-by-doing"), việc suy giảm ngành này có thể ảnh hưởng đến năng suất và tăng trưởng dài hạn.

Tuy nhiên, tác động của Căn bệnh Hà Lan không phải lúc nào cũng xảy ra và có thể phụ thuộc vào nhiều yếu tố như:

  • Phản ứng chính sách vĩ mô: Cách chính phủ quản lý dòng vốn và tỷ giá hối đoái có thể làm giảm nhẹ hoặc tăng cường tác động.
  • Cách sử dụng dòng vốn: Nếu dòng vốn (như kiều hối) được hướng vào đầu tư sản xuất thay vì chỉ tiêu dùng, chúng có thể thúc đẩy tích lũy vốn và tăng năng lực sản xuất. Hiệu ứng tích lũy vốn này có thể bù đắp các tác động tiêu cực ban đầu và hỗ trợ tăng trưởng dài hạn.
  • Sự phát triển của thị trường tài chính và các chính sách hỗ trợ ngành có thể giao thương.

Các nguồn cung cấp đã áp dụng lý thuyết Căn bệnh Hà Lan để phân tích tác động của kiều hối ở nhiều quốc gia đang phát triển, bao gồm các nước ở Châu Âu, Châu Á (đặc biệt là Việt Nam), Châu Mỹ Latinh và Caribe, cũng như Pakistan, Bangladesh, Nepal. Các nghiên cứu này sử dụng nhiều phương pháp định lượng khác nhau để kiểm chứng sự tồn tại và mức độ của Căn bệnh Hà Lan trong bối cảnh kiều hối.

Trung bình, trung vị và mode: So sánh, công thức và ví dụ dễ hiểu

1. Giới thiệu trung bình, trung vị, mode

Trong thống kê mô tả, trung bình (mean), trung vị (median) và mode là 3 chỉ số trung tâm phổ biến nhất. Việc hiểu rõ từng khái niệm giúp bạn:

  • Tóm tắt dữ liệu hiệu quả
  • Phân tích dữ liệu chính xác hơn
  • Lựa chọn công cụ phân tích phù hợp trong Stata hoặc Excel

2. Khái niệm và công thức Trung bình (Mean) 

Định nghĩa: Là giá trị tổng của tất cả các quan sát chia cho số lượng quan sát.
Công thức:
Trung bình = (tổng giá trị các quan sát) /(số lượng quan sát)
Ví dụ: Điểm của 5 học sinh là: 6, 7, 8, 9, 10
Mean=(6+7+8+9+10)/5=8 , như vậy điểm trùng bình của nhóm học sinh này là 8 điểm.

3. Khái niệm và công thức Trung vị (Median)

Định nghĩa: Là giá trị đứng giữa khi sắp xếp các quan sát theo thứ tự tăng dần.
Nếu số lượng là lẻ, median là số ở giữa.
Nếu số lượng là chẵn, median là trung bình của hai số giữa.
Ví dụ:

  • Chuỗi số 6, 7, 8, 9, 10 thì trung vị = 8
  • Chuỗi số 6, 7, 8, 9 thì trung vị = (7+8)/2 = 7.5

4. Khái niệm và công thức Mode

Mode =Giá trị thường gặp nhất.
Định nghĩa Mode: là giá trị xuất hiện nhiều nhất trong tập dữ liệu.
Ví dụ: 6, 7, 7, 8, 9 thì Mode = 7
Nếu mọi giá trị xuất hiện 1 lần thì không có mode

5. So sánh Trung bình – Trung vị – Mode

  • Trung bình, bị ảnh hưởng bởi ngoại lệ, dễ tính toán, phù hợp với loại biến số lượng (liên tục), khả năng tóm tắt dữ liệu kém chính xác
  • Trung vị, không bị ảnh hưởng bởi ngoại lệ, dễ tính toán, phù hợp với loại biến thứ tự hoặc liên tục, khả năng tóm tắt dữ liệu tốt hơn
  • Mode, không bị ảnh hưởng bởi ngoại lệ, dễ tính toán, phù hợp với loại biến danh mục hoặc số, có thể có nhiều mode

6. Ví dụ thực tế trung bình, trung vị và mode về thu nhập hàng tháng

Dữ liệu thu nhập của 7 người (triệu đồng): 5, 6, 6, 7, 7, 8, 100
Trung bình Mean = (5 + 6 + 6 + 7 + 7 + 8 + 100) / 7 = 19.86
Trung vị Median = 7
Mode = 6 và 7 (cùng xuất hiện 2 lần). Nghĩa là có thể có nhiều giá trị mode nhé
Nhưng trung bình bị lệch do thu nhập quá lớn (100 triệu). Trung vị thể hiện mức trung tâm thực tế tốt hơn. Đây là điều đáng lưu ý.

Ví dụ này được chạy ở phần 8 dưới đây bằng Stata nhé.

7. Khi nào dùng cái nào trung bình, trung vị và mode?

  1. Trung bình: Khi dữ liệu không hoặc ít có giá trị ngoại lệ
  2. Trung vị: Khi dữ liệu lệch, có ngoại lệ (vd: thu nhập, giá nhà)
  3. Mode: Khi muốn tìm giá trị phổ biến nhất (vd: size giày phổ biến, màu yêu thích)

8. Câu lệnh tìm trung bình, trung vị và mode trong Stata

Trong Stata sử dụng lệnh 
summarize thunhap, detail   ( để tìm mean và median- thunhap là tên biến)

tabulate thunhap ( để tìm mode- thunhap là tên biến)

Ví dụ bạn mở stata lên và nhập các giá trị sau vào ô command để tạo bộ số liệu thu nhập:

clear
input thunhap
5
6
6
7
7
8
100
end

Sau đó gõ tab để xác định mode

tabulate thunhap

Giá trị nào có tần suất cao nhất chính là mode. Ở đây mode = 6 và 7 (cùng tần suất cao nhất: 2 lần)

Ngoài ra trung bình là 19.8 và trung vị là giá trị ở mức 50% percentile, chính là giá trị 7

Kết luận
Việc hiểu rõ sự khác nhau giữa trung bình, trung vị và mode sẽ giúp bạn lựa chọn phương pháp mô tả phù hợp và tránh sai lệch trong phân tích.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với ThS Khánh( nhóm MBA Bách Khoa) qua các kênh sau:

-Zalo 0903396688 phone no

-Facebook  facebook.com/hotroStata

Ứng dụng kiểm định T-test trong nghiên cứu y tế bằng Stata

Trong các bài nghiên cứu y tế mà ThS Khánh và team làm thường xuyên, mục đích thường là so sánh sự khác nhau giữa hai nhóm đối tượng: nhóm điều trị và nhóm chứng, hoặc trước và sau can thiệp, hoặc nam và nữ. Trong những tình huống như vậy, kiểm định t-test được dùng để xác định xem trung bình của hai nhóm có khác nhau về mặt thống kê hay không.

1. Tại sao T-test quan trọng trong nghiên cứu y tế?

Trong nghiên cứu y tế, các chỉ số như huyết áp, nồng độ cholesterol, BMI, hoặc mức độ hài lòng với chất lượng dịch vụ… được sử dụng như biến phụ thuộc. Việc so sánh giá trị trung bình giữa hai nhóm để đánh giá tác động của một yếu tố can thiệp (thuốc, phương pháp điều trị, giáo dục sức khỏe…) rất cần đến kiểm định T-test.

2. Phân loại các loại T-test trong Stata

T-test    Tình huống sử dụng    Lệnh trong Stata

  1. Loại T-test 1 mẫu (One-sample):So sánh trung bình với giá trị cố định, ví dụ muốn test chỉ số BMI có bằng 23 không thì sử dụng lệnh: ttest bmi = 23
  2. Loại T-test 2 mẫu độc lập: So sánh trung bình giữa hai nhóm không liên quan, ví dụ muốn test có sự khác biệt về BMI giữa 2 nhóm giới tính khác nhau thì dùng lệnh: ttest bmi, by(gioitinh)
  3. Loại T-test có ghép cặp (Paired):So sánh giá trị trước và sau ở cùng đối tượng, ví dụ so sánh huyết sắc tố  Hemoglobin A của 1 nhóm người ở hai thời điểm khác nhau thì sử dụng lệnh ttest hba1c_truoc = hba1c_sau

3. Ví dụ 1: Kiểm định T-test 2 mẫu trong nghiên cứu huyết áp

Tải có dữ liệu về huyết áp tối đa (SBP) của 100 bệnh nhân, trong đó 50 người được dùng thuốc A và 50 người dùng giả dược (placebo). Tải tại đây https://phantichstata.com/filedownload/huyetap.dta

Biến: sbp = huyết áp tối đa

Biến: nhom = 1 (thuốc A), 0 (placebo)  

use huyetap.dta, clear
ttest sbp, by(nhom)


Diễn giải kết quả t-test
Null hypothesis (H0): Trung bình huyết áp hai nhóm bằng nhau.
Kết quả: p-value < 0.05, ta bác bỏ H0 và kết luận huyết áp trung bình khác nhau giữa hai nhóm.

4. Ví dụ 2: T-test có ghép cặp (paired T-test) trước và sau can thiệp

Chỉ số HbA1c trước và sau khi áp dụng một chương trình dành cho bệnh nhân tiểu đường nằm trong file sau, bạn tải về nhé: https://phantichstata.com/filedownload/hba1c.dta
use hba1c.dta, clear
ttest hba1c_truoc = hba1c_sau


Giải thích kết quả lệnh paired sample.
Do trung bình HbA1c sau < trước và p < 0.05, nên kết luận rằng có sự khác biệt về giá trị HbA1c sau và trước, nên suy ra chương trình can thiệp có hiệu quả.

5. Lưu ý khi dùng T-test trong Stata

Giả định về phân phối: T-test giả định dữ liệu phân phối chuẩn. Có thể kiểm định nhanh qua histogram hoặc lệnh sktest.
Kiểm tra động nhất phương sai: Trong T-test hai mẫu, nếu phương sai không đồng nhất, Stata sẽ điều chỉnh tự động (Welch correction).
Biến nhóm phải được mã hóa rõ ràng (0/1 hoặc 1/2).
Tóm lại, T-test là công cụ kiểm định cơ bản,rất hiệu quả trong nghiên cứu y tế. Việc sử dụng đúng loại T-test trong Stata giúc bạn đưa ra những kết luận mang tính khoa học và đáng tin cậy.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với nhóm MBA Bách Khoa qua các kênh sau:

-Zalo 0903396688 phone no

-Facebook  facebook.com/hotroStata

 

So sánh OLS, GLS và FGLS và cách áp dụng trong Stata

Trong phân tích hồi quy, việc lựa chọn phương pháp ước lượng phù hợp là yếu tố then chốt để đảm bảo kết quả nghiên cứu đáng tin cậy. Ba phương pháp phổ biến là:

  • OLS (Ordinary Least Squares) – Hồi quy tuyến tính thông thường
  • GLS (Generalized Least Squares) – Hồi quy bình phương tối thiểu tổng quát
  • FGLS (Feasible Generalized Least Squares) – GLS khả thi khi không biết chính xác cấu trúc sai số

1. OLS là gì?

OLS là phương pháp hồi quy tuyến tính cổ điển, được sử dụng rộng rãi nhờ sự đơn giản và hiệu quả trong đa số các bài toán cần giải quyết.
Giả định chính của OLS:

  • Phương sai sai số không đổi (homoskedasticity)
  • Không có tự tương quan
  • Không có đa cộng tuyến hoàn hảo

Cách chạy OLS trong Stata:
reg y x1 x2 x3
Ưu điểm:
    Dễ sử dụng, diễn giải rõ ràng
    Ước lượng không chệch (unbiased) nếu các giả định được đảm bảo
Nhược điểm:
    Khi giả định bị vi phạm (ví dụ: phương sai thay đổi), sai số chuẩn sẽ bị sai lệch → kiểm định t và F không còn đáng tin cậy

2. GLS là gì?

GLS là phiên bản tổng quát của OLS, dùng khi biết cấu trúc của phương sai sai số hoặc ma trận hiệp phương sai.
GLS phù hợp khi:
    Có tự tương quan (AR1, MA1…)
    Có phương sai sai số thay đổi (heteroskedasticity)
    Và bạn biết rõ cấu trúc của sai số
Ưu điểm:
    Cho ước lượng BLUE (Best Linear Unbiased Estimator) trong điều kiện vi phạm giả định của OLS
    Hiệu quả hơn OLS nếu áp dụng đúng
Nhược điểm:
    Hiếm khi biết chính xác cấu trúc sai số trong thực tế → ít được áp dụng trực tiếp

3. FGLS là gì?

FGLS (Feasible GLS) là phiên bản thực tế hơn của GLS, khi cấu trúc sai số không biết nhưng có thể ước lượng được từ dữ liệu.
FGLS là lựa chọn tốt trong các nghiên cứu vi phạm giả định phương sai đồng nhất hoặc có tự tương quan.
Cách chạy FGLS trong Stata với dữ liệu bảng (panel):
xtset id time
xtgls y x1 x2 x3, panels(heteroskedastic)

Hoặc nếu có tự tương quan:
xtgls y x1 x2 x3, panels(heteroskedastic) corr(ar1)
Ưu điểm:
    Ứng dụng thực tế cao
    Hiệu quả hơn OLS trong trường hợp vi phạm giả định
    Có thể xử lý đồng thời nhiều vấn đề (phương sai thay đổi + tự tương quan)
Nhược điểm:
    Nhạy cảm với sai số trong ước lượng ma trận hiệp phương sai
    Không luôn tốt hơn OLS trong mẫu nhỏ

4. So sánh tổng quát giữa OLS, GLS và FGLS

Tiêu chí OLS GLS FGLS
Điều kiện áp dụng Giả định cổ điển đúng Biết cấu trúc sai số Cấu trúc sai số không biết nhưng có thể ước lượng
Ước lượng BLUE? Có nếu giả định đúng Có nếu cấu trúc đúng Gần BLUE nếu ước lượng chính xác
Độ phổ biến Rất phổ biến Ít dùng Phổ biến trong phân tích nâng cao
Độ phức tạp Thấp Cao nếu tính tay Trung bình, có thể dùng Stata
Xử lý phương sai thay đổi Không
Xử lý tự tương quan Không

5. Khuyến nghị sử dụng theo kinh nghiệm giảng dạy

Là người từng hướng dẫn hàng trăm luận văn và nghiên cứu thực nghiệm, tôi đề xuất quy trình sau để lựa chọn phương pháp:
Bước 1: Bắt đầu với OLS và kiểm định các giả định:
    Kiểm định phương sai thay đổi: estat hettest, estat imtest, white
    Kiểm định tự tương quan (với dữ liệu chuỗi thời gian/bảng): dwstat , xtserial
Bước 2: Nếu vi phạm => chuyển sang sử dụng:
    reg …, robust nếu chỉ có phương sai thay đổi
    xtgls … nếu là dữ liệu bảng hoặc vi phạm phức tạp
Bước 3: Luôn trình bày rõ ràng trong bài nghiên cứu:
    Kết quả kiểm định giả định
    Lý do chọn FGLS hoặc robust SE thay cho OLS

Trong quá trình sử dụng các bạn có cần hỗ trợ cứ liên hệ nhóm theo số phone sau nhé

Phân biệt kiểm định Breusch-Pagan và White trong Stata : lựa chọn nào để phát hiện phương sai thay đổi

1. Khái niệm phương sai sai số thay đổi

Trong hồi quy tuyến tính có một giả định là phương sai của sai số phải không đổi (homoskedasticity). Khi giả định này bị vi phạm – phương sai của phần dư thay đổi theo giá trị của biến độc lập – ta nói rằng mô hình có phương sai sai số thay đổi. lưu ý là SAI SỐ chính là PHẦN DƯ nhé.
Hậu quả: Các ước lượng OLS vẫn không chệch, nhưng sai số chuẩn bị sai lệch, khiến các kiểm định t và F không còn đáng tin cậy.
Để phát hiện vấn đề này trong Stata, hai phương pháp phổ biến nhất là:

  •     Kiểm định Breusch-Pagan (BP Test)
  •     Kiểm định White (White Test)

2. So sánh kiểm định Breusch-Pagan và White

Tiêu chí

Kiểm định Breusch-Pagan

Kiểm định White

Được đề xuất bởi

Breusch & Pagan (1979)

Halbert White (1980)

Giả định

Mối quan hệ tuyến tính giữa sai số và biến độc lập

Cho phép cả tuyến tính và phi tuyến

Độ nhạy với mô hình phi tuyến

Thấp hơn

Cao hơn

Phát hiện tương tác

Không

Có thể phát hiện tương tác giữa biến độc lập

Tính toán

Đơn giản hơn

Phức tạp hơn một chút

Khuyến nghị sử dụng

Mô hình tuyến tính đơn giản

Mô hình có biến tương tác, phi tuyến

3. Khi nào nên dùng Breusch-Pagan?

Ta sử dụng kiểm định Breusch-Pagan khi:

  •     Mô hình của tuyến tính rõ ràng
  •     Không có biến tương tác hay biến đa thức (như x², x³)
  •     Cần một kiểm định nhanh, đơn giản

Ví dụ lệnh trong Stata:
reg y x1 x2 x3
estat hettest

Kết quả trả về:
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
chi2(1) = 6.87
Prob > chi2 = 0.0088

Do p-value < 0.05 => Có phương sai thay đổi => Vi phạm giả định OLS

4. Khi nào nên dùng kiểm định White?

White test nên được sử dụng khi:

  •     Mô hình có chứa biến tương tác hoặc biến phi tuyến (log, bình phương, căn bậc hai…)
  •     Kiểm định toàn diện hơn, không giới hạn bởi tuyến tính
  •     Dữ liệu dạng cắt ngang với phân tán sai số không đều

Ví dụ lệnh trong Stata:
reg y x1 x2 x3
estat imtest, white

Kết quả:
White's test for Ho: homoskedasticity
Chi2(9) = 20.45
Prob > chi2 = 0.014

=> p-value < 0.05 => Có bằng chứng về phương sai sai số thay đổi.

5. Ưu và nhược điểm của mỗi kiểm định

-Breusch-Pagan
    Ưu điểm: Tính toán nhanh, trực quan, dễ diễn giải
    Nhược điểm: Không phát hiện được quan hệ phi tuyến hoặc tương tác
-White
    Ưu điểm: Linh hoạt, không yêu cầu tuyến tính, phát hiện được tương tác và phi tuyến
    Nhược điểm: Có thể quá nhạy trong mẫu nhỏ => dễ báo sai

6. Tóm lại

    Là người đã giảng dạy và sử dụng Stata trong hàng trăm dự án nghiên cứu định lượng, Ths Khánh và nhóm khuyến nghị như sau:
    -Mô hình tuyến tính đơn giản nên dùng Breusch-Pagan
    -Mô hình có biến bình phương, log, tương tác nên dùng White
    -Cần đánh giá chắc chắn về heteroskedasticity => thực hiện cả hai kiểm định
    Ngoài ra, nên kết hợp với phân tích đồ họa phần dư (residual plots) để có đánh giá trực quan hơn: rvfplot

7. Xử lý nếu phát hiện phương sai thay đổi

Sau khi kiểm định phát hiện phương sai thay đổi, bạn có thể:

  •     Sử dụng hồi quy với robust standard errors: reg y x1 x2 x3, robust
  •     Dùng phương pháp hồi quy hiệu chỉnh như FGLS (Feasible Generalized Least Squares)
  •     Thử biến đổi mô hình (logarit hóa biến phụ thuộc và/hoặc độc lập)

 

Kiểm định White trong Stata: Phát hiện phương sai thay đổi đơn giản và hiệu quả

1. Kiểm định White là gì?

     Trong hồi quy tuyến tính cổ điển (Ordinary Least Squares – OLS), một trong những giả định quan trọng là phương sai của sai số phải đồng nhất (homoskedasticity). Khi giả định này bị vi phạm – tức phương sai thay đổi theo giá trị của biến độc lập – ta gặp hiện tượng heteroskedasticity (phương sai sai số thay đổi).
     Kiểm định White, được đề xuất bởi Halbert White (1980), là một phương pháp thống kê dùng để phát hiện phương sai thay đổi trong mô hình hồi quy, không yêu cầu giả định phân phối chuẩn hay tuyến tính giữa phần dư và biến độc lập. Vì vậy, kiểm định này rất linh hoạt và phù hợp với nhiều dạng mô hình, đặc biệt là dữ liệu chéo (cross-section).

2. Tại sao kiểm định phương sai thay đổi lại quan trọng?

     Nếu bạn bỏ qua hiện tượng phương sai thay đổi, bạn vẫn có thể thu được ước lượng hệ số hồi quy đúng (unbiased), nhưng độ lệch chuẩn của hệ số sẽ sai → dẫn đến việc kiểm định t và F không còn đáng tin cậy. Điều này ảnh hưởng trực tiếp đến kết luận nghiên cứu.
     Đặc biệt trong các nghiên cứu định lượng dùng Stata để phân tích dữ liệu kinh tế, xã hội, y tế, hiện tượng này thường xuất hiện do sự đa dạng trong biến quan sát.
     Ví dụ: Khi mô hình hóa thu nhập theo trình độ học vấn, sai số có thể biến động mạnh giữa nhóm học vấn thấp và cao – một trường hợp điển hình của heteroskedasticity.

3. Khi nào nên thực hiện kiểm định White?

Khi dữ liệu của bạn là cross-sectional (dữ liệu cắt ngang- chéo)
Khi bạn nghi ngờ rằng sai số trong mô hình không phân bố đều
Khi biểu đồ phần dư (residual plot) cho thấy dạng hình quạt hoặc bất đối xứng
Khi mô hình có nhiều biến độc lập và tương tác – dễ phát sinh mối quan hệ phi tuyến giữa phần dư và biến độc lập

4. Cách thực hiện kiểm định White trong Stata

Sau khi ước lượng mô hình hồi quy, bạn có thể chạy lệnh sau:
reg y x1 x2 x3
estat imtest, white

Trong đó:
reg là lệnh hồi quy tuyến tính
estat imtest, white thực hiện kiểm định White dựa trên phần dư
Diễn giải kết quả:
Nếu p-value < 0.05, bạn bác bỏ giả thuyết H₀ (phương sai sai số đồng nhất), tức là có bằng chứng về phương sai thay đổi.
Nếu p-value ≥ 0.05, mô hình chưa có dấu hiệu vi phạm giả định phương sai đồng nhất.

5. Ví dụ minh họa kiểm định White trong Stata

Giả sử bạn có bộ dữ liệu nghiên cứu về mức lương (wage) theo kinh nghiệm (exper), trình độ học vấn (educ), và giới tính (gender):
use wage_data.dta, clear
reg wage exper educ gender
estat imtest, white

Kết quả có thể như sau:
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
Chi2(9) = 27.53
Prob > chi2 = 0.0011

→ Vì p-value = 0.0011 < 0.05 → có hiện tượng phương sai thay đổi.

6. Cách xử lý khi phát hiện phương sai thay đổi

Có 3 hướng phổ biến:
a. Dùng sai số chuẩn hiệu chỉnh (robust standard errors)
reg wage exper educ gender, robust
→ Giúp bạn vẫn dùng OLS nhưng có sai số chuẩn đáng tin cậy hơn.
b. Dùng mô hình hồi quy FGLS (nếu dùng data panel)
xtgls y x1 x2 x3, panels(heteroskedastic)
c. Biến đổi mô hình
Dùng logarit biến phụ thuộc để loại bỏ hoặc thay thế biến có ảnh hưởng quá lớn đến phần dư
Lưu ý nhỏ: dù kiểm định White linh hoạt, nhưng vẫn nên kết hợp với phân tích đồ họa phần dư, và kiểm định Breusch-Pagan để có đánh giá toàn diện hơn.

Nếu bạn đang gặp khó khăn trong xử lý dữ liệu và thực hiện phân tích, dịch vụ hỗ trợ từ phantichstata.com có thể giúp bạn tiết kiệm thời gian và đảm bảo kết quả chính xác nhất.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với ThS  nhóm MBA Bách Khoa qua các kênh sau:

-Zalo 0903396688 

-Facebook  facebook.com/hotroStata

 

FGLS trong Stata: Giải pháp cho phương sai sai số thay đổi và tự tương quan

1.Giới thiệu về hồi quy FGLS

Trong phân tích hồi quy, một trong những giả định quan trọng của mô hình hồi quy tuyến tính là phương sai của sai số phải đồng nhất. Tuy nhiên, trong thực tế, hiện tượng phương sai sai số thay đổi thường xảy ra, làm cho các ước lượng không còn hiệu quả. Một phương pháp phổ biến để khắc phục vấn đề này là sử dụng hồi quy FGLS (Feasible Generalized Least Squares).

FGLS là một phương pháp ước lượng giúp cải thiện tính chính xác của hồi quy khi mô hình gặp phải hiện tượng phương sai sai số thay đổi hoặc tự tương quan. Trong bài viết này, chúng ta sẽ đi sâu vào:

  • Khi nào cần sử dụng FGLS?
  • Cách thực hiện FGLS trong Stata
  • Giải thích kết quả FGLS

2. Khi nào nên sử dụng FGLS?

Hồi quy FGLS thích hợp khi:

  • Có hiện tượng phương sai sai số thay đổi : Khi phương sai của sai số không đồng đều giữa các quan sát, các ước lượng trở nên không hiệu quả.
  • Có hiện tượng tự tương quan trong dữ liệu chuỗi thời gian: Khi các sai số có mối quan hệ với nhau qua các thời điểm khác nhau, FGLS có thể giúp cải thiện mô hình.
  • Dữ liệu bảng panel data: Khi có sự khác biệt về phương sai giữa các cá nhân hoặc nhóm, FGLS giúp điều chỉnh sai số hiệu quả hơn.

3. Cách chạy hồi quy FGLS trong Stata

Bước 1: Kiểm tra hiện tượng phương sai sai số thay đổi

Trước khi sử dụng FGLS, cần kiểm tra xem mô hình có bị phương sai sai số thay đổi hay không. Một trong những kiểm định phổ biến là Breusch-Pagan:

Ví dụ mô hình tác động ngẫu nhiên được chọn, ta sẽ kiểm tra phương sai sai số thay đổi bằng "Breusch and Pagan Lagrangian multiplier test for random effects"

xtreg    LIQ SIZE CAP ROE NIM, re
xttest0

Nếu giá trị p-value < 0.05, ta bác bỏ giả thuyết H0 (phương sai sai số đồng nhất) và kết luận rằng có hiện tượng phương sai sai số thay đổi.

Bước 2: Kiểm tra hiện tượng tự tương quan

.  xtserial  LIQ SIZE CAP ROE NIM

Wooldridge test for autocorrelation in panel data
H0: no first-order autocorrelation
    F(  1,      28) =      3.697
           Prob > F =      0.0647

Nếu giá trị p-value Prob < 0.05, ta bác bỏ giả thuyết H0 (không có tự tương quan) và kết luận rằng có hiện tượng tự tương quan

Bước 3: Chạy hồi quy FGLS

Sau khi xác nhận có phương sai sai số thay đổi, chúng ta thực hiện FGLS bằng cách sử dụng lệnh xtgls trong Stata:

xtgls y x1 x2 x3, panels(heteroskedastic)

y là biến phụ thuộc

x1 x2 x3 là các biến độc lập

panels(heteroskedastic) giúp điều chỉnh phương sai sai số thay đổi theo từng cá nhân trong dữ liệu bảng

. xtgls    LIQ SIZE CAP ROE NIM, panels(heteroskedastic)

Cross-sectional time-series FGLS regression

Coefficients:  generalized least squares
Panels:        heteroskedastic
Correlation:   no autocorrelation

Estimated covariances      =        29          Number of obs     =        145
Estimated autocorrelations =         0          Number of groups  =         29
Estimated coefficients     =         5          Time periods      =          5
                                                Wald chi2(4)      =     198.09
                                                Prob > chi2       =     0.0000

 

Nếu có cả tự tương quan và phương sai sai số thay đổi, ta dùng:

xtgls y x1 x2 x3, panels(heteroskedastic) corr(ar1)

Lệnh trên giả định sai số có cấu trúc tự tương quan bậc 1 (AR(1)).

. xtgls    LIQ SIZE CAP ROE NIM, panels(heteroskedastic) corr(ar1)

Cross-sectional time-series FGLS regression

Coefficients:  generalized least squares
Panels:        heteroskedastic
Correlation:   common AR(1) coefficient for all panels  (0.0498)

Estimated covariances      =        29          Number of obs     =        145
Estimated autocorrelations =         1          Number of groups  =         29
Estimated coefficients     =         5          Time periods      =          5
                                                Wald chi2(4)      =     184.78
                                                Prob > chi2       =     0.0000

4. Giải thích kết quả hồi quy FGLS

Sau khi chạy lệnh xtgls, Stata sẽ hiển thị bảng kết quả. Một số yếu tố quan trọng cần lưu ý:

Hệ số ước lượng (Coef.): Thể hiện mức độ ảnh hưởng của từng biến độc lập lên biến phụ thuộc.

Giá trị p-value: Nếu p-value < 0.05, biến đó có ảnh hưởng đáng kể đến biến phụ thuộc.

5. Kết luận về FGLS trong Stata

Hồi quy FGLS là một phương pháp tốt giúp điều chỉnh phương sai sai số thay đổi và tự tương quan, giúp cải thiện tính chính xác của mô hình hồi quy. Khi dữ liệu của bạn gặp phải vấn đề heteroskedasticity hoặc autocorrelation, sử dụng FGLS là một lựa chọn phù hợp để có được ước lượng đáng tin cậy hơn.

Nếu bạn đang gặp khó khăn trong xử lý dữ liệu và thực hiện phân tích hồi quy FGLS, dịch vụ hỗ trợ từ phantichstata.com có thể giúp bạn tiết kiệm thời gian và đảm bảo kết quả chính xác nhất.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với nhóm MBA Bách Khoa qua các kênh sau:

-Zalo 0903396688 

-Facebook  facebook.com/hotroStata

 

Mô hình tác động ngẫu nhiên Random Effects và cách chạy trong Stata

1. Giới thiệu về mô hình tác động ngẫu nhiên (RE)

Mô hình tác động ngẫu nhiên (Random Effects – RE) là một trong hai mô hình phổ biến được sử dụng trong phân tích dữ liệu bảng (panel data), bên cạnh mô hình tác động cố định (Fixed Effects – FE).

Khi nào sử dụng mô hình Random Effects?

  • Khi các yếu tố không quan sát được không có tương quan với các biến độc lập trong mô hình.
  • Khi muốn khai thác cả sự thay đổi giữa các cá thểtheo thời gian.
  • Khi số lượng cá thể lớn và số lần quan sát ít (N lớn, T nhỏ).
  • Khi muốn đưa vào mô hình các biến không thay đổi theo thời gian (vd: giới tính, địa lý, ngành nghề…).

Ngược lại, nếu các yếu tố không quan sát có tương quan với biến độc lập, mô hình RE sẽ cho ước lượng bị chệch. Khi đó, mô hình Fixed Effects (FE) sẽ phù hợp hơn.

2. Đặc điểm của mô hình Random Effects (RE)

Mô hình RE giả định các yếu tố không quan sát là một biến ngẫu nhiên, không có tương quan với các biến độc lập.

Hồi quy sử dụng phương pháp Generalized Least Squares (GLS) thay vì Ordinary Least Squares (OLS).

3. Cách chạy mô hình Random Effects trong Stata

3.1. Kiểm tra dữ liệu bảng

Trước khi chạy mô hình, cần kiểm tra xem dữ liệu có đúng dạng bảng hay không:

xtset id time

id: Biến định danh cá thể (vd: mã doanh nghiệp, mã quốc gia…).

time: Biến thời gian (vd: năm, quý, tháng…).

Stata sẽ hiển thị thông tin về dữ liệu bảng, bao gồm số cá thể và số giai đoạn thời gian.

3.2. Chạy mô hình Random Effects

Lệnh cơ bản để chạy mô hình tác động ngẫu nhiên trong Stata là:

xtreg y x1 x2 x3, re

y: Biến phụ thuộc.

x1, x2, x3: Các biến độc lập.

re: Tùy chọn để chạy mô hình Random Effects.

3.3. Kiểm định Hausman để lựa chọn giữa FE và RE

Nếu không chắc chắn nên dùng mô hình Fixed Effects (FE) hay Random Effects (RE), ta có thể sử dụng kiểm định Hausman.

hausman fe re

Nếu p-value < 0.05: Bác bỏ mô hình RE, chọn mô hình FE.

Nếu p-value > 0.05: Không có đủ bằng chứng bác bỏ mô hình RE, có thể sử dụng mô hình RE.

Ở đây p=0.7842 nên ta sử dụng mô  hình RE

3.4. Kiểm tra phương sai sai số thay đổi trong mô hình RE

Nếu nghi ngờ có phương sai sai số thay đổi (heteroskedasticity), có thể kiểm tra bằng lệnh:

xttest0

Nếu có phương sai thay đổi, nên sử dụng sai số chuẩn hiệu chỉnh (robust standard errors) để có ước lượng đáng tin cậy:

xtreg y x1 x2 x3, re vce(robust)

Hoặc cách thông dụng hơn là sử dụng GLS để khắc phục

4. Ví dụ minh họa trong Stata

4.1. Dữ liệu giả định

Giả sử chúng ta có dữ liệu về mức lương của nhân viên trong nhiều công ty khác nhau qua nhiều năm.

ID (Nhân viên) Năm Lương ($) Kinh nghiệm Trình độ Giới tính
1 2019 5000 5 Đại học Nam
1 2020 5500 6 Đại học Nam
2 2019 4800 4 Cao đẳng Nữ
2 2020 5200 5 Cao đẳng Nữ

4.2. Chạy mô hình RE trong Stata

xtset ID Nam

xtreg Luong KinhNghiem TrinhDo GioiTinh, re

Giải thích:

xtset ID Nam: Định dạng dữ liệu bảng.

xtreg Luong KinhNghiem TrinhDo GioiTinh, re: Chạy mô hình RE.

Stata sẽ hiển thị kết quả hồi quy, trong đó các hệ số phản ánh tác động trung bình của từng biến lên mức lương.

4.3. Kiểm định Hausman để chọn giữa FE và RE

xtreg Luong KinhNghiem TrinhDo GioiTinh, fe

estimates store fe

xtreg Luong KinhNghiem TrinhDo GioiTinh, re

estimates store re

hausman fe re

Nếu p-value nhỏ hơn 0.05, ta sử dụng mô hình FE. Nếu lớn hơn 0.05, ta có thể sử dụng mô hình RE.

5. Kết luận

Mô hình tác động ngẫu nhiên (RE) phù hợp khi các yếu tố không quan sát không có tương quan với biến độc lập.

RE cho phép ước lượng hiệu quả hơn khi dữ liệu có nhiều cá thể nhưng ít giai đoạn thời gian.

Kiểm định Hausman giúp xác định mô hình nào phù hợp hơn giữa FE và RE.

Khi có phương sai thay đổi, cần dùng sai số chuẩn hiệu chỉnh (vce(robust)) hoặc GLS

Mô hình Random Effects là một công cụ quan trọng trong phân tích dữ liệu bảng, đặc biệt khi nghiên cứu các dữ liệu kinh tế, tài chính, lao động, và nhiều lĩnh vực khác.

Nếu bạn cần tư vấn hoặc hỗ trợ về phân tích dữ liệu bằng Stata, đừng ngần ngại liên hệ với chúng tôi, nhóm MBA Bách Khoa qua các kênh sau:

-Zalo 0903396688 

-Facebook  facebook.com/hotroStata

Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata

Thạc sĩ Khánh và nhóm MBA Bách Khoa 0903396688 trình bài về khái niệm phương sai sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục phương sai sai số thay đổi sử dụng phần mềm Stata.

Định nghĩa phương sai của sai số thay đổi

     Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố  nhiễu ui (hay còn gọi là phần dư residuals) xuất hiện trong hàm hồi quy tổng thể có phương sai không thay đổi (homoscedasticity,  còn gọi là phương sai có điều kiện không đổi); tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự hiện diện của phương sai thay đổi. Phương sai thay đổi (Heteroscedasticity, còn gọi là phương sai của sai số thay đổi) .

     Cụ thể điều này có nghĩa là các sai số có cùng phương sai tại mọi mức của biến độc lập. Nếu giả thiết này bị vi phạm, tức là phương sai của sai số thay đổi theo giá trị của biến độc lập, hiện tượng này được gọi là phương sai thay đổi (heteroscedasticity).

     Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không thiên lệch tốt nhất (BLUE). Khi có phương sai thay đổi, các phương sai của các ước lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi trong Stata

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy tuyến tính đa biến OLS

hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi( White’s test)

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

            estat hettest

Cách đọc kết quả: hai cách trên ,nếu p-value <5% thì,chấp nhận giả thiết H1:Phương sai không đồng nhất, nghĩa là phương sai thay đổi (the variance is not homogenous) ( dĩ nhiên là không tốt, giá trị mong đợi là p.value >5%, lúc đó phương sai đồng nhất, phương sai không đổi).

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy dữ liệu bảng sử dụng fix và random effect

     Phương sai sai số thay đổi heteroskedasticity của mô hình REM: (sử dụng kiểm định LM – Breusch and pagan Lagrangian Multiplier ). Dùng lệnh xttest0, nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

     Phương sai sai số thay đổi heteroskedasticity của mô hình FEM( dùng kiểm định wald): Dùng lệnh xttest3 (lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh ssc install xttest3) . Nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

Cách khắc phục phương sai thay đổi trong Stata

Khi phát hiện hiện tượng phương sai thay đổi, một phương pháp phổ biến để khắc phục là sử dụng sai số chuẩn hiệu chỉnh (robust standard errors). Phương pháp này giúp điều chỉnh sai số chuẩn của ước lượng, làm cho các kiểm định thống kê trở nên tin cậy hơn ngay cả khi có phương sai thay đổi.

Để thực hiện trong Stata, thêm tùy chọn , robust vào sau lệnh hồi quy. Ví dụ:

regress y x1 x2 x3, robust

Lệnh này sẽ ước lượng mô hình hồi quy của biến phụ thuộc y theo các biến độc lập x1, x2, x3 với sai số chuẩn hiệu chỉnh.

Ngoài ra, trong trường hợp phương sai thay đổi nghiêm trọng, bạn có thể xem xét sử dụng phương pháp hồi quy bình phương tổng quát khả dĩ (Feasible Generalized Least Squares – FGLS). Phương pháp này điều chỉnh mô hình để xử lý phương sai thay đổi và tự tương quan, giúp cải thiện hiệu quả của ước lượng. Tuy nhiên, FGLS yêu cầu giả định về cấu trúc của phương sai thay đổi, do đó cần thận trọng khi áp dụng.

Sử dụng mô hình sai số chuẩn mạnh để khắc phục phương sai sai số thay đổi, cụ thể xem ở đây nhé: https://phantichstata.com/mo-hinh-sai-chuan-manh-robust-standard-errors-la-gi-su-dung-ra-sao.html

Như vậy nhóm MBA Bách Khoa đã giới thiệu tìm hiểu về định nghĩa, cách phát hiện và phương pháp khắc phục hiện tượng phương sai của sai số thay đổi trong mô hình hồi quy sử dụng Stata. Việc nhận diện và xử lý đúng hiện tượng này giúp đảm bảo tính chính xác và tin cậy của các kết luận thống kê trong nghiên cứu.

Nếu bạn cần hỗ trợ thêm về việc chạy mô hình hoặc xử lý số liệu, đừng ngần ngại liên hệ với nhóm MBA Bách Khoa qua các kênh sau:

-Zalo 0903396688 

-Facebook  facebook.com/hotroStata