Category Archives: Stata

Kiểm định tính dừng unit root test trong stata bằng lệnh dfuller

Kiểm định nghiệm đơn vị (Unit root test) của chuỗi thời gian là gì?

Kiểm định nghiệm đơn vị là việc kiểm tra xem chuỗi thời gian có tính dừng hay không.

Trước tiên sẽ đi vào phần thực hành kiểm tra chuỗi dừng hay không bằng Stata, sau đó sẽ đi đến phần lý thuyết nhé

Thực hành kiểm tra chuỗi dừng hay không bằng Stata

File số liệu để kiểm tra chuỗi dừng. https://phantichstata.com/data/unit-root-test.dta

Các bạn tải file về và mở lên bằng chương trình Stata nhé

Bây giờ có hai biến cần kiểm tra tính dừng, đó là biến  FGAP và VCSHTTS.
Nguyên tắc chấp nhận hoặc loại bỏ giả thiết: nếu giá trị tuyệt đối(Test Statistic) < Giá trị tuyệt đối(các giá trị ở Critical value) thì chấp nhận H0, nghĩa là chuỗi ko dừng, và cần tiếp tục lấy sai phân của chuỗi này và kiểm tra tiếp xem sai phân dừng chưa.
Ta thực hiện câu lệnh sau
dfuller FGAP , lags(0)


Ta thấy giá trị tuyệt đối của ô màu đỏ nhỏ hơn giá trị tuyệt đối của các ô màu xanh. Nên kết luận chuỗi chưa dừng, nên ta lấy sai phân và chạy kiểm định dựa trên sai phân đó

gen d_FGAP=d.FGAP   (lưu ý lệnh d.FGAP chính là sai phân của FGAP)
dfuller d_FGAP , lags(0)

Ta thấy giá trị tuyệt đối của ô màu đỏ lớn hơn giá trị tuyệt đối của các ô màu xanh. Nên kết luận chuỗi đã dừng.
Tương tự, bạn chạy kiểm tra tính dừng của biến VCSHTTS bằng lệnh sau, và nhận thấy chuỗi đã dừng( và như vậy dĩ nhiên không cần lấy sai phân nữa)
dfuller VCSHTTS, lags(0)

Lý thuyết kiểm định tính dừng unit root test

Một chuỗi thời gian dừng (stationary) nếu trung bình và phương sai của nó không đổi qua thời gian và giá trị hiệp phương sai (covariance) giữa hai giai đoạn chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn ấy chứ không phụ thuộc vào thời gian thực sự tại đó hiệp phương sai được tính.

Lý do cần chuỗi thời gian có dừng hay không?

Nếu một chuỗi không dừng, chúng ta có thể nghiên cứu hành vi của nó chỉ cho riêng giai đoạn đang xem xét. Mỗi chuỗi thời gian là một giai đoạn riêng biệt. Cho nên, chúng ta không thể khái quát hóa kết quả phân tích cho các giai đoạn khác. Đối với các mục đích dự báo, chuỗi không dừng sẽ không có giá trị ứng dụng thực tiễn.
Chúng ta có thể sử dụng một kiểm định được phát triển bởi hai nhà thống kê Dickey và Fuller, gọi là thống kê Dickey-Fuller, viết tắt là DF. Hoặc kiểm định Dickey-Fuller mở rộng (ADF), Dickey và Fuller đã phát triển một kiểm định khác, được gọi là kiểm định Dickey-Fuller mở rộng (augmented Dickey-Fuller test)
Giả thuyết kiểm định:
H0: Yt là chuỗi dữ liệu không dừng
H1: Yt là chuỗi dữ liệu dừng

Chúng ta sử dụng thống kê tau của Dickey-Fuller, họ đưa ra công thức tính toán các giá trị ngưỡng Critical value và từ đó được mở rộng bởi MacKinnon. Các giá trị ngưỡng Critical value Mackinnon bây giờ đã được đưa vào tự động phần mềm stata(phần tô đậm bên dưới).

.   dfuller FGAP , lags(0)

Dickey-Fuller test for unit root                   Number of obs   =        47

                               ———- Interpolated Dickey-Fuller ———
                  Test         1% Critical       5% Critical      10% Critical
              
Statistic           Value             Value             Value
——————————————————————————
 Z(t)             -2.179            -3.600            -2.938            -2.604
——————————————————————————
MacKinnon approximate p-value for Z(t) = 0.2139

Các bạn làm bài có trao đổi liên quan đến unit root test, kiểm định tính dừng, kiểm định nghiệm đơn vị cứ liên hệ trao đổi thêm với nhóm nhé.

Video thực hiện kiểm định tính dừng unit root test trong stata bằng lệnh dfuller

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Xử lý lỗi hiển thị dấu chấm . mà không hiển trị giá trị Wald chi2()= . Prob > chi2 = . khi phân tích Stata

Hiện tượng lỗi hiển thị dấu chấm . mà không hiển trị giá trị  Wald chi2()= .  Prob > chi2 = .  khi phân tích Stata

Khi phân tích Stata, như chạy hồi quy random effect, các chỉ số sẽ không hiển thị đầy đủ mà chỉ hiển thị dấu . như hình dưới.

File số liệu các bạn lấy ở đây nhé: phantichstata.com/data/loi-wald-chi2-prob-chi2.dta

Nguyên nhân thì có nhiều, nhưng nhóm đã tìm được cách khắc phục. Chủ yếu là do độ lớn của các biến trong mô hình quá chênh lệch với nhau. Như ta thấy giá trị của biến DR khá cao so với các biến còn lại. Khi Stata tính toán sẽ không có sự cân đối và gây ra lỗi không hiển thị giá trị, mà lại hiển thị dấu chấm.

Cách xử lý Xử lý lỗi hiển thị dấu chấm . mà không hiển trị giá trị  Wald chi2()= .  Prob > chi2 = .  khi phân tích Stata

Mục tiêu là làm cho độ lớn các biến không chênh lệch quá xa, ví dụ biến DR này đơn vị đo bằng đồng, mình sẽ chuyển qua đơn vị đo bằng tỷ bằng cách chia cho 1 tỷ như sau:

replace DR=DR/10^9

Sau đó thực hiện chạy hồi quy lại để thử xem kết quả có đổi không

Như vậy giá trị Wald chi2()= .  Prob > chi2 = .   đã được thay đổi, hiện thị có số rõ ràng hơn. Và đồng thời hệ số hồi quy của biến DR là -.010288 cũng tăng đáng kể, tương đồng với các hệ số hồi quy khác hơn.Và lỗi hiển thị dấu chấm . mà không hiển trị giá trị  Wald chi2()= .  Prob > chi2 = .  khi phân tích Stata đã được khắc phục

SMS, Zalo, Viber:

phone number

– Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

 

 

Dữ liệu bảng bị lỗi unbalanced panel khi dùng lệnh xtset

Khi cài đặt dữ liệu bảng thì các bạn cần sử dụng lệnh

xtset MÃ CÔNG TY, TÊN BIẾN THỜI GIAN

Tuy nhiên trong một số trường hợp sau khi chạy lệnh xong sẽ có kết quả là bảng không cân bằng như sau:

. xtset MaCongTy YEAR
       panel variable:  MaCongTy (unbalanced)
        time variable:  YEAR, 2015 to 2018, but with a gap
                delta:  1 unit

Trường hợp số liệu đầy đủ tốt thì sẽ ra kết quả bảng cân bằng như sau:

. xtset MaCongTy YEAR
       panel variable:  MaCongTy (strongly balanced)
        time variable:  YEAR, 2015 to 2018
                delta:  1 unit

Vậy unbalanced panel có ảnh hưởng xấu đến kết quả không, có phải là lỗi không? Và nguyên nhân do đâu.

Đầu tiên, kết quả này không phải là lỗi, nó chỉ là báo cho mình biết bảng không cân bằng. Vậy thế nào là cân bằng?

Giả sử có 10 công ty trong thời gian 4 năm. như vậy sẽ có 40 dòng số liệu, nhưng giả sử vì lý do gì đó mà có một công ty chỉ có số liệu 3 năm. Như vậy dữ liệu chỉ còn 39 dòng. Lúc đó số liệu sẽ không cân bằng unbalanced panel.

Ví dụ bảng cân bằng balanced panel

Ví dụ dữ liệu bảng không cân bằng( công ty có mã VNM không có dữ liệu năm 2017)

Như vậy dữ liệu bảng câu bằng khi có đầy đủ số liệu qua các thời đoạn.

Cách xử lý Dữ liệu bảng bị lỗi unbalanced panel khi dùng lệnh xtset

Các bạn cố gắng tìm đủ dữ liệu cho các công ty, không bị sót thời điểm nào cả, như vậy sẽ hết bị hiện tượng unbalanced panel. Còn nếu cố gắng mà vẫn tìm không được thì vẫn không sao nhé, vì bản chất là bị thiếu số liệu thôi chứ không phải lỗi mô hình.

– SMS, Zalo, Viber:

phone number

– Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Cách xuất copy kết quả stata ra word đẹp, không bị mất format

Khi chạy chương trình stata, kết quả hiện thị bên Stata rất đẹp như sau:

Tuy nhiên trong luận văn thì ta cần lấy kết quả stata ra word, nếu ta chọn và copy dán vào word để trình bài trong luận văn như trong hình.

Thì kết quả sẽ không ngay ngắn như sau:

Lý do là font chữ cần chỉnh lại cho đúng chuẩn

Cách làm format kết quả stata bên word như sau:

Đầu tiên bạn chọn hết kết quả bên word, sau đó chọn font là Courier New, chọn kích cỡ font là 8

Như vậy kết quả word đả ngay hàng thẳng lối để có thể trình bài trong luận văn. Các bạn khi thực hiện thao tác Stata ra word gặp bất kì lỗi gì cứ báo nhóm để xem nhóm hỗ trợ được sẽ hỗ trợ hết mình nhé (ngoài ra còn các lỗi khác cũng có thể trao đổi được chứ không phải lỗi stata ra word này thôi)

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Đa cộng tuyến trong Stata: các dùng lệnh vif để phát hiện đa cộng tuyến

Nhóm MBA Hỗ Trợ Stata giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy ols stata, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Ví dụ minh họa đa cộng tuyến

File ví dụ để chạy hồi quy đa cộng tuyến Stata bạn có thể tải ở đây: phantichstata.com/data/hausman.dta

Sau khi tải về, tiến hành chạy hồi quy OLS bằng lệnh reg ROA ROE DA STD được kết quả như sau:

Kết quả hồi quy OLS với biến phụ thuộc là ROA, biến độc lập là ROE DA STD

Sau đó ta tiến hành dùng lệnh vif để kiểm tra đa cộng tuyến như sau:

Đánh giá kết quả đa cộng tuyến vif

Ta thấy giá trị VIF lần lượt là 3.85  3.6  1.77 , thường thì nếu vif <2 thì mình sẽ kết luận là không có hiện tượng đa cộng tuyến giữa các biến độc lập. Tuy nhiên thực tế, nếu vif <10 thì ta vẫn có thể chấp nhận được, kết luận là không có hiện tượng đa cộng tuyến. Trên đây là phần ví dụ đa cộng tuyến stata, còn sau đây là các phần lý thuyết liên quan và các khắc phục đa cộng tuyến stata

Định nghĩa đa cộng tuyến là gì?

Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến trong stata

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1 Dựa vào hệ số vif

khi thực hiện hồi quy OLS, ta gõ lệnh vif dể đánh giá: đây là cách đã làm trong ví dụ ở trên.
Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Cách 2 dựa vào hệ số tương quan

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến stata

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

  1. Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
  2. Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn đag cộng tuyến multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
  3. Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.

Nhóm MBA Bách Khoa Hỗ Trợ Stata đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Cách chạy kiểm định Hausman để lựa chọn giữa mô hình tác động cố định FE và mô hình tác động ngẫu nhiên RE

Trong dữ liệu bảng Stata, có ba mô hình thường gặp là OLS, mô hình cố định Fixed effect, mô hình ngẫu nhiên Random effect. Khi thực hiện chạy mô hình chúng ta cần tìm ra mô hình phù hợp nhất trong ba mô hình trên. Trong đó kiểm định hausman để lựa chọn giữa mô hình tác động cố định FE và mô hình tác động ngẫu nhiên RE. Bài này nhóm Thạc Sĩ QTKD ĐH Bách Khoa sẽ trình bài chi tiết cách kiểm định hausman để các bạn có thể lựa chọn được mô hình Fix hoặc Random nhé.

File ví dụ để chạy hausman bạn có thể tải ở đây: phantichstata.com/data/hausman.dta

Sau khi tải về, các bạn bật lên, và chạy các lệnh sau

xtreg   ROA DA STD  , fe
estimates store fixed
xtreg   ROA DA STD  , re
estimates store random
hausman fixed random

Kết quả được giải thích chi tiết như sau:

xtreg   ROA DA STD  , fe  CHẠY HỒI QUY FIXED EFFECT
estimates store fixed        LƯU TRỮ KẾT QUẢ VÀO BIẾN CÓ TÊN LÀ fixed
xtreg   ROA DA STD  , re CHẠY HỒI QUY RANDOM EFFECT
estimates store random    LƯU TRỮ KẾT QUẢ VÀO BIẾN CÓ TÊN LÀ random
hausman fixed random     CHẠY HAUSMAN ĐỂ LỰA CHỌN MÔ HÌNH TỐT HƠN TRONG HAI MÔ HÌNH FE VÀ RE

Kết quả hausman như sau:

Giá trị Prob>chi2 là giá trị ta cần nhìn vào đánh giá. Đó chính là giá trị p value của kiểm định hausman. Cụ thể giá trị p=0.329 >5% nên dựa vào quy tắc bên dưới, ta chọn mô hình ngẫu nhiên.

P-value(Hausman) > 0.05 chấp nhận giả thiết Ho. Mô hình được chọn là mô hình tác động ngẫu nhiên REM
P-value(Hausman) < 0.05 bác bỏ giả thiết Ho. Mô hình được chọn là mô hình tác động cố định FEM

Như vậy, Cách chạy kiểm định Hausman để lựa chọn giữa mô hình tác động cố định FE và mô hình tác động ngẫu nhiên RE đã được giới thiệu trong bài này. Các bạn khi làm có thắc mắc hoặc chạy bị lỗi cứ liên hệ nhóm để xem hỗ trợ được phần nào trong bài của bạn không nhé.

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Hệ số p value trong kiểm định thống kê với stata là gì?

Hôm nay nhóm MBA Bách Khoa giới thiệu một hệ số cực kì quan trọng trong kiểm định thống kê, đó là hệ số p value, thường dùng để đánh giá giả thiết. Trong một số phần mềm khác như SPSS thì đây là hệ số sig.


Nghĩa là hệ số sig. và hệ số p value chỉ là hai cách gọi khác nhau thôi nhé.

  • p-value là viết tắt của probability value.
  • sig. là viết tắt của significance level.

Thường trong các kiểm định thì người ta muốn p-value <5% để các kiểm định có ý nghĩa thống kê. Vậy bài này sẽ đi vào chi tiết các vấn đề này nhé.
Bài này sẽ đi vào các phần chính sau đây:
-Quy trình kiểm định giả thiết thống kê test of significance.
-Ý nghĩa của trị số p value, ý nghĩa hệ số sig.
-Giả thiết là gì?
-Giả thiết vô hiệu, giả thuyết không(H0)) là gì?
-Giả thuyết khác, giả thiết đảo (Ha) là gì?
-Sai lầm loại I và loại II
-Ví dụ về sai lầm loại 1 và 2
-Mức ý nghĩa là gì?

Quy trình kiểm định giả thiết thống kê test of significance

Bước 1: Phát biểu giả thiết vô hiệu( null hypothesis H0). Nhà nghiên cứu cần phải định nghĩa một giả thuyết đảo (null hypothesis), tức là một giả thuyết ngược lại với những gì mà nhà nghiên cứu tin là sự thật.
Bước 2: Nhà nghiên cứu cần phải định nghĩa một giả thuyết phụ (alternative hypothesis), tức là một giả thuyết mà nhà nghiên cứu nghĩ là sự thật, và điều cần được “chứng minh” bằng số liệu.
Bước 3: sau khi đã thu thập đầy đủ những dữ kiện liên quan, nhà nghiên cứu dùng một hay nhiều phương pháp thống kê để kiểm tra xem trong hai giả thuyết trên, giả thuyết nào được xem là khả dĩ. Cách kiểm tra này được tiến hành để trả lời câu hỏi: nếu giả thuyết đảo đúng, thì xác suất mà những dữ kiện thu thập được phù hợp với giả thuyết đảo là bao nhiêu. Giá trị của xác suất này thường được đề cập đến trong các báo cáo khoa học bằng kí hiệu “P value”. Điều cần chú ý ở đây là nhà nghiên cứu không thử nghiệm giả thuyết khác, mà chỉ thử nghiệm giả thuyết đảo mà thôi.
Bước 4: quyết định chấp nhận hay loại bỏ giả thuyết đảo, bằng cách dựa vào giá trị xác suất trong bước thứ ba. Chẳng hạn như theo truyền thống lựa chọn nếu giá trị xác suất nhỏ hơn 5% thì nhà nghiên cứu sẵn sàng bác bỏ giả thuyết đảo. Tuy nhiên, nếu giá trị xác suất cao hơn 5%, thì nhà nghiên cứu chỉ có thể phát biểu rằng chưa có bằng chứng đầy đủ để bác bỏ giả thuyết đảo, và điều này không có nghĩa rằng giả thuyết đảo là đúng, là sự thật. Nói một cách khác, thiếu bằng chứng không có nghĩa là không có bằng chứng.
Bước 5: nếu giả thuyết đảo bị bác bỏ, thì nhà nghiên cứu mặc nhiên thừa nhận giả thuyết phụ.
Theo một qui ước khoa học, tất cả các trị số P thấp hơn 0.05 (tức thấp hơn 5%) được xem là “significant”, tức là “có ý nghĩa thống kê”.

Ý nghĩa của trị số p value,ý nghĩa hệ số sig.

Ý nghĩa của p-value, sig là xác suất của dữ liệu xảy ra nếu giả thiết vô hiệu H0 là đúng. Nghĩa là có bao nhiêu phần trăm của dữ liệu thỏa mãn trị số P. Giả sử P =2%, thì có 2% dữ liệu trong bộ số liệu thỏa mãn điều kiện nào đó.
Lưu ý không được hiểu là : xác suất của giả thiết vô hiệu H0 là 2%, hay P(H0)=2% , mà phải hiểu ở đây là xác suất của dữ liệu xảy ra
Logic của trị số P là chứng minh nghịch đảo, chứng minh phủ định:
-Nếu giả thiết vô hiệu H0 là đúng thì dữ liệu không thể xảy ra.
-Dữ liệu xảy ra
-Nên giả thiết vô hiệu H0 là không đúng.

Vậy giả thiết là gì?

Giả thuyết là một giả sử hay phát biểu về các tham số của tổng thể. Nó có thể đúng hoặc sai

Giả thiết vô hiệu (giả thuyết không (H0)) là gì?

H0 là một phát biểu (đẳng thức hoặc bất đẳng thức) liên quan đến tham số của tổng thể. Giả thiết vô hiệu là giả thiết ngược với giả thiết chính. Thường người ta muốn bác bỏ giả thiết vô hiệu.
Ví dụ: H0: Không có sự khác biệt giữa hai nhóm, không có mối tương quan giữa X và Y.
H0 thường được giả định đúng trong thủ tục kiểm định giả thuyết. Và người ta sẽ cố tìm cách để chứng minh H0 sai. Ví dụ một tuyên bố của nhà sản xuất thường bị nghi ngờ và để trong phát biểu trong H0.

Giả thuyết khác, giả thiết đảo(Ha) là gì?

Ha là phát biểu ngược với H0
Ha được kết luận là đúng nếu H0 bị bác bỏ
Nhà nghiên cứu mong muốn ủng hộ Ha và nghi ngờ H0
Nhiệm vụ của tất cả kiểm định giả thuyết hoặc là bác bỏ H0 hay không bác bỏ H0

Sai Lầm Loại I và Loại II

-Sai lầm loại I là sai lầm của việc bác bỏ H0 khi nó đúng
-Sai lầm loại II là sai lầm của việc không bác bỏ H0 khi nó sai
-Cụ thể đối với bất kỳ một thủ tục kiểm định nào, có thể xảy ra ba kết quả sau: (1) quyết định đúng được thực hiện (nghĩa là, thủ tục chấp nhận giả thuyết đúng và bác bỏ giả thuyết sai), (2) một giả thuyết đúng bị bác bỏ, (3) một giả thuyết sai được chấp nhận. Sai lầm bác bỏ H0 khi nó đúng được gọi là sai lầm loại I. Sai lầm không bác bỏ H0 khi nó sai được gọi là sai lầm loại II. Tương ứng với mỗi loại sai lầm này là một giá trị xác suất. Chúng được gọi là các xác suất sai lầm loại I và loại II và được ký hiệu là P(I) và P(II).

Ví dụ về sai lầm loại 1 và 2

Xem xét một bị cáo trong phiên xử hình sự. Giả thuyết không là bị cáo “vô tội” và giả thuyết ngược lại và bị cáo “có tội”. Giả định là bên bị đơn là vô tội và bên nguyên đơn phải chứng minh được rằng bên bị đơn là có tội, nghĩa là, thuyết phục ban bồi thẩm bác bỏ giả thuyết không. Nếu ban bồi thẩm tuyên bố một người vô tội “không có tội” hoặc một người phạm tội “có tội”, một quyết định đúng đã được thực hiện. Nếu một người vô tội bị tuyên bố có tội, ta phạm phải sai lầm loại I vì giả thuyết đúng đã bị bác bỏ. Sai lầm loại II xảy ra khi một người có tội được tuyên bố trắng án.

Một cách lý tưởng, chúng ta muốn giữ cho cả xác suất sai lầm loại I  P(I) và loại II P(II) càng nhỏ càng tốt bất chấp giá trị của thông số không biết có giá trị là bao nhiêu. Rủi thay, nỗ lực giảm P(I) sẽ tự động kéo theo sự gia tăng trị P(II). Chẳng hạn, trong ví dụ về phiên tòa hình sự, giả sử chúng ta không muốn một người phạm tội nào được tuyên bố trắng án. Các duy nhất để thực hiện được điều này là tuyên bố mọi người có tội. Trong trường hợp này, P(II) = 0, nhưng P(I) = 1 vì chúng ta cũng kết án tất cả những người vô tội.
Tương tự như trên, cách duy nhất để tránh kết án một người vô tội là tuyên bố mọi người vô tội. Trong trường hợp này, chúng ta cũng thả tự do cho tất cả những kẻ phạm tội hay P(II) = 1 và P(I) = 0. 1 Trong thực tế, sự đánh đổi giữa các sai lầm không đến nỗi cực đoan như vậy, tuy nhiên một quy tắc ra quyết định cụ thể sẽ tốt hơn cho một số giá trị của thông số và không tốt cho những giá trị khác.
Thủ tục kiểm định giả thuyết cổ điển là chọn giá trị cực đại cho sai lầm loại I chấp nhận được với người phân tích và sau đó đưa ra quy tắc quyết định sao cho sai lầm loại II là thấp nhất. Trong ví dụ về phiên tòa hình sự, điều này có nghĩa là chọn quy tắc ra quyết định sao cho số lần người vô tội bị kết tội không vượt qua một số phần trăm số lần nào đó (chẳng hạn, 1%) và cực tiểu xác suất người có tội được thả tự do.

Mức ý nghĩa là gì?

Xác suất sai lầm loại I lớn nhất khi H0 đúng được gọi là mức ý nghĩa (còn được gọi là kích thước của kiểm định). Trong ví dụ phiên tòa hình sự, đó chính là xác suất lớn nhất của việc kết án một người vô tội.

Liên hệ nhóm thạc sĩ Hỗ trợ Stata

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

 

Cách tạo biến giả dummy variable trong stata

Khái niệm đơn giản nhất về biến giả:

Biến giả là biến nhận một trong hai giá trị 0 hoặc 1. Thường các biến giả được tạo ra từ một biến thật. Ví dụ biến thật ở đây là biến học vấn HOCVAN với 4 biểu hiện là 1 2 3 4 ứng với các cấp học là: cấp 1, cấp 2, cấp 3, và trên cấp 3.

Như vậy làm cách nào để tạo 4 biến giả tương ứng?

Trong Stata ta dùng lệnh sau

tab HOCVAN , gen (HOCVANdummy)

Lúc đó 4 biến sau được sinh ra: HOCVANdummy1 HOCVANdummy2 HOCVANdummy3 HOCVANdummy4

Lưu ý giá trị của các biến giả dummy này chỉ gồm 0 và 1. Ví dụ giá trị HOCVANdummy2 bằng 0 ứng với là người này không phải trình độ cấp 2, mà có thể cao hơn hoặc thấp hơn. Còn nếu giá trị này bằng 1 thì người này có học vấn cấp 2 thôi. Như vậy xét trong cùng 1 dòng, trong các biến giả chắc chắn có 1 biến có giá trị 1. Còn các biến còn lại giá trị 0.

Tuy nhiên có một quy tắc là số biến giả phải bằng số phạm trù của biến trừ đi 1, ta chỉ cần đưa đưa ra ba biến giả để giải quyết bốn cấp của trình độ học vấn. Tất cả có 4 biến giả, khi đã biết giá trị của 3 biến thì chắc chắn biết giá trị của biến còn lại. Nên khi đưa các biến giả này vào hồi quy làm biến độc lập thì chỉ cần đưa 3 biến thôi nhé.

Biến nội sinh, ngoại sinh : định nghĩa, ví dụ

Giới thiệu về biến nội sinh, ngoại sinh:

Khi chạy các mô hình kinh tế, nhất là các mô hình GMM thì việc quan trọng là phải xác định biến nào là biến nội sinh, ngoại sinh để đưa vào cho phù hợp. Bài này sẽ hướng dẫn các bạn nhé.

Định nghĩa

Trong mô hình kinh tế, một biến được gọi là biến nội sinh nếu nó chịu tác động của các biến khác trong mô hình, và biến được gọi là ngoại sinh (exogenous variable) nếu nó không chịu tác động của các biến khác trong mô hình.

Như vậy, biến phụ thuộc dĩ nhiên là biến nội sinh. Do nó chịu tác động của các biến độc lập.

Còn biến độc lập thì sao? Nó là biến nội sinh hay ngoại sinh thì còn tùy vào tình huống nghiên cứu. Sau đây là một ví dụ:
Chẳng hạn xét mối quan hệ giữa sản lượng lúa SANLUONG của một tỉnh và mức giá lúa MUCGIA cũng như lượng mưa LUONGMUA tại vùng đó. Khi đó có thể biểu diễn mối quan hệ này bởi mô hình:

SANLUONG = f(MUCGIA, LUONGMUA).


Trong mô hình này, biến SANLUONG là biến nội sinh do nó chịu tác động của biến MUCGIA, LUONGMUA.
Trong các biến ở vế phải của mô hình, lượng mưa LUONGMUA là biến ngoại sinh (exogenous) – do nó không chịu tác động của các biến khác trong mô hình( dĩ nhiên rồi, vì mưa do trời mà…)
Với biến MUCGIA thì phức tạp hơn một chút, thể hiện trong 2 tình huống sau đây:

  1. Tình huống 1: Tỉnh này chỉ chiếm một thị phần không đáng kể trên thị trường lúa gạo. Khi đó việc gia tăng sản lượng SANLUONG của nó sẽ không làm ảnh hưởng đến mức giá MUCGIA, và do đó biến MUCGIA được xem là biến ngoại sinh.
  2. Tình huống 2: Tỉnh này chiếm thị phần lớn trên thị trường lúa gạo thì việc gia tăng SANLUONG sẽ có tác động đến MUCGIA, khi đó MUCGIA sẽ là biến nội sinh.

Như vậy, một biến có thể là nội sinh trong mô hình này nhưng lại là ngoại sinh trong mô hình khác, tùy thuộc vào điều kiện và phạm vi xem xét của mô hình. Khi xây dựng các mô hình kinh tế thì việc xác định biến nội sinh và ngoại sinh là khá quan trọng

Tải download miễn phí và cài đặt phần mềm Stata cho Mac OS,Macbook, Macbook Air, Macbook Pro

Nhóm Thạc Sỹ MBA Bách Khoa giới thiệu các bạn cách tải và cài đặt phần mềm Stata 14 miễn phí cho máy Mac, Macbook, Macbook Air, Macbook Pro. Có hình minh họa từng bước.

Bước 1. Tải về phần mềm Stata cho Mac ở đây:  https://phantichstata.com/data/phantichstata.comStataMP14.1.zip

Bước 2. Thực hiện cài đặt:

Nhấn vào file Stata14.dmg để chạy chương trình cài đặt

Màn hình sau xuất hiện, ấn vào Install Stata để tiếp tục

Chọn Continue

Chọn Stata/MP sau đó nhấn Continue

Bấm Install để bắt đầu cài đặt

Sau khi cài đặt xong, trên máy sẽ xuất hiện biểu tượng Stata MP trên Launch pad

Các bạn ấn vào biểu tượng Stata này nhé, sau đó nhập các thông tin như bên dưới:

Name: phantichstata.com
Organization: phantichstata.com
Serial number: 10699393
Code: 4gpp mkha 3yqe 3o9v g1m7 iu6j ou5j
Authorization: tsrk

Sau đó nhấn Next, màn hình sau sẽ xuất hiện và các bạn phải bỏ chọn Register Stata online

Nhấn Finish, màn hình sau sẽ hiện ra. Lúc này đã sử dụng chương trình được, tuy nhiên cần update thêm một số chức năng để Stata hoàn chỉnh hơn. Các bạn gõ lệnh

db update

Cửa sổ sau đã hiện ra, các bạn trỏ đường dẫn đến thư mục stata14update_mac nhé( đây là thư mục nằm trong file zip stata tải về lúc đầu) , sau đó nhấn OK

Như vậy việc cài đặt Stata cho Mac đã xong. Các bạn sử dụng để làm việc nhé

Như vậy nhóm hỗ trợ Stata đã thực hiện xong cài Stata cho Mac, các bạn cần hỗ trợ hướng dẫn chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com