Category Archives: Stata

Cách cài đặt lệnh xtserial để kiểm tra tương quan chuỗi serial correlation

Sau khi chạy hồi quy panel, để kiểm tra tương quan chuỗi serial correlation cần chạy lệnh xtserial , tuy nhiên nếu máy chưa cài lệnh này thì khi chạy sẽ bị báo lỗi như sau:

. xtserial
unrecognized command:  xtserial
r(199);

Lý do là lệnh này Stata không có sẵn, muốn chạy được phải cài thêm xtserial

Do đó ta cần phải thực hiện cài đặt bằng cách sau

Gõ lệnh search xtserial

Lúc này Stata sẽ hiển thị cửa sổ

Sau đó tiếp tục nhấn vào mục st0039 như trong hình. Cửa sổ sau hiện ra

Tiếp tục nhấn vào mục (click here to install)

 

Lúc đó gói này sẽ được cài vào máy như sau
package name:  st0039.pkg
        from:  http://www.stata-journal.com/software/sj3-2/

checking st0039 consistency and verifying not already installed…
installing into c:\ado\plus\…
installation complete.
—————————————————————————
(click here to return to the previous screen)

Và các bạn có thể sử dụng lệnh này để sử dụng rồi nhé

 

Như vậy nhóm đã hướng dẫn Cách cài đặt lệnh xtserial để kiểm tra tương quan chuỗi serial correlation thành công, các bạn có cần hỗ trợ tư vấn hỗ trợ khi làm bài cứ liên hệ nhóm nhé.

Cách cài đặt lệnh xttest3 để kiểm tra phương sai sai số thay đổi của mô hình FE

Sau khi chạy hồi quy FE, nếu máy chưa cài đặt lệnh xttest3 thì khi chạy sẽ bị báo lỗi như sau:

. xttest3
unrecognized command:  xttest3

Lý do là lệnh này Stata không có sẵn, muốn chạy được phải cài thêm xttest3

Do đó ta cần phải thực hiện cài đặt bằng cách sau

Gõ lệnh ssc install xttest3

Lúc này Stata sẽ tự kết nối internet và tải gói cài đặt về nhé. Kết quả như sau
. ssc install xttest3
checking xttest3 consistency and verifying not already installed…
installing into c:\ado\plus\…
installation complete.

Như vậy nhóm đã hướng dẫn cách cài đặt lệnh xttest3 để kiểm tra phương sai sai số thay đổi của mô hình FE đã thành công, các bạn có cần hỗ trợ tư vấn hỗ trợ khi làm bài cứ liên hệ nhóm nhé.

Tải phần mềm Stata 14 miễn phí, chạy không cần cài đặt

Nhóm Thạc Sĩ hướng dẫn  các bạn tải phần mềm Stata 14 phiên bản miễn phí, không cần cài đặt mà vẫn chạy được

Các bạn tải phần mềm Stata miễn phí bảng 14  ở đây http://www.mediafire.com/file/7n5cy8c6iydbcqr/Stata_v14.zip

Sau đó giải nén ra, bấm vào file stata để chạy chương trình ( có hai file chạy là StataMP-64.exe và StataMP.exe ứng với hệ điều hành 64 bít và 32 bít. Nếu bạn không rành tốt nhất cứ chọn file StataMP.exe  để chạy nhé)

Lần đầu chương trình sẽ hiện lên bảng sau, các bạn chọn chỗ Disable automatic update checking. Sau đó nhấn ok.

Như vậy việc tải và cài đặt Stata 14 miễn phí đã hoàn tất, các bạn có thể sử dụng nhé

 

 

Hồi quy tobit, lý thuyết và thực hành, đọc kết quả

Khái niệm hồi quy tobit

Mô hình tobit, cũng được gọi là mô hình hồi quy bị kiểm duyệt (censored regression model), được thiết kế để ước tính mối quan hệ tuyến tính giữa các biến khi biến phụ thuộc có kiểm duyệt bên trái hoặc bên phải.
Việc kiểm duyệt bên phải diễn ra khi các trường hợp biến phụ thuộc có giá trị bằng hoặc cao hơn ngưỡng nào đó, nhưng đều lấy giá trị của ngưỡng đó(cho dù giá trị thực có thể bằng ngưỡng, nhưng nó cũng có thể cao hơn). Trong trường hợp kiểm duyệt từ bên trái, giá trị của biến phụ thuộc cũng được gán bằng giá trị ngưỡng thấp nhất ( cho dù biến phụ thuộc đó có thể có giá trị thấp hơn nữa)

Ví dụ hồi quy tobit

Ví dụ 1: Bạn đi xe máy và, đồng hồ hiển thị tốc độ chỉ số tối đa là 120Km/h. Vì vậy, nếu bạn muốn thử và dự đoán tốc độ tối đa của một chiếc xe từ sự kết hợp giữa sức ngựa và kích thước động cơ, bạn sẽ nhận được số đọc không cao hơn 120, bất kể tốc độ của chiếc xe thực sự di chuyển như thế nào. Đây là một trường hợp cổ kiểm duyệt bên phải (kiểm duyệt từ trên) của dữ liệu. Điều duy nhất chắc chắn là những chiếc xe đó đang đi ít nhất 120 km một giờ( thực tế có thể cao hơn, nhưng vì đồng hồ không hiển thị được)

Ở Hoa Kì, xem xét tình huống trong đó dự đoán điểm năng lực học tập academic aptitude ( với thang điểm từ 200 đến 800). Các biến độc lập là: điểm kiểm tra đọc-viết, điểm kiểm tra toán, cũng như loại chương trình mà sinh viên đăng ký học (academic, general, hoặc nghề ). Vấn đề ở đây là các sinh viên trả lời đúng tất cả các câu hỏi về bài kiểm tra năng lực học thuật nhận được điểm 800, mặc dù có khả năng các sinh viên này không "thực sự" làm bằng năng khiếu( có thể do may rủi, chọn ngẫu nhiên đáp án). Điều này cũng đúng với những sinh viên trả lời tất cả các câu hỏi không chính xác. Tất cả các sinh viên như vậy sẽ có điểm số là 200, mặc dù họ có thể không phải tất cả đều có năng lực dở ngang nhau.

Thực hành mô hình hồi quy tobit

Dữ liệu có thể được lấy ở đây bằng lệnh sau:
use http://phantichstata.com/data/tobit.dta

Ta có 200 mẫu, định nghĩa các biến:
Biến phụ thuộc:
     apt điểm năng lực học tập academic aptitude
Biến độc lập:
     read : điểm reading
     math : điểm toán
     prog : chương trình mà sinh viên theo học, sẽ có 1 trong 3 giá trị academic (prog = 1), general (prog = 2), and vocational (prog = 3)
Nhìn vào dữ liệu, giá trị thấp nhất của biến phụ thuộc apt là 352, không có sinh viên nào có điểm 200( mức điểm thấp nhất). Do đó nếu ta chạy tobit với giới hạn bên dưới, thì cũng không có ý nghĩa vì giới hạn 200 không xảy ra.

summarize apt read math

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         apt |       200     640.035    99.21903        352        800
        read |       200       52.23    10.25294         28         76
        math |       200      52.645    9.368448         33         75

Biến phụ thuộc là apt, biến độc lập là read,math,prog

tobit apt read math i.prog, ul(800)

Tham số ul là upper limit, nghĩa là chặn trên. Còn nếu chặn dưới là ll lower limit. Chữ i trước chữ prog có ý nghĩa là prog là biến phân loại, nghĩa là nó mang giá trị 1 2 3 chỉ là tương ứng với 3 loại hình học hành, chứ không phải học loại này là cao hơn loại kia.

tobit apt read math i.prog, ul(800)

Tobit regression                                  Number of obs   =        200
                                                  LR chi2(4)      =     188.97
                                                  Prob > chi2     =     0.0000
Log likelihood = -1041.0629                       Pseudo R2       =     0.0832

------------------------------------------------------------------------------
         apt |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        read |   2.697939    .618798     4.36   0.000     1.477582    3.918296
        math |   5.914485   .7098063     8.33   0.000     4.514647    7.314323
             |
        prog |
          2  |  -12.71476   12.40629    -1.02   0.307    -37.18173     11.7522
          3  |   -46.1439   13.72401    -3.36   0.001     -73.2096   -19.07821
             |
       _cons |    209.566   32.77154     6.39   0.000     144.9359    274.1961
-------------+----------------------------------------------------------------
      /sigma |   65.67672   3.481272                      58.81116    72.54228
------------------------------------------------------------------------------
  Obs. summary:          0  left-censored observations
                       183     uncensored observations
                        17 right-censored observations at apt>=800

 

 

Phân tích kết quả hồi quy tobit

Trong 200 mẫu, có 173 mẫu không bị chặn, và có 17 mẫu bị chặn trên  với giá trị apt>=800

Chỉ số LR chi2(4): likelihood ratio chi-square 188.97 (df=4) với p-value = 0.0000 nói lên mô hình này phù hợp, có ý nghĩa hơn là mô hình trống( là mô hình mà không có biến độc lập).
Bảng kết quả hồi quy,biến read và math và prog=3 có ý nghĩa thống kê. Các diễn giải hệ số hồi quy tobit tương tự như mô hình hồi quy đa biến

Khi biến read tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 2.7 điểm . Khi biến math tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 5.91 điểm. Chỉ có biến prog có một giải thích hơi khác. Giá trị dự đoán của apt thấp hơn 46,14 điểm đối với sinh viên trong chương trình vocational (prog = 3) so với sinh viên trong chương trình academic (prog = 1).

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy tobit, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Kiểm định tự tương quan, tương quan chuỗi trong Stata

Nhóm Hỗ Trợ Stata giới thiệu về khái niệm tự tương quan, cùng với các kiểm định để xác định xem dữ liệu có bị tự tương quan hay không. Kiểm định này có sự khác biệt khi áp dụng đối với dữ liệu bảng và dữ liệu theo chuỗi thời gian, mỗi loại sẽ có cách kiểm định riêng. Phần này sẽ nói phần thực hành kiểm định tự tương quan trước, sau đó là phần lý thuyết.

Thực hành kiểm định tự tương quan

Kiểm định tự tương quan với dữ liệu chuỗi thời gian

Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết luận có tự tương quan hay không

. dwstat

Durbin-Watson d-statistic(  7,   174) =  2.079461

Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh  durbinalt (kiểm định thay thế Durbin's alternative test for serial correlation) để tính toán trực tiếp ra mức ý nghĩa thống kê của kiểm định Durbin-Watson luôn.

Cú pháp lệnh là:  estat durbinalt 

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định Breusch-Godfrey

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags(2)

Kiểm định tự tương quan với dữ liệu bảng

Dùng kiểm định Wooldridge, với cú pháp  như sau: xtserial y x1, x2…. ( y là biến phụ thuộc, x1,x2… là biến độc lập)

Với giả thiết Ho: Không có tương quan chuỗi(no first-order autocorrelation)

Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

 

Lý thuyết

Bản chất của tự tương quan là gì ?

Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc không gian (như trong dữ liệu chéo). Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.

Tự tương quan và tương quan chuỗi có khác nhau?

Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng là đồng nghĩa.

Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

Các phương pháp kiểm tra hiện tượng tự tương quan

Đối với dữ liệu bảng : kiểm định Wooldridge
Đối với dữ liệu thời gian:kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

 

 

Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata

 MBA Bách Khoa hotrostata@gmail.com trình bài về khái niệm phương sai sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục phương sai sai số thay đổi sử dụng phần mềm Stata.

Định nghĩa phương sai của sai số thay đổi

     Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố  nhiễu ui (hay còn gọi là phần dư residuals) xuất hiện trong hàm hồi quy tổng thể có phương sai không thay đổi (homoscedasticity,  còn gọi là phương sai có điều kiện không đổi); tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự hiện diện của phương sai thay đổi. Phương sai thay đổi (Heteroscedasticity, còn gọi là phương sai của sai số thay đổi) .

     Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không thiên lệch tốt nhất (BLUE). Khi có phương sai thay đổi, các phương sai của các ước lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi trong Stata

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy tuyến tính đa biến OLS

hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi( White’s test)

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

            estat hettest

Cách đọc kết quả: hai cách trên ,nếu p-value <5% thì,chấp nhận giả thiết H1:Phương sai không đồng nhất, nghĩa là phương sai thay đổi (the variance is not homogenous) ( dĩ nhiên là không tốt, giá trị mong đợi là p.value >5%, lúc đó phương sai đồng nhất, phương sai không đổi).

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy dữ liệu bảng sử dụng fix và random effect

     Phương sai sai số thay đổi heteroskedasticity của mô hình REM: (sử dụng kiểm định LM – Breusch and pagan Lagrangian Multiplier ). Dùng lệnh xttest0, nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

     Phương sai sai số thay đổi heteroskedasticity của mô hình FEM( dùng kiểm định wald): Dùng lệnh xttest3 (lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh ssc install xttest3) . Nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

Cách khắc phục phương sai thay đổi trong Stata

Sử dụng mô hình sai số chuẩn mạnh để khắc phục phương sai sai số thay đổi, cụ thể xem ở đây nhé: http://phantichstata.com/mo-hinh-sai-chuan-manh-robust-standard-errors-la-gi-su-dung-ra-sao.html

Như vậy nhóm MBA Bách Khoa đã giới thiệu về Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata. Các bạn cần hỗ trợ về việc chạy mô hình, hoặc xử lý số liệu lại cho tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo 

-Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Hướng dẫn phân tích logistic regression – hồi quy nhị phân trong Stata

     Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

  •     Điểm cuối kì GRE
  •     Điểm trung bình GPA
  •     Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

  •     Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use http://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

summarize gre gpa

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         gre |       400       587.7    115.5165        220        800
         gpa |       400      3.3899    .3805668       2.26          4

tab rank 

       rank |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         61       15.25       15.25
          2 |        151       37.75       53.00
          3 |        121       30.25       83.25
          4 |         67       16.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit

      admit |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        273       68.25       68.25
          1 |        127       31.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit rank

           |                    rank
     admit |         1          2          3          4 |     Total
-----------+--------------------------------------------+----------
         0 |        28         97         93         55 |       273 
         1 |        33         54         28         12 |       127 
-----------+--------------------------------------------+----------
     Total |        61        151        121         67 |       400

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank 

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

     Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:

logit admit gre gpa i.rank 

Iteration 0:   log likelihood = -249.98826  
Iteration 1:   log likelihood = -229.66446  
Iteration 2:   log likelihood = -229.25955  
Iteration 3:   log likelihood = -229.25875  
Iteration 4:   log likelihood = -229.25875  

Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   .0022644    .001094     2.07   0.038     .0001202    .0044086
         gpa |   .8040377   .3318193     2.42   0.015     .1536838    1.454392
             |
        rank |
          2  |  -.6754429   .3164897    -2.13   0.033    -1.295751   -.0551346
          3  |  -1.340204   .3453064    -3.88   0.000    -2.016992   -.6634158
          4  |  -1.551464   .4178316    -3.71   0.000    -2.370399   -.7325287
             |
       _cons |  -3.989979   1.139951    -3.50   0.000    -6.224242   -1.755717
------------------------------------------------------------------------------
Giải thích ý nghĩa kết quả

  Number of obs = 400 : có 400 quan sát

 Trong bảng kết quả có  hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và  95% confidence interval of the coefficients. Cả hai biến GRE và GPA  đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

     – Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

     – Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

     – Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

    Muốn kiểm tra tác động chung của biến RANK, dùng  lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank

 ( 1)  [admit]2.rank - [admit]3.rank = 0

           chi2(  1) =    5.51
         Prob > chi2 =    0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:

logit , or
Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   1.002267   .0010965     2.07   0.038      1.00012    1.004418
         gpa |   2.234545   .7414652     2.42   0.015     1.166122    4.281877
             |
        rank |
          2  |   .5089309   .1610714    -2.13   0.033     .2736922    .9463578
          3  |   .2617923   .0903986    -3.88   0.000     .1330551    .5150889
          4  |   .2119375   .0885542    -3.71   0.000     .0934435    .4806919
------------------------------------------------------------------------------

Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu  Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

 . estat classification

Logistic model for admit

              ——– True ——–
Classified |         D            ~D  |      Total
———–+————————–+———–
        +     |        30            19  |         49
         –     |        97           254 |        351
———–+————————–+———–
   Total     |       127           273 |        400

Classified + if predicted Pr(D) >= .5
True D defined as admit != 0
————————————————–
Sensitivity                     Pr( +| D)   23.62%
Specificity                     Pr( -|~D)   93.04%

Positive predictive value       Pr( D| +)   61.22%
Negative predictive value       Pr(~D| -)   72.36%
————————————————–
False + rate for true ~D        Pr( +|~D)    6.96%
False – rate for true D         Pr( -| D)   76.38%
False + rate for classified +   Pr(~D| +)   38.78%
False – rate for classified –   Pr( D| -)   27.64%
————————————————–
Correctly classified                        71.00%
————————————————–

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là (254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.

Kết luận

Như các bạn thấy, việc phân tích hồi quy nhị phân khá phức tạp so với hồi quy đa biến tuyến tính. Nhất là việc hiểu các chỉ số hệ số hồi quy, odds ratio, log odd… Các bạn cần hỗ trợ đào tạo, hướng dẫn kiến thức phân tích, hoặc khi chạy ra số liệu không đạt chuẩn, không có ý nghĩa thống kê, cần  hỗ trợ xử lý lại số liệu cứ liên hệ nhóm MBA Đại Học Bách Khoa nhé  http://phantichstata.com/lien-he-gioi-thieu

-Viber/zalo 

-Facebook  facebook.com/hotroStata

-Email  hotrostata@gmail.com

Mô hình sai số chuẩn mạnh (Robust Standard errors) là gì, sử dụng ra sao

Vấn đề

Khi chạy mô hình gặp hiện tượng phương sai sai số thay đổi, chúng ta cần dùng phương pháp này để cải thiện mô hình cho tốt hơn.

Định nghĩa

Mô hình sai số chuẩn mạnh (Robust Standard errors) , hay còn gọi là Ước lượng sai số chuẩn vững
Nhắc lại rằng khi mô hình có hiện tượng phương sai sai số thay đổi, các ước lượng OLS cho các hệ số vẫn là ước lượng không chệch, chỉ có phương sai của các hệ số ước lượng và hiệp phương sai giữa các hệ số ước lượng thu được bằng phương pháp OLS là chệch. Từ đó White (1980) đề xuất phương pháp  sai số chuẩn vững  (robust standard error) với tư tưởng như sau: vẫn sử dụng các hệ số ước lượng từ phương pháp OLS, tuy nhiên phương sai các hệ số ước lượng thì được tính toán lại mà không sử dụng đến giả thiết phương sai sai số không đổi.  Ước lượng mô hình sai số chuẩn mạnh sẽ cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện diện của hiện tượng phương sai thay đổi (heteroskedasticity).
Cách thực hiện trong Stata

– Giả sử có 1 biến phụ thuộc và 3 biến độc lập, ta chạy hồi quy FE thường cú pháp như sau

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,fe

– Hồi quy với theo phương trình mô hình sai số chuẩn mạnh (Robust Standard errors): thêm chữ robust vào câu lệnh hồi quy.
xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,robust fe

 

Dữ liệu bảng Panel Data là gì

Định nghĩa dữ liệu bảng panel data

 

Nhóm Hỗ Trợ Stata giúp các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Chuỗi thời gian ở đây là 4 năm 2014 2015 2016 2017. Dữ liệu chéo ở đây là tên 3 quốc gia : VietNam ThaiLand Malaysia. Như vậy bảng này có 3×4=12 dòng quan sát. Đây là định nghĩa đơn giản ngắn gọn dễ hiểu nhất về dữ liệu bảng panel data. ( lưu ý số liệu GDP, Population chỉ là minh họa cho dữ liệu bảng, chưa chính xác). Nói ngắn gọn, dữ liệu bảng có qui mô về thời gian lẫn không gian.

Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc (longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng), phân tích lịch sử sự kiện (thí dụ, nghiên cứu sự thay đổi theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được tiếp diễn theo thời gian), phân tích theo tổ (cohort analysis). Mặc dù có những sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là các mô hình hồi quy dữ liệu bảng.

 Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian
  1. Bởi vì dữ liệu bảng liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và quốc gia.
  2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.”
  3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng.
  4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang.
  5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian.
 6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
  Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

Cách xử lý dữ liệu bảng

Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM) hay mô hình các thành phần sai số (ECM).

 Trong FEM, tung độ gốc trong mô hình hồi quy được phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả bình phương nhỏ nhất (Least Square Dummy Variables  – LSDV). FEM thích hợp trong những tình huống mà tung độ gốc chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả (nhưng kìm hãm số hạng tung độ gốc chung).
  Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.
Lựa chọn mô hình

Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0: fixed effects =0 ), sau đó mới dùng kiểm định Hausman so sánh  để chọn FEM và REM. 

Trên đây đã giới thiệu căn bản về data panel  các bạn cần hỗ trợ giải đáp thắc mắc cứ liên hệ nhóm tại đây nhé. http://phantichstata.com/lien-he-gioi-thieu

File hướng dẫn chương trình kinh tế FullBright: MPP03-521-R22V-2012-02-10-10300799.pdf

 

Stata – Hướng dẫn thực hành cách phân tích hồi quy tuyến tính đa biến

Nhóm MBA Đại Học Bách Khoa Hỗ Trợ Stata hotrostata@gmail.com giới thiệu cách thực hiện phân tích hồi quy tuyến tính đa biến bằng phần mềm Stata, cùng cách đọc và phân tích ý nghĩa của kết quả hiển thị, đồng thời kiểm định luôn xem các biến có bị đa cộng tuyến hay không.

Đầu tiên các bạn vào menu Statistics > Linear models and related > Linear regression

Sau đó đưa biến phụ thuộc vào ô Dependent Variable, biến độc lập vào ô Independent Variables ( các biến độc lập cách nhau bởi khoảng trắng, lưu ý chỉ có 1 biến phụ thuộc thôi nhé)

Nhấn tiếp vào tab Reporting, tick vào ô Standardized beta coefficients để hiển thị hệ số hồi quy chuẩn hóa trong phần kết quả hồi quy.

Sau đó nhấn OK, lúc đó kết quả hồi quy sẽ thể hiện như sau:

 

 

Giải thích ý nghĩa:

 Number of obs =     222  Số quan sát là 222 mẫu
 F(  6,   215) =   72.12 Giá trị kiểm định F 6 nhân tố và 215 bậc tự do
 Prob > F      =  0.0000 Mức ý nghĩa của kiểm định F, ở đây bé hơn 5% chứng tỏ R bình phương của tổng thể khác 0. Nói cách khác là các hệ số hồi quy của phương trình hồi quy tổng thể không đồng thời bằng 0
 R-squared     =  0.6681 R bình phương
 Adj R-squared =  0.6588 R bình phương hiệu chỉnh, nghĩa là các biến độc lập giải thích được 65.88% biến thiên của biến phụ thuộc( chuẩn là R2>50%)
 Root MSE      =  .43288

Coef.   : cột này là giá trị hệ số hồi quy chưa chuẩn hóa

Std. Err.   Sai số chuẩn

P>|t|  p-value, nếu giá trị này bé hơn 5%( 0.05) thì mối quan hệ giữa biến độc lập này và biến phụ thuộc có ý nghĩa thống kê.

Beta: là hệ số hồi quy đã chuẩn hóa.

Từ đây có thể viết phương trình hồi quy như sau:

HAILONG = -0.9573228 + 0.1577172 * TINCAY + 0.1859064 * DAPUNG + 0.2044715 * DAMBAO + 0.3033652 *CAMTHONG + 0.2165845 * HUUHINH + 0.2225405 *MINHBACH

Giải thích ý nghĩa hệ số hồi quy. Khi các điều kiện khác không đổi, khi biến TINCAY tăng 1 đơn vị thì biến HAILONG tăng 0.1577172 đơn vị. Tương tự giải thích cho các biến khác

Tiếp đến ta kiểm tra hiện tượng đa cộng tuyến bằng các vào menu Statistics > Linear models and related >Regression diagnostics > Specification tests, etc.

 

Tiếp đó chọn Variance Inflaction Factors for the independent variables (vif), sau đó nhấn OK

Kết quả cho thấy hệ số VIF đều bé hơn 2 nên kết luận không có hiện tượng đa cộng tuyến trong mô hình này.

Sau đây là video thực hành phân tích hồi quy tuyến tính đa biến sử dụng phần mềm Stata

Trên đây là Hướng dẫn thực hành cách phân tích hồi quy đa biến bằng phần mềm Stata

Các bạn khi chạy có vấn đề gì khó khăn cứ liên hệ nhóm hỗ trợ nhé.