Category Archives: Stata

Tải download miễn phí và cài đặt phần mềm Stata cho Mac OS,Macbook, Macbook Air, Macbook Pro

Nhóm Thạc Sỹ MBA Bách Khoa giới thiệu các bạn cách tải và cài đặt phần mềm Stata 14 miễn phí cho máy Mac, Macbook, Macbook Air, Macbook Pro. Có hình minh họa từng bước.

Bước 1. Tải về phần mềm Stata cho Mac ở đây:  phantichstata.com_Stata_MP_14.1.zip

Bước 2. Giải nén với password là : phantichstata.com

Bước 3. Thực hiện cài đặt:

Nhấn vào file Stata14.dmg để chạy chương trình cài đặt

Màn hình sau xuất hiện, ấn vào Install Stata để tiếp tục

Chọn Continue

Chọn Stata/MP sau đó nhấn Continue

Bấm Install để bắt đầu cài đặt

Sau khi cài đặt xong, trên máy sẽ xuất hiện biểu tượng Stata MP trên Launch pad

Các bạn ấn vào biểu tượng Stata này nhé, sau đó nhập các thông tin như bên dưới:

Name: phantichstata.com
Organization: phantichstata.com
Serial number: 10699393
Code: 4gpp mkha 3yqe 3o9v g1m7 iu6j ou5j
Authorization: tsrk

Sau đó nhấn Next, màn hình sau sẽ xuất hiện và các bạn phải bỏ chọn Register Stata online

Nhấn Finish, màn hình sau sẽ hiện ra. Lúc này đã sử dụng chương trình được, tuy nhiên cần update thêm một số chức năng để Stata hoàn chỉnh hơn. Các bạn gõ lệnh

db update

Cửa sổ sau đã hiện ra, các bạn trỏ đường dẫn đến thư mục stata14update_mac nhé( đây là thư mục nằm trong file zip stata tải về lúc đầu) , sau đó nhấn OK

Như vậy việc cài đặt Stata cho Mac đã xong. Các bạn sử dụng để làm việc nhé

Như vậy nhóm hỗ trợ Stata đã thực hiện xong cài Stata cho Mac, các bạn cần hỗ trợ hướng dẫn chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Mô hình tác động cố định Fixed effects và các kiểm định liên quan

Giới thiệu

Bài này nhóm MBA Bách Khoa sẽ giới thiệu cho các bạn cách chạy hồi quy OLS để ra được kết quả y hệt như chạy hồi quy Fixed Effects FEM. Để từ đó các bạn thấy được bản chất của mô hình FEM là gì.

Sau đó sẽ thực hiện giới thiệu các câu lệnh kiểm định lựa chọn mô hình, tương quan chuỗi, phương sai thay đổi

Đầu tiên bạn tải dữ liệu mẫu về tại đây http://phantichstata.com/data/FixedEffect.dta

Dữ liệu ở bài này gồm 40 quan sát, bao gồm 4 công ty trong thời gian 10 năm

Biến phụ thuộc là LEV , biến độc lập là F_OWN LIQ GROW

Chạy hồi quy FEM Fixed Effects :

Bây giờ các bạn thực hiện câu lệnh sau để chạy hồi quy FE, kết quả ra được như sau:

Chạy hồi quy OLS, với phương pháp biến giả LSDV:

Giờ nhóm sẽ thực hiện chạy hồi quy OLS, với phương pháp biến giả để ra kết quả y hệt như trên nhé.

Ước lượng LSDV (Least Squares Dummy Variable Estimator) là ước lượng biến giả bình phương tối thiểu là một dạng của ước lượng OLS. Quá trình thực hiện ước lượng lSDV theo 2 bước như sau:   Bước 1, tạo một biến giả tương ứng với một đối tượng trong mẫu. Bước 2, hồi quy OLS biến phụ thuộc Y theo N-1 biến giả và các biến giải thích. Ở bài này có 4 công ty, thì ta sẽ tạo ra 4 biến giả, và sẽ đưa 4-1 biến giả này vào hồi quy OLS

tab StockCode , generate(Stock)

Lênh trên tạo ra 4 biến giả là Stock1, Stock2, Stock3, Stock4 như sau:

Sau đó ta hồi quy OLS, với các biến độc lập đưa vào có thêm các biến Stock1 Stock2 Stock3. Lưu ý không có biến Stock4 nhé, vì biết Stock4 đưa vào sẽ bị đa cộng tuyến hoàn hảo( do ba biến Stock còn lại đã  dự đoán được cho Stock4)

regress LEV F_OWN LIQ GROW   Stock1 Stock2 Stock3

Ta thấy kết quả hồi quy, các hệ số beta, mức ý  nghĩa p… đều y hệt với kết quả chạy hồi quy FEM ở trên. Do dó, hồi quy FE thực chất là hồi quy OLS , có đưa thêm các biến giả biểu hiện cho các mã công ty vào. Mã công ty là yếu tố  khác nhau giữa các đối tượng nhưng không đổi theo thời gian.

Các kiểm định của mô hình tác động cố định Fixed efffects.

Kiểm định phương sai thay đổi

Câu lệnh: xttest3

Nếu p<5%, mô hình gặp hiện tượng phương sai thay đổi

Kiểm định tương quan chuỗi

Câu lệnh: xtserial

Nếu p<5%, mô hình gặp hiện tượng tương quan chuỗi

Kiểm định lựa chọn mô hình OLS hay FEM

Để lựa chọn giữa OLS và FEM , chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0: fixed effects =0 ), sau đó mới dùng hausman so sánh tiếp để chọn FEM và REM.

Kiểm định lựa chọn mô hình REM hay FEM

Câu lệnh: hausman fixed random

P-value(Hausman) >0.05 chọn REM

P-value(Hausman) <0.05 chọn FEM

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy hiệu ứng cố định Fix Effects, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

 

Lệnh esttab để hiển thị bảng tóm tắt kết quả hồi quy

Lệnh esttab để hiển thị bảng tóm tắt kết quả hồi quy

Vấn đề:

Khi thực hiện luận văn  hoặc viết bài báo, đôi lúc bạn sẽ thấy kết quả của các phương trình hồi quy được tóm tắt như thế  này:

Vậy làm thế nào để làm được điều đó, bài viết này nhóm Ths Bách Khoa sẽ hướng dẫn các bạn nhé.

Hiểu nội dung bảng

Đầu tiên là việc đọc hiểu bảng kết quả này. Có 3 cột số liệu  ứng với 3 phương trình. Trong mỗi phương trình thì có hệ số tác động, các dấu * thể hiện cho mức ý nghĩa, và số trong ngoặc thể hiện giá trị kiểm định t như bên dưới cuối bảng có chú thích.

Trong bảng trên là kết quả của 3 phương trình hồi quy OLS, Fixed Effect, Random Effect.

Các câu lệnh cần thực hiện như sau:

regress ROA SIZE LEV INVEST PROFIT    
estimates store ols
xtreg   ROA SIZE LEV INVEST PROFIT  , fe
estimates store fixed
xtreg   ROA SIZE LEV INVEST PROFIT  , re
estimates store random

esttab ols fixed random, r2 star(* 0.1 ** 0.05 *** 0.01) brackets nogap compress

Câu lệnh quan trọng nhất là câu lệnh esttab cuối cùng. Lệnh này sẽ hiển thị ra bảng kết quả tóm tắt mình mong muốn

Chi tiết hơn về câu lệnh esttab này như sau:

esttab ols fixed random, r2 star(* 0.1 ** 0.05 *** 0.01) brackets nogap compress

Phần ols fixed random chính là sẽ hiện thị ra kết quả của 3 loại hồi quy trên.

Phần r2 dùng để hiển thị ra hệ số r bình phương ở cuối bảng

Phần star(* 0.1 ** 0.05 *** 0.01)  dùng để gán các dấu * tương ứng với mức p-value. Nếu ba dấu sao *** là p<1% , hai dấu ** là p<5%, còn ba dấu *** là p<10%.

Phần brackets dùng để hiển thị giá trị t nằm trong ngoặc vuông[] , nếu không có chữ này thì nó sẽ hiện trong ngoặc tròn như sau:

Phần nogap, compress tương ứng là xóa bỏ những phần thừa ở hàng, cột để cho cái bảng nó gọn hơn, nhỏ hơn.

Ngoài ra còn nhiều option khác , các bạn có thể dùng lệnh help esttab để xem thêm , một số option như sau:

 Main
      b(fmt)                          specify format for point estimates
      beta[(fmt)]                     display beta coefficients instead of
                                        point est's
      main(name [fmt])                display contents of e(name) instead
                                        of point e's
      t(fmt)                          specify format for t statistics
      abs                             use absolute value of t statistics
      not                             suppress t statistics
      z[(fmt)]                        display z statistics (affects label
                                        only)
      se[(fmt)]                       display standard errors instead of t
                                        statistics
      p[(fmt)]                        display p-values instead of t
                                        statistics
      ci[(fmt)]                       display confidence intervals instead
                                        of t stat's
      aux(name [fmt])                 display contents of e(name) instead
                                        of t stat's
      [no]constant                    do not/do report the intercept

    Significance stars
      [no]star[(symbol level […])]  do not/do report significance stars
      staraux                         attach stars to t stat's instead of
                                        point est's

    Summary statistics
      r2|ar2|pr2[(fmt)]               display (adjusted, pseudo) R-squared
      aic|bic[(fmt)]                  display Akaike's or Schwarz's
                                        information crit.
      scalars(list)                   display any other scalars contained
                                        in e()
      sfmt(fmt […])                 set formats for scalars()
      noobs                           do not display the number of
                                        observations
      obslast                         place the number of observations
                                        last

    Layout
      wide                            place point est's and t stat's
                                        beside one another
      onecell                         combine point est's and t stat's in
                                        a single cell
      [no]parentheses                 do not/do print parentheses around t
                                        statistics
      brackets                        use brackets instead of parentheses
      [no]gaps                        suppress/add vertical spacing
      [no]lines                       suppress/add horizontal lines
      noeqlines                       suppress lines between equations
      compress                        reduce horizontal spacing
      plain                           produce a minimally formatted table

    Labeling
      label                           make use of variable labels
      interaction(string)             specify interaction operator
      title(string)                   specify a title for the table
      mtitles[(list)]                 specify model titles to appear in
                                        table header
      nomtitles                       disable model titles
      [no]depvars                     do not/do use dependent variables as
                                        model titles
      [no]numbers                     do not/do print model numbers in
                                        table header
      coeflabels(name label […])    specify labels for coefficients
      [no]notes                       suppress/add notes in the table
                                        footer
      addnotes(list)      

 

Cách cài đặt lệnh xtserial để kiểm tra tương quan chuỗi serial correlation

Sau khi chạy hồi quy panel, để kiểm tra tương quan chuỗi serial correlation cần chạy lệnh xtserial , tuy nhiên nếu máy chưa cài lệnh này thì khi chạy sẽ bị báo lỗi như sau:

. xtserial
unrecognized command:  xtserial
r(199);

Lý do là lệnh này Stata không có sẵn, muốn chạy được phải cài thêm xtserial

Do đó ta cần phải thực hiện cài đặt bằng cách sau

Gõ lệnh search xtserial

Lúc này Stata sẽ hiển thị cửa sổ

Sau đó tiếp tục nhấn vào mục st0039 như trong hình. Cửa sổ sau hiện ra

Tiếp tục nhấn vào mục (click here to install)

 

Lúc đó gói này sẽ được cài vào máy như sau
package name:  st0039.pkg
        from:  http://www.stata-journal.com/software/sj3-2/

checking st0039 consistency and verifying not already installed…
installing into c:\ado\plus\…
installation complete.
—————————————————————————
(click here to return to the previous screen)

Và các bạn có thể sử dụng lệnh này để sử dụng rồi nhé.

Như vậy nhóm đã hướng dẫn Cách cài đặt lệnh xtserial để kiểm tra tương quan chuỗi serial correlation thành công, các bạn có cần hỗ trợ tư vấn hỗ trợ khi làm bài cứ liên hệ nhóm nhé.

Cách cài đặt lệnh xttest3 để kiểm tra phương sai sai số thay đổi của mô hình FE

Sau khi chạy hồi quy FE, nếu máy chưa cài đặt lệnh xttest3 thì khi chạy sẽ bị báo lỗi như sau:

. xttest3
unrecognized command:  xttest3

Lý do là lệnh này Stata không có sẵn, muốn chạy được phải cài thêm xttest3

Do đó ta cần phải thực hiện cài đặt bằng cách sau

Gõ lệnh ssc install xttest3

Lúc này Stata sẽ tự kết nối internet và tải gói cài đặt về nhé. Kết quả như sau
. ssc install xttest3
checking xttest3 consistency and verifying not already installed…
installing into c:\ado\plus\…
installation complete.

Như vậy nhóm đã hướng dẫn cách cài đặt lệnh xttest3 để kiểm tra phương sai sai số thay đổi của mô hình FE đã thành công, các bạn có cần hỗ trợ tư vấn hỗ trợ khi làm bài cứ liên hệ nhóm nhé.

Tải phần mềm Stata 14 miễn phí, chạy không cần cài đặt

Nhóm Thạc Sĩ hướng dẫn  các bạn tải phần mềm Stata 14 phiên bản miễn phí, không cần cài đặt mà vẫn chạy được

Các bạn tải phần mềm Stata miễn phí bảng 14  ở  đây( lưu ý password giải nén là phantichstata.com )   http://www.mediafire.com/file/7n5cy8c6iydbcqr/Stata_v14.zip

Sau đó giải nén ra, bấm vào file stata để chạy chương trình ( có hai file chạy là StataMP-64.exe và StataMP.exe ứng với hệ điều hành 64 bít và 32 bít. Nếu bạn không rành tốt nhất cứ chọn file StataMP.exe  để chạy nhé)

Lần đầu chương trình sẽ hiện lên bảng sau, các bạn chọn chỗ Disable automatic update checking. Sau đó nhấn ok.

Như vậy việc tải và cài đặt Stata 14 miễn phí đã hoàn tất, các bạn có thể sử dụng nhé

 

 

Hồi quy tobit, lý thuyết và thực hành, đọc kết quả

  

Khái niệm hồi quy tobit

Mô hình tobit, cũng được gọi là mô hình hồi quy bị kiểm duyệt (censored regression model), được thiết kế để ước tính mối quan hệ tuyến tính giữa các biến khi biến phụ thuộc có kiểm duyệt bên trái hoặc bên phải.
Việc kiểm duyệt bên phải diễn ra khi các trường hợp biến phụ thuộc có giá trị bằng hoặc cao hơn ngưỡng nào đó, nhưng đều lấy giá trị của ngưỡng đó(cho dù giá trị thực có thể bằng ngưỡng, nhưng nó cũng có thể cao hơn). Trong trường hợp kiểm duyệt từ bên trái, giá trị của biến phụ thuộc cũng được gán bằng giá trị ngưỡng thấp nhất ( cho dù biến phụ thuộc đó có thể có giá trị thấp hơn nữa)

Ví dụ hồi quy tobit

 

Ví dụ 1: Bạn đi xe máy và, đồng hồ hiển thị tốc độ chỉ số tối đa là 120Km/h. Vì vậy, nếu bạn muốn thử và dự đoán tốc độ tối đa của một chiếc xe từ sự kết hợp giữa sức ngựa và kích thước động cơ, bạn sẽ nhận được số đọc không cao hơn 120, bất kể tốc độ của chiếc xe thực sự di chuyển như thế nào. Đây là một trường hợp cổ kiểm duyệt bên phải (kiểm duyệt từ trên) của dữ liệu. Điều duy nhất chắc chắn là những chiếc xe đó đang đi ít nhất 120 km một giờ( thực tế có thể cao hơn, nhưng vì đồng hồ không hiển thị được)

Ở Hoa Kì, xem xét tình huống trong đó dự đoán điểm năng lực học tập academic aptitude ( với thang điểm từ 200 đến 800). Các biến độc lập là: điểm kiểm tra đọc-viết, điểm kiểm tra toán, cũng như loại chương trình mà sinh viên đăng ký học (academic, general, hoặc nghề ). Vấn đề ở đây là các sinh viên trả lời đúng tất cả các câu hỏi về bài kiểm tra năng lực học thuật nhận được điểm 800, mặc dù có khả năng các sinh viên này không "thực sự" làm bằng năng khiếu( có thể do may rủi, chọn ngẫu nhiên đáp án). Điều này cũng đúng với những sinh viên trả lời tất cả các câu hỏi không chính xác. Tất cả các sinh viên như vậy sẽ có điểm số là 200, mặc dù họ có thể không phải tất cả đều có năng lực dở ngang nhau.

Thực hành mô hình hồi quy tobit

Dữ liệu có thể được lấy ở đây bằng lệnh sau:
use http://phantichstata.com/data/tobit.dta

Ta có 200 mẫu, định nghĩa các biến:
Biến phụ thuộc:
     apt điểm năng lực học tập academic aptitude
Biến độc lập:
     read : điểm reading
     math : điểm toán
     prog : chương trình mà sinh viên theo học, sẽ có 1 trong 3 giá trị academic (prog = 1), general (prog = 2), and vocational (prog = 3)
Nhìn vào dữ liệu, giá trị thấp nhất của biến phụ thuộc apt là 352, không có sinh viên nào có điểm 200( mức điểm thấp nhất). Do đó nếu ta chạy tobit với giới hạn bên dưới, thì cũng không có ý nghĩa vì giới hạn 200 không xảy ra.


Biến phụ thuộc là apt, biến độc lập là read,math,prog

tobit apt read math i.prog, ul(800)

Tham số ul là upper limit, nghĩa là chặn trên. Còn nếu chặn dưới là ll lower limit. Chữ i trước chữ prog có ý nghĩa là prog là biến phân loại, nghĩa là nó mang giá trị 1 2 3 chỉ là tương ứng với 3 loại hình học hành, chứ không phải học loại này là cao hơn loại kia.

 

Phân tích kết quả hồi quy tobit

 

 

Trong 200 mẫu, có 173 mẫu không bị chặn, và có 17 mẫu bị chặn trên  với giá trị apt>=800

Chỉ số LR chi2(4): likelihood ratio chi-square 188.97 (df=4) với p-value = 0.0000 nói lên mô hình này phù hợp, có ý nghĩa hơn là mô hình trống( là mô hình mà không có biến độc lập).
Bảng kết quả hồi quy,biến read và math và prog=3 có ý nghĩa thống kê. Các diễn giải hệ số hồi quy tobit tương tự như mô hình hồi quy đa biến

Khi biến read tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 2.7 điểm . Khi biến math tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 5.91 điểm. Chỉ có biến prog có một giải thích hơi khác. Giá trị dự đoán của apt thấp hơn 46,14 điểm đối với sinh viên trong chương trình vocational (prog = 3) so với sinh viên trong chương trình academic (prog = 1).

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy tobit, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

  

Kiểm định tự tương quan, tương quan chuỗi trong Stata

Nhóm Hỗ Trợ Stata giới thiệu về khái niệm tự tương quan, cùng với các kiểm định để xác định xem dữ liệu có bị tự tương quan hay không. Kiểm định này có sự khác biệt khi áp dụng đối với dữ liệu bảng và dữ liệu theo chuỗi thời gian, mỗi loại sẽ có cách kiểm định riêng. Phần này sẽ nói phần thực hành kiểm định tự tương quan trước, sau đó là phần lý thuyết.

Thực hành kiểm định tự tương quan

Kiểm định tự tương quan với dữ liệu chuỗi thời gian

Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết luận có tự tương quan hay không

. dwstat

Durbin-Watson d-statistic(  7,   174) =  2.079461

Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh  durbinalt (kiểm định thay thế Durbin's alternative test for serial correlation) để tính toán trực tiếp ra mức ý nghĩa thống kê của kiểm định Durbin-Watson luôn.

Cú pháp lệnh là:  estat durbinalt 

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định Breusch-Godfrey

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags(2)

Kiểm định tự tương quan với dữ liệu bảng

Dùng kiểm định Wooldridge, với cú pháp  như sau: xtserial y x1, x2…. ( y là biến phụ thuộc, x1,x2… là biến độc lập)

Với giả thiết Ho: Không có tương quan chuỗi(no first-order autocorrelation)

Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Lý thuyết

Bản chất của tự tương quan là gì ?

Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc không gian (như trong dữ liệu chéo). Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.

Tự tương quan và tương quan chuỗi có khác nhau?

Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng là đồng nghĩa.

Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

Các phương pháp kiểm tra hiện tượng tự tương quan

Đối với dữ liệu bảng : kiểm định Wooldridge
Đối với dữ liệu thời gian:kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata

 MBA Bách Khoa hotrostata@gmail.com trình bài về khái niệm phương sai sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục phương sai sai số thay đổi sử dụng phần mềm Stata.

Định nghĩa phương sai của sai số thay đổi

     Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố  nhiễu ui (hay còn gọi là phần dư residuals) xuất hiện trong hàm hồi quy tổng thể có phương sai không thay đổi (homoscedasticity,  còn gọi là phương sai có điều kiện không đổi); tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự hiện diện của phương sai thay đổi. Phương sai thay đổi (Heteroscedasticity, còn gọi là phương sai của sai số thay đổi) .

     Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không thiên lệch tốt nhất (BLUE). Khi có phương sai thay đổi, các phương sai của các ước lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi trong Stata

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy tuyến tính đa biến OLS

hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi( White’s test)

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

            estat hettest

Cách đọc kết quả: hai cách trên ,nếu p-value <5% thì,chấp nhận giả thiết H1:Phương sai không đồng nhất, nghĩa là phương sai thay đổi (the variance is not homogenous) ( dĩ nhiên là không tốt, giá trị mong đợi là p.value >5%, lúc đó phương sai đồng nhất, phương sai không đổi).

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy dữ liệu bảng sử dụng fix và random effect

     Phương sai sai số thay đổi heteroskedasticity của mô hình REM: (sử dụng kiểm định LM – Breusch and pagan Lagrangian Multiplier ). Dùng lệnh xttest0, nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

     Phương sai sai số thay đổi heteroskedasticity của mô hình FEM( dùng kiểm định wald): Dùng lệnh xttest3 (lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh ssc install xttest3) . Nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

Cách khắc phục phương sai thay đổi trong Stata

Sử dụng mô hình sai số chuẩn mạnh để khắc phục phương sai sai số thay đổi, cụ thể xem ở đây nhé: http://phantichstata.com/mo-hinh-sai-chuan-manh-robust-standard-errors-la-gi-su-dung-ra-sao.html

Như vậy nhóm MBA Bách Khoa đã giới thiệu về Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata. Các bạn cần hỗ trợ về việc chạy mô hình, hoặc xử lý số liệu lại cho tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo 

-Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Hướng dẫn phân tích logistic regression – hồi quy nhị phân trong Stata

     Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

  •     Điểm cuối kì GRE
  •     Điểm trung bình GPA
  •     Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

  •     Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use http://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

 

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank 

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

     Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:


Giải thích ý nghĩa kết quả

  Number of obs = 400 : có 400 quan sát

 Trong bảng kết quả có  hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và  95% confidence interval of the coefficients. Cả hai biến GRE và GPA  đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

     – Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

     – Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

     – Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

    Muốn kiểm tra tác động chung của biến RANK, dùng  lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank

 ( 1)  [admit]2.rank - [admit]3.rank = 0

           chi2(  1) =    5.51
         Prob > chi2 =    0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:


Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu  Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

 

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là (254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.

Kết luận

Như các bạn thấy, việc phân tích hồi quy nhị phân khá phức tạp so với hồi quy đa biến tuyến tính. Nhất là việc hiểu các chỉ số hệ số hồi quy, odds ratio, log odd… Các bạn cần hỗ trợ đào tạo, hướng dẫn kiến thức phân tích, hoặc khi chạy ra số liệu không đạt chuẩn, không có ý nghĩa thống kê, cần  hỗ trợ xử lý lại số liệu cứ liên hệ nhóm MBA Đại Học Bách Khoa nhé  http://phantichstata.com/lien-he-gioi-thieu

-Viber/zalo 

-Facebook  facebook.com/hotroStata

-Email  hotrostata@gmail.com