Hướng dẫn phân tích logistic regression – hồi quy nhị phân trong Stata

     Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

  •     Điểm cuối kì GRE
  •     Điểm trung bình GPA
  •     Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

  •     Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use http://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

summarize gre gpa

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         gre |       400       587.7    115.5165        220        800
         gpa |       400      3.3899    .3805668       2.26          4

tab rank 

       rank |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         61       15.25       15.25
          2 |        151       37.75       53.00
          3 |        121       30.25       83.25
          4 |         67       16.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit

      admit |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        273       68.25       68.25
          1 |        127       31.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit rank

           |                    rank
     admit |         1          2          3          4 |     Total
-----------+--------------------------------------------+----------
         0 |        28         97         93         55 |       273 
         1 |        33         54         28         12 |       127 
-----------+--------------------------------------------+----------
     Total |        61        151        121         67 |       400

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank 

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

     Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:

logit admit gre gpa i.rank 

Iteration 0:   log likelihood = -249.98826  
Iteration 1:   log likelihood = -229.66446  
Iteration 2:   log likelihood = -229.25955  
Iteration 3:   log likelihood = -229.25875  
Iteration 4:   log likelihood = -229.25875  

Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   .0022644    .001094     2.07   0.038     .0001202    .0044086
         gpa |   .8040377   .3318193     2.42   0.015     .1536838    1.454392
             |
        rank |
          2  |  -.6754429   .3164897    -2.13   0.033    -1.295751   -.0551346
          3  |  -1.340204   .3453064    -3.88   0.000    -2.016992   -.6634158
          4  |  -1.551464   .4178316    -3.71   0.000    -2.370399   -.7325287
             |
       _cons |  -3.989979   1.139951    -3.50   0.000    -6.224242   -1.755717
------------------------------------------------------------------------------
Giải thích ý nghĩa kết quả

  Number of obs = 400 : có 400 quan sát

 Trong bảng kết quả có  hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và  95% confidence interval of the coefficients. Cả hai biến GRE và GPA  đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

     – Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

     – Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

     – Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

    Muốn kiểm tra tác động chung của biến RANK, dùng  lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank

 ( 1)  [admit]2.rank - [admit]3.rank = 0

           chi2(  1) =    5.51
         Prob > chi2 =    0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:

logit , or
Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   1.002267   .0010965     2.07   0.038      1.00012    1.004418
         gpa |   2.234545   .7414652     2.42   0.015     1.166122    4.281877
             |
        rank |
          2  |   .5089309   .1610714    -2.13   0.033     .2736922    .9463578
          3  |   .2617923   .0903986    -3.88   0.000     .1330551    .5150889
          4  |   .2119375   .0885542    -3.71   0.000     .0934435    .4806919
------------------------------------------------------------------------------

Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu  Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

 . estat classification

Logistic model for admit

              ——– True ——–
Classified |         D            ~D  |      Total
———–+————————–+———–
        +     |        30            19  |         49
         –     |        97           254 |        351
———–+————————–+———–
   Total     |       127           273 |        400

Classified + if predicted Pr(D) >= .5
True D defined as admit != 0
————————————————–
Sensitivity                     Pr( +| D)   23.62%
Specificity                     Pr( -|~D)   93.04%

Positive predictive value       Pr( D| +)   61.22%
Negative predictive value       Pr(~D| -)   72.36%
————————————————–
False + rate for true ~D        Pr( +|~D)    6.96%
False – rate for true D         Pr( -| D)   76.38%
False + rate for classified +   Pr(~D| +)   38.78%
False – rate for classified –   Pr( D| -)   27.64%
————————————————–
Correctly classified                        71.00%
————————————————–

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là (254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.

Kết luận

Như các bạn thấy, việc phân tích hồi quy nhị phân khá phức tạp so với hồi quy đa biến tuyến tính. Nhất là việc hiểu các chỉ số hệ số hồi quy, odds ratio, log odd… Các bạn cần hỗ trợ đào tạo, hướng dẫn kiến thức phân tích, hoặc khi chạy ra số liệu không đạt chuẩn, không có ý nghĩa thống kê, cần  hỗ trợ xử lý lại số liệu cứ liên hệ nhóm MBA Đại Học Bách Khoa nhé  http://phantichstata.com/lien-he-gioi-thieu

-Viber/zalo 

-Facebook  facebook.com/hotroStata

-Email  hotrostata@gmail.com

Comments