Hồi quy tobit, lý thuyết và thực hành, đọc kết quả

Khái niệm hồi quy tobit

Mô hình tobit, cũng được gọi là mô hình hồi quy bị kiểm duyệt (censored regression model), được thiết kế để ước tính mối quan hệ tuyến tính giữa các biến khi biến phụ thuộc có kiểm duyệt bên trái hoặc bên phải.
Việc kiểm duyệt bên phải diễn ra khi các trường hợp biến phụ thuộc có giá trị bằng hoặc cao hơn ngưỡng nào đó, nhưng đều lấy giá trị của ngưỡng đó(cho dù giá trị thực có thể bằng ngưỡng, nhưng nó cũng có thể cao hơn). Trong trường hợp kiểm duyệt từ bên trái, giá trị của biến phụ thuộc cũng được gán bằng giá trị ngưỡng thấp nhất ( cho dù biến phụ thuộc đó có thể có giá trị thấp hơn nữa)

Ví dụ hồi quy tobit

Ví dụ 1: Bạn đi xe máy và, đồng hồ hiển thị tốc độ chỉ số tối đa là 120Km/h. Vì vậy, nếu bạn muốn thử và dự đoán tốc độ tối đa của một chiếc xe từ sự kết hợp giữa sức ngựa và kích thước động cơ, bạn sẽ nhận được số đọc không cao hơn 120, bất kể tốc độ của chiếc xe thực sự di chuyển như thế nào. Đây là một trường hợp cổ kiểm duyệt bên phải (kiểm duyệt từ trên) của dữ liệu. Điều duy nhất chắc chắn là những chiếc xe đó đang đi ít nhất 120 km một giờ( thực tế có thể cao hơn, nhưng vì đồng hồ không hiển thị được)

Ở Hoa Kì, xem xét tình huống trong đó dự đoán điểm năng lực học tập academic aptitude ( với thang điểm từ 200 đến 800). Các biến độc lập là: điểm kiểm tra đọc-viết, điểm kiểm tra toán, cũng như loại chương trình mà sinh viên đăng ký học (academic, general, hoặc nghề ). Vấn đề ở đây là các sinh viên trả lời đúng tất cả các câu hỏi về bài kiểm tra năng lực học thuật nhận được điểm 800, mặc dù có khả năng các sinh viên này không "thực sự" làm bằng năng khiếu( có thể do may rủi, chọn ngẫu nhiên đáp án). Điều này cũng đúng với những sinh viên trả lời tất cả các câu hỏi không chính xác. Tất cả các sinh viên như vậy sẽ có điểm số là 200, mặc dù họ có thể không phải tất cả đều có năng lực dở ngang nhau.

Thực hành mô hình hồi quy tobit

Dữ liệu có thể được lấy ở đây bằng lệnh sau:
use http://phantichstata.com/data/tobit.dta

Ta có 200 mẫu, định nghĩa các biến:
Biến phụ thuộc:
     apt điểm năng lực học tập academic aptitude
Biến độc lập:
     read : điểm reading
     math : điểm toán
     prog : chương trình mà sinh viên theo học, sẽ có 1 trong 3 giá trị academic (prog = 1), general (prog = 2), and vocational (prog = 3)
Nhìn vào dữ liệu, giá trị thấp nhất của biến phụ thuộc apt là 352, không có sinh viên nào có điểm 200( mức điểm thấp nhất). Do đó nếu ta chạy tobit với giới hạn bên dưới, thì cũng không có ý nghĩa vì giới hạn 200 không xảy ra.

summarize apt read math

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         apt |       200     640.035    99.21903        352        800
        read |       200       52.23    10.25294         28         76
        math |       200      52.645    9.368448         33         75

Biến phụ thuộc là apt, biến độc lập là read,math,prog

tobit apt read math i.prog, ul(800)

Tham số ul là upper limit, nghĩa là chặn trên. Còn nếu chặn dưới là ll lower limit. Chữ i trước chữ prog có ý nghĩa là prog là biến phân loại, nghĩa là nó mang giá trị 1 2 3 chỉ là tương ứng với 3 loại hình học hành, chứ không phải học loại này là cao hơn loại kia.

tobit apt read math i.prog, ul(800)

Tobit regression                                  Number of obs   =        200
                                                  LR chi2(4)      =     188.97
                                                  Prob > chi2     =     0.0000
Log likelihood = -1041.0629                       Pseudo R2       =     0.0832

------------------------------------------------------------------------------
         apt |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        read |   2.697939    .618798     4.36   0.000     1.477582    3.918296
        math |   5.914485   .7098063     8.33   0.000     4.514647    7.314323
             |
        prog |
          2  |  -12.71476   12.40629    -1.02   0.307    -37.18173     11.7522
          3  |   -46.1439   13.72401    -3.36   0.001     -73.2096   -19.07821
             |
       _cons |    209.566   32.77154     6.39   0.000     144.9359    274.1961
-------------+----------------------------------------------------------------
      /sigma |   65.67672   3.481272                      58.81116    72.54228
------------------------------------------------------------------------------
  Obs. summary:          0  left-censored observations
                       183     uncensored observations
                        17 right-censored observations at apt>=800

 

 

Phân tích kết quả hồi quy tobit

Trong 200 mẫu, có 173 mẫu không bị chặn, và có 17 mẫu bị chặn trên  với giá trị apt>=800

Chỉ số LR chi2(4): likelihood ratio chi-square 188.97 (df=4) với p-value = 0.0000 nói lên mô hình này phù hợp, có ý nghĩa hơn là mô hình trống( là mô hình mà không có biến độc lập).
Bảng kết quả hồi quy,biến read và math và prog=3 có ý nghĩa thống kê. Các diễn giải hệ số hồi quy tobit tương tự như mô hình hồi quy đa biến

Khi biến read tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 2.7 điểm . Khi biến math tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 5.91 điểm. Chỉ có biến prog có một giải thích hơi khác. Giá trị dự đoán của apt thấp hơn 46,14 điểm đối với sinh viên trong chương trình vocational (prog = 3) so với sinh viên trong chương trình academic (prog = 1).

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy tobit, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Comments