Category Archives: Stata

Hồi quy tobit, lý thuyết và thực hành, đọc kết quả

Khái niệm hồi quy tobit

Mô hình tobit, cũng được gọi là mô hình hồi quy bị kiểm duyệt (censored regression model), được thiết kế để ước tính mối quan hệ tuyến tính giữa các biến khi biến phụ thuộc có kiểm duyệt bên trái hoặc bên phải.
Việc kiểm duyệt bên phải diễn ra khi các trường hợp biến phụ thuộc có giá trị bằng hoặc cao hơn ngưỡng nào đó, nhưng đều lấy giá trị của ngưỡng đó(cho dù giá trị thực có thể bằng ngưỡng, nhưng nó cũng có thể cao hơn). Trong trường hợp kiểm duyệt từ bên trái, giá trị của biến phụ thuộc cũng được gán bằng giá trị ngưỡng thấp nhất ( cho dù biến phụ thuộc đó có thể có giá trị thấp hơn nữa)

Ví dụ hồi quy tobit

Ví dụ 1: Bạn đi xe máy và, đồng hồ hiển thị tốc độ chỉ số tối đa là 120Km/h. Vì vậy, nếu bạn muốn thử và dự đoán tốc độ tối đa của một chiếc xe từ sự kết hợp giữa sức ngựa và kích thước động cơ, bạn sẽ nhận được số đọc không cao hơn 120, bất kể tốc độ của chiếc xe thực sự di chuyển như thế nào. Đây là một trường hợp cổ kiểm duyệt bên phải (kiểm duyệt từ trên) của dữ liệu. Điều duy nhất chắc chắn là những chiếc xe đó đang đi ít nhất 120 km một giờ( thực tế có thể cao hơn, nhưng vì đồng hồ không hiển thị được)

Ở Hoa Kì, xem xét tình huống trong đó dự đoán điểm năng lực học tập academic aptitude ( với thang điểm từ 200 đến 800). Các biến độc lập là: điểm kiểm tra đọc-viết, điểm kiểm tra toán, cũng như loại chương trình mà sinh viên đăng ký học (academic, general, hoặc nghề ). Vấn đề ở đây là các sinh viên trả lời đúng tất cả các câu hỏi về bài kiểm tra năng lực học thuật nhận được điểm 800, mặc dù có khả năng các sinh viên này không "thực sự" làm bằng năng khiếu( có thể do may rủi, chọn ngẫu nhiên đáp án). Điều này cũng đúng với những sinh viên trả lời tất cả các câu hỏi không chính xác. Tất cả các sinh viên như vậy sẽ có điểm số là 200, mặc dù họ có thể không phải tất cả đều có năng lực dở ngang nhau.

Thực hành mô hình hồi quy tobit

Dữ liệu có thể được lấy ở đây bằng lệnh sau:
use http://phantichstata.com/data/tobit.dta

Ta có 200 mẫu, định nghĩa các biến:
Biến phụ thuộc:
     apt điểm năng lực học tập academic aptitude
Biến độc lập:
     read : điểm reading
     math : điểm toán
     prog : chương trình mà sinh viên theo học, sẽ có 1 trong 3 giá trị academic (prog = 1), general (prog = 2), and vocational (prog = 3)
Nhìn vào dữ liệu, giá trị thấp nhất của biến phụ thuộc apt là 352, không có sinh viên nào có điểm 200( mức điểm thấp nhất). Do đó nếu ta chạy tobit với giới hạn bên dưới, thì cũng không có ý nghĩa vì giới hạn 200 không xảy ra.

summarize apt read math

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         apt |       200     640.035    99.21903        352        800
        read |       200       52.23    10.25294         28         76
        math |       200      52.645    9.368448         33         75

Biến phụ thuộc là apt, biến độc lập là read,math,prog

tobit apt read math i.prog, ul(800)

Tham số ul là upper limit, nghĩa là chặn trên. Còn nếu chặn dưới là ll lower limit. Chữ i trước chữ prog có ý nghĩa là prog là biến phân loại, nghĩa là nó mang giá trị 1 2 3 chỉ là tương ứng với 3 loại hình học hành, chứ không phải học loại này là cao hơn loại kia.

tobit apt read math i.prog, ul(800)

Tobit regression                                  Number of obs   =        200
                                                  LR chi2(4)      =     188.97
                                                  Prob > chi2     =     0.0000
Log likelihood = -1041.0629                       Pseudo R2       =     0.0832

------------------------------------------------------------------------------
         apt |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        read |   2.697939    .618798     4.36   0.000     1.477582    3.918296
        math |   5.914485   .7098063     8.33   0.000     4.514647    7.314323
             |
        prog |
          2  |  -12.71476   12.40629    -1.02   0.307    -37.18173     11.7522
          3  |   -46.1439   13.72401    -3.36   0.001     -73.2096   -19.07821
             |
       _cons |    209.566   32.77154     6.39   0.000     144.9359    274.1961
-------------+----------------------------------------------------------------
      /sigma |   65.67672   3.481272                      58.81116    72.54228
------------------------------------------------------------------------------
  Obs. summary:          0  left-censored observations
                       183     uncensored observations
                        17 right-censored observations at apt>=800

 

 

Phân tích kết quả hồi quy tobit

Trong 200 mẫu, có 173 mẫu không bị chặn, và có 17 mẫu bị chặn trên  với giá trị apt>=800

Chỉ số LR chi2(4): likelihood ratio chi-square 188.97 (df=4) với p-value = 0.0000 nói lên mô hình này phù hợp, có ý nghĩa hơn là mô hình trống( là mô hình mà không có biến độc lập).
Bảng kết quả hồi quy,biến read và math và prog=3 có ý nghĩa thống kê. Các diễn giải hệ số hồi quy tobit tương tự như mô hình hồi quy đa biến

Khi biến read tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 2.7 điểm . Khi biến math tăng một đơn vị ,giá trị dự đoán của biến apt gia tăng 5.91 điểm. Chỉ có biến prog có một giải thích hơi khác. Giá trị dự đoán của apt thấp hơn 46,14 điểm đối với sinh viên trong chương trình vocational (prog = 3) so với sinh viên trong chương trình academic (prog = 1).

Như vậy nhóm hỗ trợ Stata đã thực hiện xong chạy hồi quy tobit, các bạn cần hỗ trợ chạy hoặc cần xử lý số liệu ra tốt hơn cứ liên hệ nhóm nhé.

Liên hệ:

– SMS, Zalo, Viber:

Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Kiểm định tự tương quan, tương quan chuỗi trong Stata

Nhóm Hỗ Trợ Stata giới thiệu về khái niệm tự tương quan, cùng với các kiểm định để xác định xem dữ liệu có bị tự tương quan hay không. Kiểm định này có sự khác biệt khi áp dụng đối với dữ liệu bảng và dữ liệu theo chuỗi thời gian, mỗi loại sẽ có cách kiểm định riêng. Phần này sẽ nói phần thực hành kiểm định tự tương quan trước, sau đó là phần lý thuyết.

Thực hành kiểm định tự tương quan

Kiểm định tự tương quan với dữ liệu chuỗi thời gian

Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết luận có tự tương quan hay không

. dwstat

Durbin-Watson d-statistic(  7,   174) =  2.079461

Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh  durbinalt (kiểm định thay thế Durbin's alternative test for serial correlation) để tính toán trực tiếp ra mức ý nghĩa thống kê của kiểm định Durbin-Watson luôn.

Cú pháp lệnh là:  estat durbinalt 

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định Breusch-Godfrey

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags(2)

Kiểm định tự tương quan với dữ liệu bảng

Dùng kiểm định Wooldridge, với cú pháp  như sau: xtserial y x1, x2…. ( y là biến phụ thuộc, x1,x2… là biến độc lập)

Với giả thiết Ho: Không có tương quan chuỗi(no first-order autocorrelation)

Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

 

Lý thuyết

Bản chất của tự tương quan là gì ?

Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc không gian (như trong dữ liệu chéo). Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.

Tự tương quan và tương quan chuỗi có khác nhau?

Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa, một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích, trong bài này chúng ta sẽ coi chúng là đồng nghĩa.

Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó, để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

Các phương pháp kiểm tra hiện tượng tự tương quan

Đối với dữ liệu bảng : kiểm định Wooldridge
Đối với dữ liệu thời gian:kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

 

 

Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata

 MBA Bách Khoa hotrostata@gmail.com trình bài về khái niệm phương sai sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục phương sai sai số thay đổi sử dụng phần mềm Stata.

Định nghĩa phương sai của sai số thay đổi

     Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố  nhiễu ui (hay còn gọi là phần dư residuals) xuất hiện trong hàm hồi quy tổng thể có phương sai không thay đổi (homoscedasticity,  còn gọi là phương sai có điều kiện không đổi); tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự hiện diện của phương sai thay đổi. Phương sai thay đổi (Heteroscedasticity, còn gọi là phương sai của sai số thay đổi) .

     Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không thiên lệch tốt nhất (BLUE). Khi có phương sai thay đổi, các phương sai của các ước lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi trong Stata

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy tuyến tính đa biến OLS

hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi( White’s test)

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

            estat hettest

Cách đọc kết quả: hai cách trên ,nếu p-value <5% thì,chấp nhận giả thiết H1:Phương sai không đồng nhất, nghĩa là phương sai thay đổi (the variance is not homogenous) ( dĩ nhiên là không tốt, giá trị mong đợi là p.value >5%, lúc đó phương sai đồng nhất, phương sai không đổi).

Kiểm định phương sai sai số thay đổi trong mô hình hồi quy dữ liệu bảng sử dụng fix và random effect

     Phương sai sai số thay đổi heteroskedasticity của mô hình REM: (sử dụng kiểm định LM – Breusch and pagan Lagrangian Multiplier ). Dùng lệnh xttest0, nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

     Phương sai sai số thay đổi heteroskedasticity của mô hình FEM( dùng kiểm định wald): Dùng lệnh xttest3 (lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh ssc install xttest3) . Nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko đổi)

Cách khắc phục phương sai thay đổi trong Stata

Sử dụng mô hình sai số chuẩn mạnh để khắc phục phương sai sai số thay đổi, cụ thể xem ở đây nhé: http://phantichstata.com/mo-hinh-sai-chuan-manh-robust-standard-errors-la-gi-su-dung-ra-sao.html

Như vậy nhóm MBA Bách Khoa đã giới thiệu về Phương sai của sai số thay đổi: định nghĩa, cách phát hiện, cách khắc phục bằng Stata. Các bạn cần hỗ trợ về việc chạy mô hình, hoặc xử lý số liệu lại cho tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo 

-Facebook  facebook.com/hotroStata

Email  hotrostata@gmail.com

Hướng dẫn phân tích logistic regression – hồi quy nhị phân trong Stata

     Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

  •     Điểm cuối kì GRE
  •     Điểm trung bình GPA
  •     Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

  •     Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use http://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến

summarize gre gpa

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
         gre |       400       587.7    115.5165        220        800
         gpa |       400      3.3899    .3805668       2.26          4

tab rank 

       rank |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |         61       15.25       15.25
          2 |        151       37.75       53.00
          3 |        121       30.25       83.25
          4 |         67       16.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit

      admit |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        273       68.25       68.25
          1 |        127       31.75      100.00
------------+-----------------------------------
      Total |        400      100.00

tab admit rank

           |                    rank
     admit |         1          2          3          4 |     Total
-----------+--------------------------------------------+----------
         0 |        28         97         93         55 |       273 
         1 |        33         54         28         12 |       127 
-----------+--------------------------------------------+----------
     Total |        61        151        121         67 |       400

Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank 

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

     Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:

logit admit gre gpa i.rank 

Iteration 0:   log likelihood = -249.98826  
Iteration 1:   log likelihood = -229.66446  
Iteration 2:   log likelihood = -229.25955  
Iteration 3:   log likelihood = -229.25875  
Iteration 4:   log likelihood = -229.25875  

Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   .0022644    .001094     2.07   0.038     .0001202    .0044086
         gpa |   .8040377   .3318193     2.42   0.015     .1536838    1.454392
             |
        rank |
          2  |  -.6754429   .3164897    -2.13   0.033    -1.295751   -.0551346
          3  |  -1.340204   .3453064    -3.88   0.000    -2.016992   -.6634158
          4  |  -1.551464   .4178316    -3.71   0.000    -2.370399   -.7325287
             |
       _cons |  -3.989979   1.139951    -3.50   0.000    -6.224242   -1.755717
------------------------------------------------------------------------------
Giải thích ý nghĩa kết quả

  Number of obs = 400 : có 400 quan sát

 Trong bảng kết quả có  hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và  95% confidence interval of the coefficients. Cả hai biến GRE và GPA  đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:

     – Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

     – Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804

     – Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675

    Muốn kiểm tra tác động chung của biến RANK, dùng  lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank

 ( 1)  [admit]2.rank - [admit]3.rank = 0

           chi2(  1) =    5.51
         Prob > chi2 =    0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:

logit , or
Logistic regression                               Number of obs   =        400
                                                  LR chi2(5)      =      41.46
                                                  Prob > chi2     =     0.0000
Log likelihood = -229.25875                       Pseudo R2       =     0.0829

------------------------------------------------------------------------------
       admit | Odds Ratio   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         gre |   1.002267   .0010965     2.07   0.038      1.00012    1.004418
         gpa |   2.234545   .7414652     2.42   0.015     1.166122    4.281877
             |
        rank |
          2  |   .5089309   .1610714    -2.13   0.033     .2736922    .9463578
          3  |   .2617923   .0903986    -3.88   0.000     .1330551    .5150889
          4  |   .2119375   .0885542    -3.71   0.000     .0934435    .4806919
------------------------------------------------------------------------------

Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu  Statistics > Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes > Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như sau:

 . estat classification

Logistic model for admit

              ——– True ——–
Classified |         D            ~D  |      Total
———–+————————–+———–
        +     |        30            19  |         49
         –     |        97           254 |        351
———–+————————–+———–
   Total     |       127           273 |        400

Classified + if predicted Pr(D) >= .5
True D defined as admit != 0
————————————————–
Sensitivity                     Pr( +| D)   23.62%
Specificity                     Pr( -|~D)   93.04%

Positive predictive value       Pr( D| +)   61.22%
Negative predictive value       Pr(~D| -)   72.36%
————————————————–
False + rate for true ~D        Pr( +|~D)    6.96%
False – rate for true D         Pr( -| D)   76.38%
False + rate for classified +   Pr(~D| +)   38.78%
False – rate for classified –   Pr( D| -)   27.64%
————————————————–
Correctly classified                        71.00%
————————————————–

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là (254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.

Kết luận

Như các bạn thấy, việc phân tích hồi quy nhị phân khá phức tạp so với hồi quy đa biến tuyến tính. Nhất là việc hiểu các chỉ số hệ số hồi quy, odds ratio, log odd… Các bạn cần hỗ trợ đào tạo, hướng dẫn kiến thức phân tích, hoặc khi chạy ra số liệu không đạt chuẩn, không có ý nghĩa thống kê, cần  hỗ trợ xử lý lại số liệu cứ liên hệ nhóm MBA Đại Học Bách Khoa nhé  http://phantichstata.com/lien-he-gioi-thieu

-Viber/zalo 

-Facebook  facebook.com/hotroStata

-Email  hotrostata@gmail.com

Mô hình sai số chuẩn mạnh (Robust Standard errors) là gì, sử dụng ra sao

Vấn đề

Khi chạy mô hình gặp hiện tượng phương sai sai số thay đổi, chúng ta cần dùng phương pháp này để cải thiện mô hình cho tốt hơn.

Định nghĩa

Mô hình sai số chuẩn mạnh (Robust Standard errors) , hay còn gọi là Ước lượng sai số chuẩn vững
Nhắc lại rằng khi mô hình có hiện tượng phương sai sai số thay đổi, các ước lượng OLS cho các hệ số vẫn là ước lượng không chệch, chỉ có phương sai của các hệ số ước lượng và hiệp phương sai giữa các hệ số ước lượng thu được bằng phương pháp OLS là chệch. Từ đó White (1980) đề xuất phương pháp  sai số chuẩn vững  (robust standard error) với tư tưởng như sau: vẫn sử dụng các hệ số ước lượng từ phương pháp OLS, tuy nhiên phương sai các hệ số ước lượng thì được tính toán lại mà không sử dụng đến giả thiết phương sai sai số không đổi.  Ước lượng mô hình sai số chuẩn mạnh sẽ cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện diện của hiện tượng phương sai thay đổi (heteroskedasticity).
Cách thực hiện trong Stata

– Giả sử có 1 biến phụ thuộc và 3 biến độc lập, ta chạy hồi quy FE thường cú pháp như sau

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,fe

– Hồi quy với theo phương trình mô hình sai số chuẩn mạnh (Robust Standard errors): thêm chữ robust vào câu lệnh hồi quy.
xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,robust fe

 

Dữ liệu bảng Panel Data là gì

Định nghĩa dữ liệu bảng panel data

 

Nhóm Hỗ Trợ Stata giúp các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Chuỗi thời gian ở đây là 4 năm 2014 2015 2016 2017. Dữ liệu chéo ở đây là tên 3 quốc gia : VietNam ThaiLand Malaysia. Như vậy bảng này có 3×4=12 dòng quan sát. Đây là định nghĩa đơn giản ngắn gọn dễ hiểu nhất về dữ liệu bảng panel data. ( lưu ý số liệu GDP, Population chỉ là minh họa cho dữ liệu bảng, chưa chính xác). Nói ngắn gọn, dữ liệu bảng có qui mô về thời gian lẫn không gian.

Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc (longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng), phân tích lịch sử sự kiện (thí dụ, nghiên cứu sự thay đổi theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được tiếp diễn theo thời gian), phân tích theo tổ (cohort analysis). Mặc dù có những sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là các mô hình hồi quy dữ liệu bảng.

 Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian
  1. Bởi vì dữ liệu bảng liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và quốc gia.
  2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.”
  3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng.
  4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang.
  5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian.
 6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
  Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

Cách xử lý dữ liệu bảng

Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM) hay mô hình các thành phần sai số (ECM).

 Trong FEM, tung độ gốc trong mô hình hồi quy được phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả bình phương nhỏ nhất (Least Square Dummy Variables  – LSDV). FEM thích hợp trong những tình huống mà tung độ gốc chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả (nhưng kìm hãm số hạng tung độ gốc chung).
  Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.
Lựa chọn mô hình

Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0: fixed effects =0 ), sau đó mới dùng kiểm định Hausman so sánh  để chọn FEM và REM. 

Trên đây đã giới thiệu căn bản về data panel  các bạn cần hỗ trợ giải đáp thắc mắc cứ liên hệ nhóm tại đây nhé. http://phantichstata.com/lien-he-gioi-thieu

File hướng dẫn chương trình kinh tế FullBright: MPP03-521-R22V-2012-02-10-10300799.pdf

 

Stata – Hướng dẫn thực hành cách phân tích hồi quy tuyến tính đa biến

Nhóm MBA Đại Học Bách Khoa Hỗ Trợ Stata hotrostata@gmail.com giới thiệu cách thực hiện phân tích hồi quy tuyến tính đa biến bằng phần mềm Stata, cùng cách đọc và phân tích ý nghĩa của kết quả hiển thị, đồng thời kiểm định luôn xem các biến có bị đa cộng tuyến hay không.

Đầu tiên các bạn vào menu Statistics > Linear models and related > Linear regression

Sau đó đưa biến phụ thuộc vào ô Dependent Variable, biến độc lập vào ô Independent Variables ( các biến độc lập cách nhau bởi khoảng trắng, lưu ý chỉ có 1 biến phụ thuộc thôi nhé)

Nhấn tiếp vào tab Reporting, tick vào ô Standardized beta coefficients để hiển thị hệ số hồi quy chuẩn hóa trong phần kết quả hồi quy.

Sau đó nhấn OK, lúc đó kết quả hồi quy sẽ thể hiện như sau:

 

 

Giải thích ý nghĩa:

 Number of obs =     222  Số quan sát là 222 mẫu
 F(  6,   215) =   72.12 Giá trị kiểm định F 6 nhân tố và 215 bậc tự do
 Prob > F      =  0.0000 Mức ý nghĩa của kiểm định F, ở đây bé hơn 5% chứng tỏ R bình phương của tổng thể khác 0. Nói cách khác là các hệ số hồi quy của phương trình hồi quy tổng thể không đồng thời bằng 0
 R-squared     =  0.6681 R bình phương
 Adj R-squared =  0.6588 R bình phương hiệu chỉnh, nghĩa là các biến độc lập giải thích được 65.88% biến thiên của biến phụ thuộc( chuẩn là R2>50%)
 Root MSE      =  .43288

Coef.   : cột này là giá trị hệ số hồi quy chưa chuẩn hóa

Std. Err.   Sai số chuẩn

P>|t|  p-value, nếu giá trị này bé hơn 5%( 0.05) thì mối quan hệ giữa biến độc lập này và biến phụ thuộc có ý nghĩa thống kê.

Beta: là hệ số hồi quy đã chuẩn hóa.

Từ đây có thể viết phương trình hồi quy như sau:

HAILONG = -0.9573228 + 0.1577172 * TINCAY + 0.1859064 * DAPUNG + 0.2044715 * DAMBAO + 0.3033652 *CAMTHONG + 0.2165845 * HUUHINH + 0.2225405 *MINHBACH

Giải thích ý nghĩa hệ số hồi quy. Khi các điều kiện khác không đổi, khi biến TINCAY tăng 1 đơn vị thì biến HAILONG tăng 0.1577172 đơn vị. Tương tự giải thích cho các biến khác

Tiếp đến ta kiểm tra hiện tượng đa cộng tuyến bằng các vào menu Statistics > Linear models and related >Regression diagnostics > Specification tests, etc.

 

Tiếp đó chọn Variance Inflaction Factors for the independent variables (vif), sau đó nhấn OK

Kết quả cho thấy hệ số VIF đều bé hơn 2 nên kết luận không có hiện tượng đa cộng tuyến trong mô hình này.

Sau đây là video thực hành phân tích hồi quy tuyến tính đa biến sử dụng phần mềm Stata

Trên đây là Hướng dẫn thực hành cách phân tích hồi quy đa biến bằng phần mềm Stata

Các bạn khi chạy có vấn đề gì khó khăn cứ liên hệ nhóm hỗ trợ nhé.

Stata – Thực hành tính hệ số tương quan Pearson

Hôm nay nhóm MBA bàn về hệ số tương quan r trong Stata và cách thực hiện phân tích tương quan cho từng cặp biến trong Stata.

Lý Thuyết tương quan Pearson:

-Hệ số tương quan (r) là một chỉ số thống kê đo lường mối liên hệ tương quan giữa hai biến số, như giữa MỨC ĐỘ HÀI LÒNG (y) và TIỀN LƯƠNG (x).  Hệ số tương quan có giá trị từ -1 đến 1.  Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối.  Nếu giá trị của hệ số tương quan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ số tương quan là dương (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x tăng cao thì y cũng giảm theo.
-Có nhiều hệ số tương quan , hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r, được định nghĩa như sau

Cho hai biến số x và y  từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:

Trong phân tích áp dụng cho luận văn, kiểm định hệ số tương quan Pearson  dùng để kiểm tra mối liên hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. Nếu các biến độc lập với nhau có tương quan chặt thì phải lưu ý đến vấn đề đa cộng tuyến khi phân tích hồi quy (giả thuyết H0: hệ số tương quan bằng 0). Cụ thể cách chạy như sau:

Thực hành tính hệ số tương quan trong Stata

Vào menu Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Pairwise correlations

 

Bảng sau hiện ra:

 

Chọn các độc lập và phụ thuộc đưa vào ô Variales, đồng thời check vào ô Print Significance level for each entry, sau đó nhấn OK, kết quả phân tích tương quan như sau:

pwcorr TINCAY DAPUNG DAMBAO CAMTHONG HUUHINH MINHBACH HAILONG, sig

Giải thích ý nghĩa: ví dụ ta xem xét ô màu đỏ và màu xanh. Đó là giá trị tương quan giữa biến HAILONG và biến TINCAY.

– Ô màu đỏ giá trị là 0.5639 , đó là hệ số tương quan Pearson giữa biến HAILONG và TINCAY.

-Ô màu xanh: là mức ý nghĩa tương quan significant của kiểm định Pearson. Giả thuyết H0: hệ số tương quan bằng 0. Do đó nếu Sig. này bé hơn 5% ta có thể kết luận được là hai biến có tương quan với nhau. Hệ số tương quan càng lớn tương quan càng chặt. nếu Sig. này lớn hơn 5% thì hai biến không có tương quan với nhau.

-Vì một trong những điều kiện cần để phân tích hồi quy là biến độc lập phải có tương quan với biến phụ thuộc, nên nếu ở bước phân tích tương quan này biến độc lập không có tương quan với biến phụ thuộc thì ta loại biến độc lập này ra khỏi phân tích hồi quy.

-Kết quả phân tích tương quan Pearson cho thấy một số biến độc lập có sự tương quan với nhau(sig<5%). Do đó khi phân tích hồi quy cần phải chú ý đến vấn đề đa cộng tuyến. Các biến độc lập có tương quan với biến phụ thuộc và do đó sẽ được đưa vào mô hình để giải thích cho biến phụ thuộc.

Trên đây là các bước thực hành phân tích tương quan pearson bằng Stata, các bạn chạy ra có lỗi hoặc vướng mắc cần hỗ trợ cứ liên hệ nhóm MBA Hỗ Trợ Stata ĐH Bách Khoa Tp.HCM nhé.

Sau đây là video thực hành phân tích tính giá trị tương quan pearson bằng phần mềm Stata

Stata – Tính giá trị trung bình cộng đại diện cho nhân tố

Hôm nay nhóm Thạc Sĩ QTKD Đại Học Bách Khoa Tp.HCM giới thiệu đến các bạn các bước tính giá trị trung bình cộng đại diện cho nhân tố sau khi đã thực hiện việc chạy phân tích EFA bằng Stata. Việc tính toán này làm cơ sở cho việc chạy tương quan, hồi quy ở các bước tiếp theo.

Mục đích

Giá trị của nhân tố sẽ bằng giá trị trung bình cộng của các biến của nhân tố đó. Ví dụ 1 nhân tố có 4 câu với giá trị lần lượt là 1 2 3 4 thì giá trị đại diện cho nhân tố đó sẽ là (1+2+3+4)/4=2.5

Ở hình này, biến HAILONG đã được tạo thành từ trung bình cộng của 4 biến HAILONG1,HAILONG2,HAILONG3,HAILONG4. Nhóm sẽ  hướng dẫn các bạn làm được sử dụng phần mềm thống kê Stata nhé

 

 

Cách tính giá trị đại diện cho nhân tố bằng cách trung bình cộng theo hàng sử dụng Stata

Đầu tiên, các bạn vào menu   Data > Create or change data > Create new variable (extended)

Bảng này xuất hiện:

– Ô Generate Variable: nhập vào tên biến mới sẽ được tạo ra

– Mục Egen Fucntion: chọn Row mean

– Ô Egen function argument Variables: nhập vào các biến cần tính trung bình cộng, cách nhau bởi khoảng trắng

Sau đó nhấn OK, như vậy giá trị trung bình cộng đại diện cho nhân tố đã được tính như trên hình đầu tiên.

Sau đây là video thực hành phân tích tính trung bình cộng rowmean bằng phần mềm Stata

Trên đây là cách tính giá trị trung bình cộng đại diện cho nhân tố.

Liên hệ nhóm ở đây ngay  http://phantichstata.com/lien-he-gioi-thieu để được:
– Xử lý/ hiệu chỉnh số liệu khảo sát để chạy ra kết quả phân tích nhân tố hội tụ,phân tích hồi quy hồi quy có ý nghĩa thống kê.
– Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong Stata

Cách phân tích nhân tố khám phá EFA bằng Stata (thực hành+đọc kết quả)

Nhóm Thạc Sỹ QTKD ĐH Bách Khoa HCM giới thiệu Cách phân tích nhân tố khám phá EFA bằng Stata (thực hành+đọc kết quả)

Lý thuyết

Trước khi kiểm định lý thuyết khoa học thì cần phải đánh giá độ tin cậy và giá trị của thang đo. Phương pháp Cronbach Alpha dùng để đánh giá độ tin cậy của thang đo. Còn phương pháp phân tích nhân tố khám phá EFA (Exploratory Factor Analysis, gọi tắt là phương pháp EFA) giúp chúng ta đánh giá hai loại giá trị quan trọng của thang đo là giá trị hội tụ và giá trị phân biệt.

Phương pháp phân tích nhân tố EFA thuộc nhóm phân tích đa biến phụ thuộc lẫn nhau (interdependence techniques), nghĩa là không có biến phụ thuộc và biến độc lập mà nó dựa vào mối tương quan giữa các biến với nhau (interrelationships). EFA dùng để rút gọn một tập k biến quan sát thành một tập F (F<k) các nhân tố có ý nghĩa hơn. Cơ sở của việc rút gọn này dựa vào mối quan hệ tuyến tính của các nhân tố với các biến nguyên thủy (biến quan sát).
Các tác giả Mayers, L.S., Gamst, G., Guarino A.J. (2000) đề cập rằng: Trong phân tích nhân tố, phương pháp trích Pricipal Components Analysis đi cùng với phép xoay Varimax là cách thức được sử dụng phổ biến nhất.
Theo Hair & ctg (1998, 111), Factor loading (hệ số tải nhân tố hay trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA:
• Factor loading > 0.3 được xem là đạt mức tối thiểu
• Factor loading > 0.4 được xem là quan trọng
• Factor loading > 0.5 được xem là có ý nghĩa thực tiễn
Điều kiện để phân tích nhân tố khám phá là phải thỏa mãn các yêu cầu:
         Hệ số tải nhân tố (Factor loading ) > 0.5
        0.5 ≤ KMO ≤ 1: Hệ số KMO (Kaiser-Meyer-Olkin) là chỉ số được dùng để xem xét sự thích hợp của phân tích nhân tố. Trị số KMO lớn có ý nghĩa phân tích nhân tố là thích hợp.
         Kiểm định Bartlett có ý nghĩa thống kê (Sig. < 0.05): Đây là một đại lượng thống kê dùng để xem xét giả thuyết các biến không có tương quan trong tổng thể. Nếu kiểm định này có ý nghĩa thống kê (Sig. < 0.05) thì các biến quan sát có mối tương quan với nhau trong tổng thể.
          Phần trăm phương sai toàn bộ (Percentage of variance) > 50%: Thể hiện phần trăm biến thiên của các biến quan sát. Nghĩa là xem biến thiên là 100% thì giá trị này cho biết phân tích nhân tố giải thích được bao nhiêu %.

Thực hành chạy phân tích EFA trong Stata

Đầu tiên, các bạn đưa bật Stata lên, đưa file dữ liệu vào và vào menu này để bật lên màn hình phân tích nhân tố: Statistics > Multivariate analysis > Factor and principal component analysis > Factor analysis

Ở đây ta có 6 nhân tố cần đưa vào phân tích EFA với các biến như sau: TINCAY1 TINCAY2 TINCAY3 TINCAY4 DAPUNG1 DAPUNG2 DAPUNG3 DAPUNG4 DAPUNG5 DAPUNG6 DAMBAO1 DAMBAO2 DAMBAO3 DAMBAO4 CAMTHONG1 CAMTHONG2 CAMTHONG3 HUUHINH1 HUUHINH2 HUUHINH3 MINHBACH1 MINHBACH2 MINHBACH3 MINHBACH4

Ta đưa  hết các biến này vào ô variables như trong hình.

Tiếp tục nhấn vào tab model 2 để chọn loại phân tích Principal-Component Factor,đồng thời chọn mục Minimum Value of Eigenvalues to be retained, gõ vào số 1

Điều này có nghĩa là nhân tố nào có eigenvalue lớn hơn 1 mới được giữ lại, sau đó nhấn OK, kết quả ra như sau:

Đọc kết quả

Cột Eigenvalues , dòng thứ 6 màu xanh là giá trị Eigenvalues bé nhất mà lớn hơn 1,có nghĩa là có 6 nhân tố được tạo ra( do ngưỡng Eigenvalues  >1)

Cột Cumulative dòng thứ 6, ô màu đỏ giá trị là  0.7246, đó là giá trị tổng phương sai trích,ý nghĩalà 6 nhân tố này này giải thích 72.46% biến thiên của dữ liệu.

Tiếp theo ta sẽ tìm ma trận xoay để xem 6 nhân tố này, mỗi nhân tố gồm những câu hỏi nào nhé. Nhấn vào menu sau: Statistics > Multivariate analysis > Factor and principal component analysis > Postestimation > Rotate loadings,chọn varimax( default) và check vào Apply Kaiser normalization như hình dưới

Tiếp theo nhấn vào tab report , chọn Display loading as blank when |loading|< #, nhập vào giá trị 0.3, mục đích là trong bảng ma trận xoay không hiện thị các fatorloading bé hơn 0.3 để dễ nhìn.

Sau đó nhấn OK, sẽ ra được ma trận xoay với hệ số tải như sau

Để hiển thị chỉ số KMO, dùng lệnh "estat kmo, novar" khi đó màn hình hiện ra chỉ số KMO như sau:

Kaiser-Meyer-Olkin measure of sampling adequacy (overall) =  0.8114

Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.8114> 0.5, điều này chứng tỏ dữ liệu dùng để phân tích nhân tố là hoàn toàn thích hợp.

Ngoài ra còn một kiểm định nữa là kiểm định Bartlett's Test of Sphericity, để thực hiện ta dùng lệnh factortest sau:

 factortest TINCAY1 TINCAY2 TINCAY3 TINCAY4 DAPUNG1 DAPUNG2 DAPUNG3 DAPUNG4 DAPUNG5 DAPUNG6 DAMBAO1 DAMBAO2 DAMBAO3
> DAMBAO4 CAMTHONG1 CAMTHONG2 CAMTHONG3 HUUHINH1 HUUHINH2 HUUHINH3 MINHBACH1 MINHBACH2 MINHBACH3 MINHBACH4
 (Lưu ý cần cài thêm gói factortest nhé)  

Kết quả hiển thị
Determinant of the correlation matrix
Det                =     0.000
 
Bartlett test of sphericity
 
Chi-square         =          3219.986
Degrees of freedom =               276
p-value            =             0.000
H0: variables are not intercorrelated
 
Kaiser-Meyer-Olkin Measure of Sampling Adequacy
KMO               =     0.811
Kết quả kiểm định Barlett’s là 3219.986 với mức ý nghĩa (p_value) sig = 0.000 < 0.05,( bác bỏ giả thuyết H0: các biến quan sát không có tương quan với nhau trong tổng thể) như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị bác bỏ, tức là các biến có tương quan với nhau và thỏa điều kiện phân tích nhân tố.

Sau đây là video thực hành phân tích chạy EFA và đọc kết quả phân tích nhân tố với phần mềm Stata

 Như vậy, nhóm vừa giới thiệu đến các bạn cách chạy EFA và đọc kết quả với phần mềm Stata. Nếu các bạn chạy ra kết quả xấu, hoặc chưa biết rõ nội dung ý nghĩa, cần khảo sát chỉnh sửa số liệu nghiên cứu , các bạn liên hệ nhóm ở đây nhé http://phantichstata.com/lien-he-gioi-thieu

Liên hệ nhóm ở đây ngay  http://phantichstata.com/lien-he-gioi-thieu để được:
– Xử lý/ hiệu chỉnh số liệu khảo sát để chạy ra kết quả phân tích nhân tố hội tụ,phân tích hồi quy hồi quy có ý nghĩa thống kê.
– Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong Stata