Category Archives: Stata

Mô hình sai số chuẩn mạnh (Robust Standard errors) là gì, sử dụng ra sao

Vấn đề

Khi chạy mô hình gặp hiện tượng phương sai sai số thay đổi, chúng ta cần dùng phương pháp này để cải thiện mô hình cho tốt hơn.

Định nghĩa

Mô hình sai số chuẩn mạnh (Robust Standard errors) , hay còn gọi là Ước lượng sai số chuẩn vững
Nhắc lại rằng khi mô hình có hiện tượng phương sai sai số thay đổi, các ước lượng OLS cho các hệ số vẫn là ước lượng không chệch, chỉ có phương sai của các hệ số ước lượng và hiệp phương sai giữa các hệ số ước lượng thu được bằng phương pháp OLS là chệch. Từ đó White (1980) đề xuất phương pháp  sai số chuẩn vững  (robust standard error) với tư tưởng như sau: vẫn sử dụng các hệ số ước lượng từ phương pháp OLS, tuy nhiên phương sai các hệ số ước lượng thì được tính toán lại mà không sử dụng đến giả thiết phương sai sai số không đổi.  Ước lượng mô hình sai số chuẩn mạnh sẽ cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự hiện diện của hiện tượng phương sai thay đổi (heteroskedasticity).
Cách thực hiện trong Stata

– Giả sử có 1 biến phụ thuộc và 3 biến độc lập, ta chạy hồi quy FE thường cú pháp như sau

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,fe

– Hồi quy với theo phương trình mô hình sai số chuẩn mạnh (Robust Standard errors): thêm chữ robust vào câu lệnh hồi quy.
xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,robust fe

 

Dữ liệu bảng Panel Data là gì

Định nghĩa dữ liệu bảng panel data

 

Nhóm Hỗ Trợ Stata giúp các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Chuỗi thời gian ở đây là 4 năm 2014 2015 2016 2017. Dữ liệu chéo ở đây là tên 3 quốc gia : VietNam ThaiLand Malaysia. Như vậy bảng này có 3×4=12 dòng quan sát. Đây là định nghĩa đơn giản ngắn gọn dễ hiểu nhất về dữ liệu bảng panel data. ( lưu ý số liệu GDP, Population chỉ là minh họa cho dữ liệu bảng, chưa chính xác). Nói ngắn gọn, dữ liệu bảng có qui mô về thời gian lẫn không gian.

Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc (longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng), phân tích lịch sử sự kiện (thí dụ, nghiên cứu sự thay đổi theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được tiếp diễn theo thời gian), phân tích theo tổ (cohort analysis). Mặc dù có những sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là các mô hình hồi quy dữ liệu bảng.

 Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ liệu chuỗi thời gian
  1. Bởi vì dữ liệu bảng liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và quốc gia.
  2. Bằng cách kết hợp chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.”
  3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng.
  4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu của liên bang và/hoặc tiểu bang.
  5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian.
 6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
  Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

Cách xử lý dữ liệu bảng

Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM) hay mô hình các thành phần sai số (ECM).

 Trong FEM, tung độ gốc trong mô hình hồi quy được phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả được gọi là mô hình biến giả bình phương nhỏ nhất (Least Square Dummy Variables  – LSDV). FEM thích hợp trong những tình huống mà tung độ gốc chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả (nhưng kìm hãm số hạng tung độ gốc chung).
  Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.
Lựa chọn mô hình

Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0: fixed effects =0 ), sau đó mới dùng kiểm định Hausman so sánh  để chọn FEM và REM. 

Trên đây đã giới thiệu căn bản về data panel  các bạn cần hỗ trợ giải đáp thắc mắc cứ liên hệ nhóm tại đây nhé. http://phantichstata.com/lien-he-gioi-thieu

File hướng dẫn chương trình kinh tế FullBright: MPP03-521-R22V-2012-02-10-10300799.pdf

 

Stata – Hướng dẫn thực hành cách phân tích hồi quy tuyến tính đa biến

Nhóm MBA Đại Học Bách Khoa Hỗ Trợ Stata hotrostata@gmail.com giới thiệu cách thực hiện phân tích hồi quy tuyến tính đa biến bằng phần mềm Stata, cùng cách đọc và phân tích ý nghĩa của kết quả hiển thị, đồng thời kiểm định luôn xem các biến có bị đa cộng tuyến hay không.

Đầu tiên các bạn vào menu Statistics > Linear models and related > Linear regression

Sau đó đưa biến phụ thuộc vào ô Dependent Variable, biến độc lập vào ô Independent Variables ( các biến độc lập cách nhau bởi khoảng trắng, lưu ý chỉ có 1 biến phụ thuộc thôi nhé)

Nhấn tiếp vào tab Reporting, tick vào ô Standardized beta coefficients để hiển thị hệ số hồi quy chuẩn hóa trong phần kết quả hồi quy.

Sau đó nhấn OK, lúc đó kết quả hồi quy sẽ thể hiện như sau:

 

 

Giải thích ý nghĩa:

 Number of obs =     222  Số quan sát là 222 mẫu
 F(  6,   215) =   72.12 Giá trị kiểm định F 6 nhân tố và 215 bậc tự do
 Prob > F      =  0.0000 Mức ý nghĩa của kiểm định F, ở đây bé hơn 5% chứng tỏ R bình phương của tổng thể khác 0. Nói cách khác là các hệ số hồi quy của phương trình hồi quy tổng thể không đồng thời bằng 0
 R-squared     =  0.6681 R bình phương
 Adj R-squared =  0.6588 R bình phương hiệu chỉnh, nghĩa là các biến độc lập giải thích được 65.88% biến thiên của biến phụ thuộc( chuẩn là R2>50%)
 Root MSE      =  .43288

Coef.   : cột này là giá trị hệ số hồi quy chưa chuẩn hóa

Std. Err.   Sai số chuẩn

P>|t|  p-value, nếu giá trị này bé hơn 5%( 0.05) thì mối quan hệ giữa biến độc lập này và biến phụ thuộc có ý nghĩa thống kê.

Beta: là hệ số hồi quy đã chuẩn hóa.

Từ đây có thể viết phương trình hồi quy như sau:

HAILONG = -0.9573228 + 0.1577172 * TINCAY + 0.1859064 * DAPUNG + 0.2044715 * DAMBAO + 0.3033652 *CAMTHONG + 0.2165845 * HUUHINH + 0.2225405 *MINHBACH

Giải thích ý nghĩa hệ số hồi quy. Khi các điều kiện khác không đổi, khi biến TINCAY tăng 1 đơn vị thì biến HAILONG tăng 0.1577172 đơn vị. Tương tự giải thích cho các biến khác

Tiếp đến ta kiểm tra hiện tượng đa cộng tuyến bằng các vào menu Statistics > Linear models and related >Regression diagnostics > Specification tests, etc.

 

Tiếp đó chọn Variance Inflaction Factors for the independent variables (vif), sau đó nhấn OK

Kết quả cho thấy hệ số VIF đều bé hơn 2 nên kết luận không có hiện tượng đa cộng tuyến trong mô hình này.

Sau đây là video thực hành phân tích hồi quy tuyến tính đa biến sử dụng phần mềm Stata

Trên đây là Hướng dẫn thực hành cách phân tích hồi quy đa biến bằng phần mềm Stata

Các bạn khi chạy có vấn đề gì khó khăn cứ liên hệ nhóm hỗ trợ nhé.

Stata – Thực hành tính hệ số tương quan Pearson

Hôm nay nhóm MBA bàn về hệ số tương quan r trong Stata và cách thực hiện phân tích tương quan cho từng cặp biến trong Stata.

Lý Thuyết tương quan Pearson:

-Hệ số tương quan (r) là một chỉ số thống kê đo lường mối liên hệ tương quan giữa hai biến số, như giữa MỨC ĐỘ HÀI LÒNG (y) và TIỀN LƯƠNG (x).  Hệ số tương quan có giá trị từ -1 đến 1.  Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối.  Nếu giá trị của hệ số tương quan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ số tương quan là dương (r > 0) có nghĩa là khi x tăng cao thì y cũng tăng, và khi x tăng cao thì y cũng giảm theo.
-Có nhiều hệ số tương quan , hệ số tương quan thông dụng nhất: hệ số tương quan Pearson r, được định nghĩa như sau

Cho hai biến số x và y  từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:

Trong phân tích áp dụng cho luận văn, kiểm định hệ số tương quan Pearson  dùng để kiểm tra mối liên hệ tuyến tính giữa các biến độc lập và biến phụ thuộc. Nếu các biến độc lập với nhau có tương quan chặt thì phải lưu ý đến vấn đề đa cộng tuyến khi phân tích hồi quy (giả thuyết H0: hệ số tương quan bằng 0). Cụ thể cách chạy như sau:

Thực hành tính hệ số tương quan trong Stata

Vào menu Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Pairwise correlations

 

Bảng sau hiện ra:

 

Chọn các độc lập và phụ thuộc đưa vào ô Variales, đồng thời check vào ô Print Significance level for each entry, sau đó nhấn OK, kết quả phân tích tương quan như sau:

pwcorr TINCAY DAPUNG DAMBAO CAMTHONG HUUHINH MINHBACH HAILONG, sig

Giải thích ý nghĩa: ví dụ ta xem xét ô màu đỏ và màu xanh. Đó là giá trị tương quan giữa biến HAILONG và biến TINCAY.

– Ô màu đỏ giá trị là 0.5639 , đó là hệ số tương quan Pearson giữa biến HAILONG và TINCAY.

-Ô màu xanh: là mức ý nghĩa tương quan significant của kiểm định Pearson. Giả thuyết H0: hệ số tương quan bằng 0. Do đó nếu Sig. này bé hơn 5% ta có thể kết luận được là hai biến có tương quan với nhau. Hệ số tương quan càng lớn tương quan càng chặt. nếu Sig. này lớn hơn 5% thì hai biến không có tương quan với nhau.

-Vì một trong những điều kiện cần để phân tích hồi quy là biến độc lập phải có tương quan với biến phụ thuộc, nên nếu ở bước phân tích tương quan này biến độc lập không có tương quan với biến phụ thuộc thì ta loại biến độc lập này ra khỏi phân tích hồi quy.

-Kết quả phân tích tương quan Pearson cho thấy một số biến độc lập có sự tương quan với nhau(sig<5%). Do đó khi phân tích hồi quy cần phải chú ý đến vấn đề đa cộng tuyến. Các biến độc lập có tương quan với biến phụ thuộc và do đó sẽ được đưa vào mô hình để giải thích cho biến phụ thuộc.

Trên đây là các bước thực hành phân tích tương quan pearson bằng Stata, các bạn chạy ra có lỗi hoặc vướng mắc cần hỗ trợ cứ liên hệ nhóm MBA Hỗ Trợ Stata ĐH Bách Khoa Tp.HCM nhé.

Sau đây là video thực hành phân tích tính giá trị tương quan pearson bằng phần mềm Stata

Stata – Tính giá trị trung bình cộng đại diện cho nhân tố

Hôm nay nhóm Thạc Sĩ QTKD Đại Học Bách Khoa Tp.HCM giới thiệu đến các bạn các bước tính giá trị trung bình cộng đại diện cho nhân tố sau khi đã thực hiện việc chạy phân tích EFA bằng Stata. Việc tính toán này làm cơ sở cho việc chạy tương quan, hồi quy ở các bước tiếp theo.

Mục đích

Giá trị của nhân tố sẽ bằng giá trị trung bình cộng của các biến của nhân tố đó. Ví dụ 1 nhân tố có 4 câu với giá trị lần lượt là 1 2 3 4 thì giá trị đại diện cho nhân tố đó sẽ là (1+2+3+4)/4=2.5

Ở hình này, biến HAILONG đã được tạo thành từ trung bình cộng của 4 biến HAILONG1,HAILONG2,HAILONG3,HAILONG4. Nhóm sẽ  hướng dẫn các bạn làm được sử dụng phần mềm thống kê Stata nhé

 

 

Cách tính giá trị đại diện cho nhân tố bằng cách trung bình cộng theo hàng sử dụng Stata

Đầu tiên, các bạn vào menu   Data > Create or change data > Create new variable (extended)

Bảng này xuất hiện:

– Ô Generate Variable: nhập vào tên biến mới sẽ được tạo ra

– Mục Egen Fucntion: chọn Row mean

– Ô Egen function argument Variables: nhập vào các biến cần tính trung bình cộng, cách nhau bởi khoảng trắng

Sau đó nhấn OK, như vậy giá trị trung bình cộng đại diện cho nhân tố đã được tính như trên hình đầu tiên.

Sau đây là video thực hành phân tích tính trung bình cộng rowmean bằng phần mềm Stata

Trên đây là cách tính giá trị trung bình cộng đại diện cho nhân tố.

Liên hệ nhóm ở đây ngay  http://phantichstata.com/lien-he-gioi-thieu để được:
– Xử lý/ hiệu chỉnh số liệu khảo sát để chạy ra kết quả phân tích nhân tố hội tụ,phân tích hồi quy hồi quy có ý nghĩa thống kê.
– Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong Stata

Cách phân tích nhân tố khám phá EFA bằng Stata (thực hành+đọc kết quả)

Nhóm Thạc Sỹ QTKD ĐH Bách Khoa HCM giới thiệu Cách phân tích nhân tố khám phá EFA bằng Stata (thực hành+đọc kết quả)

Lý thuyết

Trước khi kiểm định lý thuyết khoa học thì cần phải đánh giá độ tin cậy và giá trị của thang đo. Phương pháp Cronbach Alpha dùng để đánh giá độ tin cậy của thang đo. Còn phương pháp phân tích nhân tố khám phá EFA (Exploratory Factor Analysis, gọi tắt là phương pháp EFA) giúp chúng ta đánh giá hai loại giá trị quan trọng của thang đo là giá trị hội tụ và giá trị phân biệt.

Phương pháp phân tích nhân tố EFA thuộc nhóm phân tích đa biến phụ thuộc lẫn nhau (interdependence techniques), nghĩa là không có biến phụ thuộc và biến độc lập mà nó dựa vào mối tương quan giữa các biến với nhau (interrelationships). EFA dùng để rút gọn một tập k biến quan sát thành một tập F (F<k) các nhân tố có ý nghĩa hơn. Cơ sở của việc rút gọn này dựa vào mối quan hệ tuyến tính của các nhân tố với các biến nguyên thủy (biến quan sát).
Các tác giả Mayers, L.S., Gamst, G., Guarino A.J. (2000) đề cập rằng: Trong phân tích nhân tố, phương pháp trích Pricipal Components Analysis đi cùng với phép xoay Varimax là cách thức được sử dụng phổ biến nhất.
Theo Hair & ctg (1998, 111), Factor loading (hệ số tải nhân tố hay trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA:
• Factor loading > 0.3 được xem là đạt mức tối thiểu
• Factor loading > 0.4 được xem là quan trọng
• Factor loading > 0.5 được xem là có ý nghĩa thực tiễn
Điều kiện để phân tích nhân tố khám phá là phải thỏa mãn các yêu cầu:
         Hệ số tải nhân tố (Factor loading ) > 0.5
        0.5 ≤ KMO ≤ 1: Hệ số KMO (Kaiser-Meyer-Olkin) là chỉ số được dùng để xem xét sự thích hợp của phân tích nhân tố. Trị số KMO lớn có ý nghĩa phân tích nhân tố là thích hợp.
         Kiểm định Bartlett có ý nghĩa thống kê (Sig. < 0.05): Đây là một đại lượng thống kê dùng để xem xét giả thuyết các biến không có tương quan trong tổng thể. Nếu kiểm định này có ý nghĩa thống kê (Sig. < 0.05) thì các biến quan sát có mối tương quan với nhau trong tổng thể.
          Phần trăm phương sai toàn bộ (Percentage of variance) > 50%: Thể hiện phần trăm biến thiên của các biến quan sát. Nghĩa là xem biến thiên là 100% thì giá trị này cho biết phân tích nhân tố giải thích được bao nhiêu %.

Thực hành chạy phân tích EFA trong Stata

Đầu tiên, các bạn đưa bật Stata lên, đưa file dữ liệu vào và vào menu này để bật lên màn hình phân tích nhân tố: Statistics > Multivariate analysis > Factor and principal component analysis > Factor analysis

Ở đây ta có 6 nhân tố cần đưa vào phân tích EFA với các biến như sau: TINCAY1 TINCAY2 TINCAY3 TINCAY4 DAPUNG1 DAPUNG2 DAPUNG3 DAPUNG4 DAPUNG5 DAPUNG6 DAMBAO1 DAMBAO2 DAMBAO3 DAMBAO4 CAMTHONG1 CAMTHONG2 CAMTHONG3 HUUHINH1 HUUHINH2 HUUHINH3 MINHBACH1 MINHBACH2 MINHBACH3 MINHBACH4

Ta đưa  hết các biến này vào ô variables như trong hình.

Tiếp tục nhấn vào tab model 2 để chọn loại phân tích Principal-Component Factor,đồng thời chọn mục Minimum Value of Eigenvalues to be retained, gõ vào số 1

Điều này có nghĩa là nhân tố nào có eigenvalue lớn hơn 1 mới được giữ lại, sau đó nhấn OK, kết quả ra như sau:

Đọc kết quả

Cột Eigenvalues , dòng thứ 6 màu xanh là giá trị Eigenvalues bé nhất mà lớn hơn 1,có nghĩa là có 6 nhân tố được tạo ra( do ngưỡng Eigenvalues  >1)

Cột Cumulative dòng thứ 6, ô màu đỏ giá trị là  0.7246, đó là giá trị tổng phương sai trích,ý nghĩalà 6 nhân tố này này giải thích 72.46% biến thiên của dữ liệu.

Tiếp theo ta sẽ tìm ma trận xoay để xem 6 nhân tố này, mỗi nhân tố gồm những câu hỏi nào nhé. Nhấn vào menu sau: Statistics > Multivariate analysis > Factor and principal component analysis > Postestimation > Rotate loadings,chọn varimax( default) và check vào Apply Kaiser normalization như hình dưới

Tiếp theo nhấn vào tab report , chọn Display loading as blank when |loading|< #, nhập vào giá trị 0.3, mục đích là trong bảng ma trận xoay không hiện thị các fatorloading bé hơn 0.3 để dễ nhìn.

Sau đó nhấn OK, sẽ ra được ma trận xoay với hệ số tải như sau

Để hiển thị chỉ số KMO, dùng lệnh "estat kmo, novar" khi đó màn hình hiện ra chỉ số KMO như sau:

Kaiser-Meyer-Olkin measure of sampling adequacy (overall) =  0.8114

Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.8114> 0.5, điều này chứng tỏ dữ liệu dùng để phân tích nhân tố là hoàn toàn thích hợp.

Ngoài ra còn một kiểm định nữa là kiểm định Bartlett's Test of Sphericity, để thực hiện ta dùng lệnh factortest sau:

 factortest TINCAY1 TINCAY2 TINCAY3 TINCAY4 DAPUNG1 DAPUNG2 DAPUNG3 DAPUNG4 DAPUNG5 DAPUNG6 DAMBAO1 DAMBAO2 DAMBAO3
> DAMBAO4 CAMTHONG1 CAMTHONG2 CAMTHONG3 HUUHINH1 HUUHINH2 HUUHINH3 MINHBACH1 MINHBACH2 MINHBACH3 MINHBACH4
 (Lưu ý cần cài thêm gói factortest nhé)  

Kết quả hiển thị
Determinant of the correlation matrix
Det                =     0.000
 
Bartlett test of sphericity
 
Chi-square         =          3219.986
Degrees of freedom =               276
p-value            =             0.000
H0: variables are not intercorrelated
 
Kaiser-Meyer-Olkin Measure of Sampling Adequacy
KMO               =     0.811
Kết quả kiểm định Barlett’s là 3219.986 với mức ý nghĩa (p_value) sig = 0.000 < 0.05,( bác bỏ giả thuyết H0: các biến quan sát không có tương quan với nhau trong tổng thể) như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị bác bỏ, tức là các biến có tương quan với nhau và thỏa điều kiện phân tích nhân tố.

Sau đây là video thực hành phân tích chạy EFA và đọc kết quả phân tích nhân tố với phần mềm Stata

 Như vậy, nhóm vừa giới thiệu đến các bạn cách chạy EFA và đọc kết quả với phần mềm Stata. Nếu các bạn chạy ra kết quả xấu, hoặc chưa biết rõ nội dung ý nghĩa, cần khảo sát chỉnh sửa số liệu nghiên cứu , các bạn liên hệ nhóm ở đây nhé http://phantichstata.com/lien-he-gioi-thieu

Liên hệ nhóm ở đây ngay  http://phantichstata.com/lien-he-gioi-thieu để được:
– Xử lý/ hiệu chỉnh số liệu khảo sát để chạy ra kết quả phân tích nhân tố hội tụ,phân tích hồi quy hồi quy có ý nghĩa thống kê.
– Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong Stata

Cách phân tích độ tin cậy Cronbach’s Alpha bằng phần mềm Stata

Nhóm MBA hotroStata@gmail.com giới thiệu bài viết về phân tích độ tin cậy bằng phần mềm Stata. Bài viết này tập trung vào giới thiệu phần lý thuyết và thực hành cách phân tích độ tin cậy cronbach's alpha bằng phần mềm Stata. Lưu ý là để chạy được, phải có tối thiểu hai biến được đưa vào.

Lý thuyết phân tích cronbach's alpha

Các bạn xem ở đây http://phantichspss.com/phan-tich-do-tin-cay-cronbachs-alpha.html. Các bạn sẽ được xem các khái niệm cơ bản về cronbach's alpha ở đó.

Thực hành cách phân tích cronbach's alpha trên phần mềm Stata

Giả sử thang đo ĐỘ TIN CẬY có 4 biến mã hóa là  TINCAY1 TINCAY2 TINCAY3 TINCAY4, giờ ta cần tính độ tin cậy của thang đo này.

Các bạn nhấn vào menu Statistics > Multivariate analysis > Cronbach's alpha

Chọn đưa 4 biến vào ô Variables.

Sau đó nhấn tab Option như chỗ màu đỏ trong hình.

Chọn Display item-test and item-rest correlation như bên dưới

Sau đó nhấn OK, kết quả ra như sau:

Nhìn vào kết quả này phân tích như sau

Cronbach’s Alpha của thang đo là 0.9111 > 0.7 . các hệ số tương quan biến tổng của các biến quan sát trong thang đo(cột item-rest correlation)đều lớn hơn 0.4 . Không có trường hợp loại bỏ biến quan sát nào(cột alpha) có thể làm cho Cronbach’s Alpha của thang đo này lớn hơn 0.9111. Vì vậy, tất cả các biến quan sát đều được chấp nhận và sẽ được sử dụng trong phân tích nhân tố tiếp theo.

Một số trường hợp dữ liệu xấu cần loại bỏ biến. Các bạn xem thêm cách loại bỏ biến khi chạy cronbach's alpha tại đây: http://phantichspss.com/quy-tac-loai-bien-khi-phan-tich-cronbachs-alpha.html

Sau đây là video thực hành phân tích độ tin cậy Cronbach's Alpha trong Stata

Như vậy, nhóm đã giới thiệu cách phân tích độ tin cậy bằng phần mềm Stata. Các bạn có cần hỗ trợ xử lý các vấn đề liên quan đến stata thì liên hệ nhóm nhé http://phantichstata.com/lien-he-gioi-thieu

Cách tìm giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn trong Stata

Thống kê này còn gọi là thống kê mô tả, mục đích là mô tả mẫu, xem các giá trị lớn nhất là bao nhiêu, nhỏ nhất là bao nhiêu. Từ đó để đưa ra nhận xét về biến, xem trung bình cao hay thấp để đánh giá được mức độ tác động của biến đó. Dưới đây là hướng dẫn làm thống kê mô tả trong stata

Ví dụ ta chạy Stata để mô tả hai biến TINCAY1 TINCAY2, kết quả như sau:

. summarize TINCAY1 TINCAY2
Variable Obs Mean
Std. Dev.
Min Max  
     
TINCAY1 222 3.486486 1.144452 1 5
TINCAY2 222 3.788288 1.123685 1 5

Diễn giải kết quả như sau:

  • Variable: Tên biến
  • Obs: số lượng quan sát
  • Mean: Trung bình cộng
  • Std. Dev. : Độ lệch chuẩn Standard Deviation
  • Min: Giá trị bé nhất của mẫu
  • Max: Giá trị lớn nhất của mẫu

Cách thực hiện tìm giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn bằng Stata

Vào menu Statistics -> Summaries,tables, and tests -> Summary and descriptive statistics -> Summary Statistics.

 

Màn hình sau hiện ra

Bấm chọn các biến cần thống kê đưa vào ô Variables, hoặc để trống để chạy thống kê mô tả cho tất cả các biến. Sau đó bấm OK.

Như vậy là việc thực hiện thống kê hiển thị giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn trong Stata đã hoàn thành.

Sau đây là video thực hành trực tiếp  thống kê mô tả, hiển thị giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn trong Stata

 

 

Cách thực hiện thống kê tần số trong Stata

Giới thiệu thống kê tần số tabulation trong Stata

Thống kê tần suất xuất hiện của các biến định tính, ví dụ: giới tính, trình độ, tuổi tác, học vấn, nghề nghiệp, thu nhập…Thống kê tần số để xác định số lần xuất hiện của một giá trị cụ thể trong tổng thể. . Thống kê dùng phần mềm Stata. Thuật ngữ trong stata gọi là One-way table of frequencies hoặc tabulate oneway

Cách thực hiện thống kê tần số  trong Stata bằng hình ảnh

Giả sử ta có bảng số liệu như sau:

 

Cần thống kê tần số cho thuộc tính giới tính, với dữ liệu đã được mã hóa là 1 và 2. Ứng với 1 là Nam, 2 là Nữ

Bật Stata lên, đưa file dữ liệu vào, sau đó vào  Menu Statistics-> Summaries, tables, and test -> Frequency Tables -> One-way table

 

Đưa biến định tính cần thống kê tần suất vào ô Categorical Variable (có thể đưa vào 2 biến 1 lúc, tuy nhiên kết quả lúc đó sẽ ra bảng chéo tabulation)

 

Nhấn nút Ok, kết quả sẽ ra như sau:

 

Tuy nhiên,bảng này nhìn vào các giá trị Nam/Nữ được gán là 1,2 không đẹp lắm. Do đó ta cần gán nhãn label cho các giá trị 1 và 2 ứng với Nam/Nữ. Để hiện thị ra bảng kết quả có Nam, Nữ luôn thay vì 1,2

Cách làm gán nhãn label như sau:

 Vào menu Data-Variable Manager.

 

Nhấn tiếp vào nút Manage, màn hình sau hiện ra:

 

Bấm Create label, nhập vào các giá trị như trong hình và bấm OK

 

Khi đó, chạy lại thống kê tần số tabulation, sẽ ra được kết quả dễ hiểu như sau:

 

Phân tích kết quả:

Kết quả cho thấy tần số, phần trăm của từng nhóm giới tính trong mẫu như bảng trên. Có 195 người trong đó có 99 Nam và 96 nữ. Tỉ lệ Nam chiếm 50.77%, tỉ lệ nữ chiếm 49.23%

Trên đây là cách chạy tần số với Stata, bạn liên hệ nhóm Thạc Sĩ QTKD ĐH Bách Khoa tại http://phantichstata.com/lien-he-gioi-thieu để được hướng dẫn khi bạn cần bất cứ khó khăn nào khi xử lý dữ liệu với stata nhé.

Sau đây là video thực hành trực tiếp phân tích tần số tabulation trong Stata:

Cách cài đặt phần mềm Stata 13

Hôm nay nhóm MBA Bách Khoa giới thiệu đến các bạn cách cài đặt phần mềm Stata phiên bản 13. Phần mềm này rất mạnh trong xử lý thống kê.

Tải phần mềm

Đầu tiên các bạn download phần mềm ở đây ( lưu ý password giải nén là phantichstata.com): http://www.mediafire.com/file/zi3p75h48eaa949/Stata_v13.zip

Cách cài đặt Stata

 

Nhấn vào file  Stata 13.msi để tiến hành cài đặt.

 

Nhấn tiếp nút Next để tiến hành cài đặt Stata

Nhập tên người dùng.

Chọn phiên bản 64-bit SE để cài đặt bản đầy đủ nhất.

Tiếp tục nhấn Next vài cái nữa, sẽ ra được màn hình cài đặt như sau.

Sau khi cài xong, ấn Finish

 

Cách bẻ khóa crack Stata


Sau đó, tắt mạng, bật Stata lên, nhập vào 5 giá trị sau để crack chương trình Stata( hai giá trị đầu tùy chọn, nhập gì cũng được nhưng bắc buộc phải nhập)

(muốn bật Stata thì đó là file StataSE-64.exe nằm trong thư mục "c:\Program Files (x86)\Stata13\.." hoặc "c:\Program Files\Stata13\.." )

Name: phantichstata.com

Organization: phantichstata.com

serial: 501306208483
code:0sdx gs$$ xvsm gb4u k5sb w4ep sw3p
authorisation: pkf9

 

Nhấn Next, phần mềm sẽ hiện ra bảng hỏi có cập nhật bảng updata hay không, các bạn hãy chọn như hình bên dưới để tắt update đi ( vì update sẽ phát hiện ra số serial này có nhiều người xài, sẽ khóa lại)

Như vậy việc cài đặt phần mềm Stata 13 đã hoàn tất, từ giờ bạn có thể thoải mái sử dụng chương trình, có gì thắc mắc  cứ liên hệ nhóm MBA Bách Khoa tại đây nhé: http://phantichstata.com/lien-he-gioi-thieu