Trong nghiên cứu y tế, dữ liệu đóng vai trò vô cùng quan trọng. Khi tiến hành một nghiên cứu, bác sĩ, sinh viên ngành Y cần phân tích số liệu từ bệnh nhân, thử nghiệm lâm sàng hoặc khảo sát dịch tễ để đưa ra kết luận chính xác. Do đó Stata trong nghiên cứu y tế cần được lưu ý sử dụng.
Vì sao bác sĩ, sinh viên ngành Y nên học Stata?
Stata là một trong những phần mềm phân tích thống kê mạnh mẽ nhất, giúp các nhà nghiên cứu y học thực hiện:
– Thống kê mô tả để hiểu rõ dữ liệu bệnh nhân.
– Kiểm định giả thuyết để so sánh giữa các nhóm bệnh nhân.
– Hồi quy logistic để tìm hiểu yếu tố nguy cơ gây bệnh.
– Phân tích sống còn để đánh giá thời gian sống của bệnh nhân.
Nếu bạn là bác sĩ, sinh viên ngành Y và chưa quen với Stata, đừng lo! Hãy cùng Thạc Sĩ Khánh và nhóm MBA Bách Khoa HCM tìm hiểu từng bước nhé.
1. Nhập và làm sạch dữ liệu y tế trong Stata
1.1. Nhập dữ liệu từ Excel vào Stata
Bạn có một file Excel chứa dữ liệu bệnh nhân mẫu gồm:
ID (mã bệnh nhân)
Tuổi (age)
Chỉ số BMI (bmi)
Hút thuốc (smoking_status) (1: Có, 0: Không)
Bệnh tim mạch (heart_disease) (1: Có, 0: Không)
Tải excel tại đây: du_lieu_y_te
Bạn có thể nhập file này vào Stata bằng lệnh:
import excel "C:\Users\admin\Desktop\du_lieu_y_te.xlsx", sheet("Sheet1") firstrow
– Giải thích: Lệnh này sẽ đưa dữ liệu từ Excel vào Stata, với dòng đầu tiên là tiêu đề cột.
1.2. Kiểm tra dữ liệu
Sau khi nhập xong, bạn kiểm tra dữ liệu có bị thiếu hay không bằng cách:
summarize
list if BMI== .
– Giải thích: Lệnh summarize giúp xem tổng quan dữ liệu, còn list if BMI == . sẽ hiển thị bệnh nhân nào bị thiếu giá trị BMI.
1.3. Xử lý dữ liệu bị thiếu
Nếu một số bệnh nhân chưa có BMI, bạn có thể thay thế bằng giá trị trung bình của cả nhóm:
replace BMI= r(mean) if BMI == .
– Giải thích: Lệnh này giúp tự động thay thế BMI bị thiếu bằng giá trị trung bình. Tuy nhiên ở đây 20 quan sát đều đầy đủ nên không cần thực hiện lệnh này, ta vẫn có đầy đủ số liệu
2. Thống kê mô tả và kiểm định giả thuyết
2.1. Xem thống kê tổng quan về bệnh nhân
Nếu bạn muốn xem số lượng bệnh nhân, độ tuổi trung bình, BMI trung bình:
summarize Age BMI
tabulate Smoking_Status
– Giải thích: summarize giúp xem các chỉ số trung bình, độ lệch chuẩn; tabulate hiển thị số lượng người hút thuốc tính theo phần trăm
2.2. So sánh BMI giữa nhóm hút thuốc và không hút thuốc
Bạn muốn biết liệu BMI có khác nhau giữa hai nhóm này hay không? Hãy dùng kiểm định t-test:
ttest BMI, by(Smoking_Status)
– Giải thích: Lệnh này sẽ kiểm tra xem BMI giữa nhóm hút thuốc và không hút thuốc có sự khác biệt đáng kể hay không. Nếu p-value < 0.05, nghĩa là sự khác biệt có ý nghĩa thống kê. Rõ ràng p ở đây là 0.0031 nên ta kết luận có sự khác biệt về BMI giữa nhóm hút thuốc và nhóm không hút thuốc.
3. Hồi quy logistic: Dự đoán nguy cơ mắc bệnh
Bạn muốn biết tuổi, BMI và hút thuốc ảnh hưởng thế nào đến nguy cơ mắc bệnh tim mạch? Hãy sử dụng hồi quy logistic:
logit Heart_Disease Age BMI Smoking_Status
– Giải thích: Lệnh này giúp tính toán nguy cơ mắc bệnh tim mạch dựa trên các yếu tố trên.
Nếu hệ số của smoking_status là dương và có p-value < 0.05, nghĩa là hút thuốc làm tăng nguy cơ mắc bệnh tim mạch một cách đáng kể. Tuy nhiên các giá trị p-value ở đây đều >5% nên ta chưa thể kết luận như vậy được.( do dữ liệu này là bộ dữ liệu testing).
4. Phân tích sống còn: Thời gian sống của bệnh nhân
Nếu bạn muốn nghiên cứu bệnh nhân ung thư sống được bao lâu sau khi điều trị, hãy dùng phân tích sống còn.
4.1. Thiết lập dữ liệu sống còn
Giả sử dữ liệu có cột time (thời gian sống tính theo tháng) và status (1: đã tử vong, 0: vẫn sống). Bạn thiết lập dữ liệu bằng lệnh:
stset Time, failure(Status)
– Giải thích: Lệnh này giúp Stata hiểu rằng bạn đang làm việc với dữ liệu sống còn.
4.2. Vẽ biểu đồ Kaplan-Meier
Bạn muốn xem đường cong sống sót của bệnh nhân:
sts graph
– Giải thích: Biểu đồ Kaplan-Meier sẽ cho bạn thấy bệnh nhân sống sót trong bao lâu sau điều trị.
4.3. Phân tích Cox Regression
Bạn muốn biết yếu tố nào ảnh hưởng đến thời gian sống? Hãy chạy mô hình Cox Regression:
stcox Age BMI Smoking_Status
– Giải thích: Lệnh này giúp xác định yếu tố nào làm giảm hoặc tăng thời gian sống của bệnh nhân.
Kết luận: Vì sao bác sĩ, sinh viên ngành Y nên dùng Stata?
– Nhanh chóng: Xử lý dữ liệu y tế lớn một cách dễ dàng.
– Chính xác: Giúp bạn thực hiện phân tích thống kê và đưa ra kết luận khoa học.
– Trực quan: Cung cấp các biểu đồ giúp bạn trình bày kết quả rõ ràng.
Nếu bạn là bác sĩ, sinh viên ngành Y đang thực hiện nghiên cứu, hãy bắt đầu sử dụng Stata ngay hôm nay.
Trong quá trình sử dụng các bạn có cần hỗ trợ cứ liên hệ nhóm theo số phone sau nhé