Trần Phước Lộc * , Tạ Thị Thanh Thúy , Dương Thị Tuyền , Dương Thị Bé Ba , Lê Hoài Nhân Lâm Hoàng Chương

* Tác giả liên hệ (tploc@ctu.edu.vn)

Abstract

This study proposes a method to estimate the coefficients of the logistic regression model with covariates missing at random. Firstly, the multiple imputation method replaces missing values with reasonable values obtained from an empirical conditional distribution function. The estimator of the parameters of the regression model and its variance are then obtained by the corresponding estimating and equations and estimated variance formulas, respectively. The large sample properties of the estimator are also studied. The estimator efficiency of the proposed method is studied through several numerical simulation scenarios and compared with other methods. The results show that the proposed method has outperformed the other methods, e.g., complete-case, semi-parametric inverse probability weighting, validation likelihood, and random forest multiple imputation methods. Real example data from medical research is used to illustrate the applicability of the proposed method.

Keywords: Logistic regression, maximum likelihood, missing data, multiple imputation

Tóm tắt

Nghiên cứu đề xuất phương pháp ước lượng hệ số của mô hình hồi quy logistic với hiệp biến thiếu dữ liệu ngẫu nhiên. Trước tiên, phương pháp thay thế lặp được sử dụng để thay thế các giá trị thiếu bằng các giá trị hợp lý thu được từ hàm phân phối thực nghiệm có điều kiện. Ước lượng các tham số của mô hình hồi quy và phương sai của nó sau đó thu được lần lượt bằng các phương trình ước lượng và phương sai tương ứng. Các tính chất cỡ mẫu lớn của ước lượng cũng được nghiên cứu. Hiệu quả tính toán của phương pháp đề xuất được nghiên cứu thông qua một số tình huống mô phỏng số và so sánh với các phương pháp khác. Kết quả cho thấy phương pháp đề xuất có hiệu quả tốt hơn các phương pháp xóa hàng, trọng số xác suất nghịch đảo bán tham số, hợp lý có điều kiện và thay thế lặp bằng phương pháp rừng ngẫu nhiên. Dữ liệu thực tế về y học được sử dụng để minh họa khả năng ứng dụng của phương pháp đề xuất.

Từ khóa: Dữ liệu thiếu, hồi quy logistic, hợp lý cực đại, thay thế lặp

Article Details

Tài liệu tham khảo

Breslow, N. E., & Cain, K. C. (1988). Logistic regression for two-stage case-control data. Biometrika, 75(1), 11-20. https://doi.org/10.1093/biomet/75.1.11

Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate imputation by
chained equations in R. Journal of Statistical Software, 45(3), 1-67.

Fay, R. E. (1996). Alternative paradigms for the analysis of imputed survey data. Journal of the American Statistical Association, 91(434), 490-498. https://doi.org/10.1080/01621459.1996.10476909

Hosmer, D. W., Lemeshow S., & Sturdivant R. X. (2013). Applied logistic regression. John Wiley & Sons. https://doi.org/10.1002/9781118548387

Horvitz, D. G., & Thompson, D. J. (1952). A generalization of sampling without
replacement from a finite universe. Journal of the American Statistical Association, 47(260), 66-685.

Hsieh, S. H., Li, C. S., & Lee, S. M. (2013). Logistic regression with outcome and covariates missing separately or simultaneously. Computational Statistics and Data Analysis, 66, 32-54. https://doi.org/10.1016/j.csda.2013.03.007

Jiang, W., Josse, J., Lavielle, M., & Group, T. (2020). Logistic regression with missing covariates - Parameter estimation, model selection and prediction within a joint modeling framework. Computational Statistics and Data Analysis, 145, 106907. https://doi.org/10.1016/j.csda.2019.106907

Lee, S. M., Li, C. S., Hsieh, S. H., & Huang, L. H. (2012). Semiparametric estimation of logistic regression model with missing covariates and outcome. Metrika, 75, 621-653. https://doi.org/10.1007/s00184-011-0345-9

Lee, S. M., Lukusa, T. M., & Li, C. S. (2020). Estimation of a zero-inflated Poisson regression model with missing covariates via nonparametric multiple imputation methods. Computational Statistics, 35, 725-754. https://doi.org/10.1007/s00180-019-00930-x

Lee, S. M., Tran, P. L., & Li, C. S. (2022). Goodness-of-fit tests for a logistic regression model with missing covariates. Statistical Methods in Medical Research, 31(6), 1031-1050. https://doi.org/10.1177/09622802221079350

Lee, S. M., Le, T. N., Tran, P. L., & Li, C. S. (2023). Estimation of logistic regression with covariates missing separately or simultaneously via multiple imputation methods. Computational Statistics, 38, 899-934. https://doi.org/10.1007/s00180-022-01250-3

Lukusa, T. M., Lee, S. M., & Li, C. S. (2016). Semiparametric estimation of a zero-inflated Poisson regression model with missing covariates. Metrika, 79(4), 457-483. https://doi.org/10.1007/s00184-015-0563-7

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581-592. https://doi.org/10.1093/biomet/63.3.581

Rubin, D. B. (1987). Statistical analysis with missing data. John Wiley & Sons.

Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal of the American Statistical Association, 91(434), 473-489. https://doi.org/10.1080/01621459.1996.10476908

Tran, P. L., Le, T. N., Lee, S. M., & Li, C. S. (2023). Estimation of parameters of logistic regression with covariates missing separately or simultaneously. Communications in Statistics - Theory and Methods, 52(6), 1981-2009. https://doi.org/10.1080/03610926.2021.1943443

Wang, S., & Wang, C. Y. (2001). A note on kernel assisted estimators in missing
covariate regression. Statistics and Probability Letters, 55(4), 439-449. https://doi.org/10.1016/S0167-7152(01)00167-5

Wang, D., & Chen, S. X. (2009). Empirical likelihood for estimating equations with missing values. The Annals of Statistics, 37(1), 490-517. https://doi.org/10.1214/07-AOS585

Wang, C. Y., Wang, S., Zhao, L. P., & Ou, S. T. (1997). Weighted semiparametric
estimation in regression analysis with missing covariate data. Journal of the American Statistical Association, 92(438), 512-525. https://doi.org/10.1080/01621459.1997.10474004

Wang, C. Y., Chen, J. C., Lee, S. M., & Ou, S. T. (2002). Joint conditional likelihood estimator in logistic regression with missing covariate data. Statistica Sinica, 12(2), 555-574.

Zhao, L. P., & Lipsitz, S. (1992). Designs and analysis of two-stage studies. Statistics in Medicine, 11(6), 769-782. https://doi.org/10.1002/sim.4780110608