Phạm Thị Thu Hường * Phạm Thi Thu Hoa

* Tác giả liên hệ (ptthuong@agu.edu.vn)

Abstract

Separation appearing in logistic regression data greatly influences the estimated values of the regression parameters. In classical statistics, the maximum likelihood estimation will not exist when the data appear to be separated. In Bayesian statistics, the existence of a posterior mean depends on the prior distribution and the pattern of the data. Therefore, in the simulation study, it is meaningful to control the probability of separation occurrence in the data and study the impact of this type of data in statistical analysis. In this paper, we present algorithms to simulate data for a logistic regression model where separation occurrence in the data is controlled for any sample size and dimension of the independent variable. These algorithms are proven to be very effective through simulation results.

Keywords: Logistic regression model, simulation study, separation, quasi – separation

Tóm tắt

Sự tách biệt xuất hiện trong số liệu theo mô hình hồi quy logistic có ảnh hưởng lớn đến giá trị ước lượng của các tham số hồi quy. Đối với thống kê cổ điển, ước lượng cực đại của hàm hợp lý sẽ không tồn tại khi số liệu xuất hiện sự tách biệt. Đối với thống kê Bayes, sự tồn tại của giá trị trung bình hàm hậu nghiệm phụ thuộc vào phân phối tiên nghiệm và kiểu dạng của số liệu. Do đó, trong nghiên cứu mô phỏng số liệu, việc kiểm soát xác suất xuất hiện của sự tách biệt là có ý nghĩa để nghiên cứu tác động của dạng số liệu này trong phân tích thống kê. Trong bài báo này, chúng tôi trình bày những thuật toán để mô phỏng số liệu theo mô hình hồi quy logistic mà sự xuất hiện tách biệt trong số liệu được kiểm soát với bất kỳ cỡ mẫu và số chiều của biến độc lập. Những thuật toán này được kiểm chứng có hiệu quả rất tốt qua kết quả mô phỏng.

Từ khóa: Mô hình hồi quy logistic, nghiên cứu mô phỏng, số liệu tách biệt, số liệu hầu như tách biệt

Article Details

Tài liệu tham khảo

Albert, A., & Anderson. J. A. (1984). On the existence of maximum likelihood estimates in logistic regression models. Biometrika, 71(1), 1–10.
https://doi.org/10.1093/biomet/71.1.1

Allison, P. D. (2008). Convergence failures in logistic regression. SAS Global Forum, 360(1), 11.

Atkinson, A. C, & Woods, D. C. (2015). Designs for generalized linear models. Handbook of Design and Analysis of Experiments, (7), 471–514.

Gelman, A., Jakulin, A., Pittau, M. G., & Su, Y. (2008). A weakly informative default prior distribution for logistic and other regression models. The Annals of Applied Statistics, 2(4), 1360–1383.
https://doi.org/10.1214/08-AOAS191

Heinze, G. (2006). A comparative investigation of methods for logistic regression with separated or nearly separated data. Statistics in medicine, 25(24), 4216–4226. https://doi.org/10.1002/sim.2687

Huong, P. T. T., & Hoa, P. (2021). On the existence of posterior mean for bayesian logistic regression. Monte Carlo Methods and Applications, 7(3277-288), 277–288. https://doi.org/10.1515/mcma-2021-2089

Ghosh, Y., Li, J., & Mitra, R. (2018). On the use of cauchy prior distributions for bayesian logistic regression. Bayesian Analysis, 13(2), 359–383. https://doi.org/10.1214/17-BA1051

Polson, N. G., Scott, J. G., & Windle, J. (2013). Bayesian inference for logistic models using polya-gamma latent variables. Journal of the American statistical Association, 108(504), 1339–1349. https://doi.org/10.1080/01621459.2013.829001

Speckman, P. L., Lee, J., & Sun, D. (2009). Existence of the mle and propriety of posteriors for a general multinomial choice model. Statistica Sinica, 731–748.

Wakefield, J. (2013).Bayesian and Frequentist Regression Methods. Springer Science & Business Media, New York. https://doi.org/10.1007/978-1-4419-0925-1