Prediction Models for Severely Injured Occupants using Machine Learning Analytics Based on Oversampling Class Imbalanced Data
Other Titles
클래스 불균형 데이터의 오버샘플링 기반 기계학습 기법을 적용한 교통사고 탑승자의 중증외상 예측 모델
Authors
공준석
College
College of Medicine (의과대학)
Department
Others (기타)
Degree
박사
Issue Date
2023-02
Abstract
Injury prediction models improve trauma outcomes for motor vehicle occupants with accurate decision-making and early transport to appropriate trauma centers. This study aimed to investigate the injury severity prediction (ISP) capability of machine-learning analytics based on five-different regional Level 1 trauma center-enrolled patients in Korea. We studied car crash-related injury data from 1,417 patients enrolled in the Korea In-Depth Accident Study database from January 2011 to April 2021. Severe injury classification was defined as an Injury Severity Score ≥ 15. Planar collisions were considered by excluding rollovers which would compromise an accurate prediction. Furthermore, dissimilarities of the collision partner component based on vehicle segmentation were assumed for crash incompatibility. To handle class-imbalanced clinical datasets, we used four data-sampling techniques (i.e., class-weighting, resampling, synthetic minority oversampling, and adaptive synthetic sampling). Machine-learning analytics based on logistic regression, extreme gradient boosting (XGBoost), and a multilayer perceptron model were used for the evaluations. Each model was executed using five-fold cross-validation to solve overfitting consistent with the hyperparameters tuned to improve model performance. The area under the receiver operating characteristic curve was 0.896. Additionally, the present ISP model showed an under-triage rate of 6.1%. The Delta-V, age, and Principal Direction of Force (PDOF) were significant predictors. The results demonstrated that the data-balanced XGBoost model achieved a reliable performance on injury severity classification of emergency department patients. This finding considers ISP model selection, which affected prediction performance based on overall predictor variables.
병원 전 단계에서 교통사고 환자의 인체상해 예측은 환자의 중증도분류에 대한 정확한 의사결정과 적절한 이송체계를 통해 인명피해를 경감시키는 효과가 있다. 최근 사고 현장에서 즉각적인 상해유형 판별을 위해 텔레메틱스를 기반한 자동검출 시스템의 법제화가 각 국에서 도입되고 있으며, 이를 위한 외상환자의 상해예측 모델에 대한 요구가 부각되고 있다. 그러나 환자의 상해예측 모델은 데이터의 클래스 불균형(Class imbalance)에 따라 실제 왜곡된 예측과 성능저하를 초래할 수 있다. 또한, 아직까지 교통사고 환자의 상해를 판별하기 위한 임상자료의 균등화(balancing)를 통한 최적화된 모델의 부재로 다양한 모델간의 성능 비교가 필요하다. 본 연구는 국내 5개 지역의 응급의료센터에 내원한 차대차 탑승자 교통사고 환자를 대상으로 상해중증도 판별을 개선하기 위해 최신의 기계학습 모델의 성능을 평가하고자 한다. 본 연구는 2011년 1월부터 2021년 4월까지 한국형 자동차사고-인체상해 구축 (Korea In-Depth Accident Study, KIDAS) 데이터베이스에 등록된 1,417명의 교통사고 환자를 대상으로 선정하였다. 상해중증도에 대한 분류는 손상중증도점수(Injury Severity Score, ISS) 기준 15점 이상을 중상해 환자로 선별하였다. 다양한 사고유형에 따라 보다 정밀한 예측성능 확보를 위해 전복사고를 제외한 평면충돌 사고를 고려하였다. 또한 차대차 사고에서 두 차량 간의 충돌 부조화(crash incompatibility)을 고려하여 서로 다른 차량 세그먼트 구성을 분류하였다. 탑승환자의 중증도분류 결과에 따른 데이터 불균형성을 극복하기 위해 네 가지의 데이터 샘플링 기법(i.e., class-weighting, resampling, synthetic minority oversampling, and adaptive synthetic sampling)을 사용하였다. 교통사고 환자의 상해예측 판별을 위한 기계학습 모델은 logistic regression, extreme gradient boosting (XGBoost), 그리고 multilayer perceptron (MLP)로 선정하였다. 모델 성능을 향상시키기 위해 하이퍼파리미터를 조정하고 5겹 교차검증을 통해 각 모델의 과적합을 방지하였다. 외상환자의 상해예측은 과소분류 10% 이하의 수준을 지닌 모델을 기반으로 모델의 성능을 평가하였다. 본 연구에서 데이터 샘플링 기법을 적용한 SMOTE와 ADASYN 모델이 클래스 불균형 데이터 보다 예측 성능이 높았다. 특히 SMOTE 기반 XGBoost 모델에서 가장 우수한 예측 성능을 보였다. 해당 모델을 활용한 특성중요도에서 두 차량간의 속도변화량(Delta-V)이 교통사고 탑승자의 상해 예측에 기여한 주요 요인으로 확인되었다. 이러한 결과는 환자의 중증도분류에 따른 클래스 불균형을 데이터 샘플링 기법을 구현하여 상해 심각도에 대한 개선된 예측 성능을 기대할 수 있다. 따라서, 교통사고 환자의 상해 예측을 위해 활용되는 변수의 유형에 따른 샘플링 기법과 학습모델 선정이 고려되어야 한다.