44 128

Cited 0 times in

Suicide risk prediction model using machine learning algorithms for colorectal cancer patients: analyses in national health insurance data

Other Titles
 기계 학습 알고리즘을 이용한 대장직장암 환자의 자살 위험 예측 모델: 국민건강보험 대장암 맞춤형 자료 분석 
Authors
 이영롱 
College
 College of Medicine (의과대학) 
Department
 Others (기타) 
Degree
박사
Issue Date
2023-02
Abstract
서론: 기계 학습을 이용한 자살 예측 모델에 대한 선행 연구들은 일관되게 일반 인구에서 높은 예측 성능을 보여주고 있으며, 기계 학습 자살 예측 연구를 대장암과 같은 고위험 인구 집단에 적용할 필요성에 대해서 제안하고 있다. 이 연구는 기계 학습을 사용하여 2002년부터 2018년까지 대장직장암 진단을 받은 환자의 맞춤형 청구 자료를 이용하여 자살에 대한 연령, 성별 및 암 유형별 위험요인 프로파일과 학습된 모델의 예측 성능을 확인하였다. 연구방법: 2002년부터 2018년 사이에 대장직장암을(C18-20) 진단받은 환자(n=380,569) 중, 자살로 사망한 환자를 사례군에 포함하였다. 자살 사망자 수는 1,839명(0.48%)이었으며, 사례 불균형 문제를 해결하기 위해 대조군을 사례군(총 n=3,678명)과 같은 수의 표본으로 과소추출(undersampling)하였다. 연령, 성별, 암 유형별로 계층화된 각 모델의 성능 및 위험 프로파일을 확인하였다. 각 모델은 인구통계학적 요인, 신체 및 정신질환의 검사 및 치료 관련 청구 요인, 암 병기, 대장암 관련 수술, 처방약, 외래, 응급실, 입원 횟수 등의 1,600개 이상의 예측 변수를 사용하여 훈련되었다. 기계 학습 모델 개발은 분류 트리와 랜덤 포레스트로 수행하였다. 모델에서 발견된 중요예측요인은 nested case control 연구 설계에서 조건부 로지스틱 회귀를 통해 평가되었다. 연구결과: 모든 연령과 성별, 암 종류로 나눈 집단 모두에서 정신치료 처방, 수면제 및 기분 안정제를 포함한 정신과 약물, 정신과 외래 방문 횟수가 자살 시도의 중요한 예측 인자였다. 대장암 특이적인 자살 위험 요인으로는, 최근 대장암 진단 시점과 관장, 도뇨관삽관, 장관 영양등의 입원 관련 처방 변수들이 있었다. 자살위험요인 프로파일은 연령, 성별, 암 유형에 따라 차이를 보였다. 대장직장암 환자에 대한 랜덤 포레스트 모델의 민감도는 0.84(84%), 특이도는 0.68(68%), 수용체 작동 곡선 아래 면적(AUC)은 0.84였습니다. 연령, 성별, 대장암 유형으로 나눈 그룹에 대한 모델의 AUC는 대부분 0.8에 근접한 값으로 산출되었다. 예측 위험도의 상위 1%, 5%, 10% 및 20%에 속하는 대장직장암 환자는 모든 자살 사망 사례의 각각 9.37%, 36.6%, 53.38% 및 70.81%를 차지했다. Nested case control 연구의 결과, 발견된 예측 변수와 자살 간의 연관성은 기계 학습 모델에서 식별된 변수 중요도 결과와 일치했다. 결론: 본 연구는 기계학습 기법을 통해 대장암 환자의 자살 사망을 예측할 수 있는 위험인자를 조명하고, 비용 효과적인 자살예방 중재를 위한 단계별 과정에서 본 자살 예측 모델의 임상적 활용 가능성을 제시하였다.
Background: Previous studies on suicide prediction models using machine learning have consistently demonstrated high predictive performance in the general population. Patients with colorectal cancer (CRC) are known to have a higher risk of suicide than the general population; however, no study has yet investigated the risk factors and predictive performance of machine-learning models for this high-risk group. This cohort study used machine learning to examine age-, sex-, and cancer type-specific risk profiles and the prediction performance of the trained model for suicide in Korean health insurance claims data. Method: Among the 380,569 individuals diagnosed with CRC (C18–20) between 2002 and 2018, those who died by suicide were included in the case group. The number of deaths due to suicide was 1,839 (0.48%), and to solve the problem of class imbalance, the control group was under-sampled with the same number of samples as the case group (total, n = 3,678). The performance and risk profile of each model stratified by age, sex, and cancer type were identified. Each model was trained using more than 1,600 predictors, including demographic factors, mental and physical health examinations, cancer stage, colon cancer-related surgery, prescribed medications, number of outpatient visits, emergency departments, and hospitalizations. The machine-learning models developed were classification trees and random forests. The predictors that were important in the models were evaluated using conditional logistic regression in a nested case-control study design. Results: Prescription of psychotherapy, psychiatric medications, including sleeping pills and mood stabilizers, and the number of psychiatric outpatient visits were important predictors of suicide in all subgroups categorized by age, sex, and cancer type. Suicide risk factor profiles showed subtle differences according to age, sex, and cancer type. Recent CRC diagnoses and hospitalization-related variables, such as enema, urinary catheterization, and enteral nutrition, are prominent suicide risk factors in CRC patients. At the optimal threshold, the sensitivity of the random forest model for all CRC patients was 0.84 (84%), the specificity was 0.68 (68%), and the area under the receiver operating curve (AUC) was 0.84. The AUC of the model for the group divided by age, sex, and CRC type was approximately 0.8. CRC patients in the top 1%, 5%, 10%, and 20% of predicted risk accounted for 9.37%, 36.6%, 53.38%, and 70.81% of all suicide deaths, respectively. As a result of the nested case-control study, the associations between the found predictors and suicide were in line with the variable importance results identified in the machine-learning model. Conclusion: This study identified the risk factors that can predict suicide in CRC patients through machine-learning techniques and suggested the possibility of clinical usage of the prediction model in a step-by-step process for cost-effective suicide prevention intervention.
Files in This Item:
T015845.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 3. Dissertation
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/197108
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links