Cited 0 times in

비소세포폐암 수술 후 예후 예측을 위한 설명 가능한 머신러닝 모델의 적용 -진단 시 체질량지수의 영향 분석-

Other Titles
 Applying Explainable Machine Learning Models for Prognostic Prediction in Non-Small Cell Lung Cancer Surgery Patients(Analyzing the Impact of Body Mass Index at Diagnosis) 
Authors
 장보윤 
College
 Graduate School of Public Health (보건대학원) 
Department
 Graduate School of Public Health (보건대학원) 
Degree
석사
Issue Date
2024-08
Abstract
연구 배경: 세계보건기구(WHO)에 따르면 폐암은 세계적으로 약 220만 명이 매년 발생하고, 180만 명 정도가 사망하는 사망률 1위의 암이다. 우리나라 2022년 주요 암 사망 통계 자료를 보면, 전체 사망자(37만 2,939명) 가운데 22.4%(8만 3,378명)가 암으로 사망했으며 폐암 사망자는 22.3%(1만8,548명)로 국내 암 사망자 수에서 1위를 차지하고 있다. 폐암은 조직학적인 형태에 따라 소세포암과 비소세포암으로 구분되며, 보통 폐암의 85% 이상은 비소세포성 폐암으로 소세포폐암에 비해 상대적으로 성장 속도가 느리며, 주변 조직으로 침범한 후 전신으로 전이되는 경향이 있다. 따라서 수술이 가능한 조기 단계에 발견하는 것이 무엇보다 중요하며, 수술 후 2년 내 재발도 많아 지속적인 관리가 필요한 질환이다. 본 연구의 목적은 전통적인 통계기법 및 다양한 머신러닝 방법론을 활용하여 모델의 성능을 평가하고, 완전 절제 수술을 받은 비소세포폐암 환자의 생존 및 재발을 예측하는데 있어 중요한 변수, 특히 최근 주목받고 있는 예측인자인 체질량지수(BMI) 변수의 중요도와 영향력을 파악하는 것이다. 이를 통해, 체질량지수가 비소세포폐암 환자의 생존 및 재발 예측 모델에서 어떤 역할을 하는지, 그리고 이를 기반으로 한 임상적 의사결정 및 환자 관리 전략에 대한 깊이 있는 통찰을 제공하고자 한다. 연구 방법: 폐암병기조사데이터 2014년부터 2017년까지 비소세포폐암(NSCLC)으로 완전절제(R0)를 받은 환자를 후향적으로 분석하였다. 머신러닝 모델을 구축하기 위해 규제 선형모델인 능형(Ridge) 회귀분석, 라쏘(LASSO) 회귀분석, 앙상블 모델의 랜덤 포레스트(RF)와 익스트림 그래디언트 부스팅(XGBoost) 분석을 수행하였다. 모형의 성능 평가는 민감도, 특이도, 정확도, 정밀도, F1 점수, AUC를 기반으로 5겹 교차검증을 통해 수행하였다. SHAP(Shapley Additive Explanation) 방법을 통해 변수들의 중요도를 평가하였고, 각 모델은 그리드 검색을 사용하여 하이퍼 매개변수를 최적화한 다음 설명 가능한 방법을 사용하여 결정하였다. 연구 결과: 모든 모델에서 AUC 0.8 이상의 우수한 성능을 보였으며, 3년, 5년으로 나누어 비교한 생존 예측에서는 5년 생존 예측 성능이 가장 높게 나타났다. 모델 간 성능의 큰 차이는 없었으나 전통적인 통계적 방법에서는 릿지(Ridge) 회귀분석이 머신러닝 모델에서는 XGBoost가 높은 성능을 보였다. 연구에서 확인된 생존 예측에 가장 큰 영향력을 준 주요 변수는 재발 여부였으며, 연령, 조직학적 T 병기 및 치료, 진단 시 체질량지수를 수술 후 생존에 영향을 미치는 주요 예후 인자로 식별하였다. 특히, 진단 시 체질량지수에서 저체중 그룹은 낮은 5년 생존율을 보였고 과체중/비만 그룹은 높은 5년 생존율을 보였다. 재발 예측에 있어서 체질량지수의 영향이 높지는 않았으나 다른 그룹에 비해 저체중 그룹에서의 수술 후 2년 재발률이 다소 높게 나타났다. 재발 예측의 주요 인자로는 방사선 치료 및 보조 항암 치료, 조직학적 T 병기, 흉막 침범임을 확인하였다. 결론: 본 연구는 비소세포폐암 환자의 수술 후 생존과 재발 가능성을 우수한 성능으로 예측하는 머신러닝 모델을 구축하였으며, 릿지(Ridge)와 라쏘(Lasso) 로지스틱 회귀분석과 같은 전통적인 통계적 방법과 랜덤 포레스트(RF)나 XGBoost 같은 더 복잡한 머신러닝 모델 간의 성능에는 큰 차이는 없었다. 또한, 생존 및 재발 예측에 있어 변수 중요도를 SHAP 방법을 결합하여 설명 가능한 머신러닝 모델을 적용하였으며 폐암에서의 비만역설 가능성을 확인하였다.

Background: According to the World Health Organization (WHO), lung cancer is the leading cause of cancer death globally, with approximately 2.2 million new cases annually and about 1.8 million deaths. In South Korea, lung cancer was the primary cause of cancer deaths in 2022, accounting for 22.3% (18,548 deaths) of all cancer fatalities from a total of 372,939 deaths. Lung cancer is classified histologically as either small cell lung cancer or non-small cell lung cancer (NSCLC), with the latter comprising over 85% of cases. NSCLC is characterized by its slower growth rate compared to small cell lung cancer and tends to metastasize to other parts of the body after invading surrounding tissues. Early detection and surgical intervention at a stage where surgery is viable are crucial due to the high rate of recurrence within two years post-surgery, necessitating ongoing management. The purpose of this study is to evaluate the performance of models using traditional statistical techniques and various machine learning methodologies, and to identify key variables, particularly Body Mass Index (BMI), that predict survival and recurrence in non-small cell lung cancer (NSCLC) patients who have undergone complete resection surgery. This research aims to understand the role of BMI in the predictive models for survival and recurrence of NSCLC patients, and to provide deep insights for clinical decision-making and patient management strategies based on these findings. Methods: We conducted a retrospective analysis of patients with Non-Small Cell Lung Cancer (NSCLC) who underwent complete resection (R0) from 2014 to 2017, utilizing data from the Korea lung cancer registry. To develop machine learning models, we applied regularized linear models such as Ridge and LASSO regression, along with ensemble models including Random Forest (RF) and Extreme Gradient Boosting (XGBoost). Model performance was evaluated using sensitivity, specificity, accuracy, precision, F1 score, and AUC metrics, assessed through 5-fold cross-validation. The importance of variables was determined using the SHAP (Shapley Additive Explanation) method, and hyperparameters were optimized using grid search, followed by decision-making using explainable approaches. Results: All models demonstrated excellent performance with AUCs above 0.8, and among the survival predictions compared over three and five years, the five-year survival prediction performance was the highest. While there was no significant difference in performance between models, traditional statistical methods showed Ridge regression as most effective, whereas XGBoost performed best among machine learning models. The most influential variable identified for survival prediction was recurrence status, with age, histologic T stage, and treatment, as well as BMI at diagnosis, being identified as major prognostic factors influencing post-surgical survival. Notably, at the time of diagnosis, the underweight group showed a lower five-year survival rate, while the overweight/obese group exhibited a higher five-year survival rate. Although BMI's impact on recurrence prediction was not significant, the underweight group showed a higher recurrence rate two years post-surgery compared to other groups. The main factors for recurrence prediction were identified as radiation therapy and adjuvant chemotherapy, histologic T stage, and pleural invasion. Conclusion: This study developed machine learning models that proficiently predict post-surgical survival and recurrence probabilities for non-small cell lung cancer (NSCLC) patients. There was no significant difference in performance between traditional statistical methods such as Ridge and Lasso logistic regression and more complex machine learning models like Random Forest (RF) and XGBoost. Additionally, the study applied explainable machine learning models that incorporate SHAP methods to assess the importance of variables in predicting survival and recurrence, and explored the potential for an obesity paradox in lung cancer.
Files in This Item:
T016690.pdf Download
Appears in Collections:
4. Graduate School of Public Health (보건대학원) > Graduate School of Public Health (보건대학원) > 2. Thesis
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/205242
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links