CEA-based machine learning methods for predicting recurrence and survival in colorectal cancer patients
Other Titles
대장암 환자의 재발과 생존 예측을 위한 CEA 기반의 머신러닝 기법
Authors
윤석용
College
College of Medicine (의과대학)
Department
Others
Degree
박사
Issue Date
2024-08
Abstract
Objectives: While colorectal cancer is the second leading cause of cancer-related deaths in developed countries and some patients still experience recurrence even after receiving the appropriate treatment, it is known that early diagnosis of recurrence improves the patient's prognosis. Nevertheless, currently there is no noninvasive approach available that enables early detection of recurrence. In this regard, this work was conducted to develop methods for early prediction of recurrence and survival in Korean colorectal cancer patients. Materials and Methods: Our data consisted of 4,020 patients who underwent surgery and were diagnosed with stage I-III colorectal cancer at Severance Hospital (Seoul, Korea). From each patient, demographic information and clinical characteristics, including pre- and post-operative CEA levels, the number of infiltrated lymph nodes, the number of examined lymph nodes, tumor location, and age at the time of surgery, were collected as potential predictive variables for early detection of recurrence and survival in colorectal cancer. Additionally, another predictive variable named 'Slope’, which was derived from the blood levels of carcinoembryonic antigen (CEA), representing the slope of linear regression of CEA samples over the range from pre-recurrence up to approximately 1-year after surgery. Patients with a missing value for any of these variables were excluded. The analysis was conducted in two steps. In the first step, classification models were developed to predict recurrence status and survival status, respectively. In the second step, time-to-event models were developed to predict recurrence time and survival time, respectively. Then, given flexibility and scalability of machine learning, which does not require any specific form of a model and can be implemented based on the data available only, thus well suited for big data analysis such as retrospective studies based on electronic medical records, machine learning was used for model development. All data analysis and model building were performed using R software (ver 4.2.2) and its packages. Results: Classification models were developed by testing various machine learning algorithms, including logistic regression, support vector machine, decision tree, random forest, gradient boost, XGboost, Light-GBM, and CatBoost. These models demonstrated Area Under the Receiver Operating Characteristic Curve (AUROC) values ranging from 0.87 to 0.92 for recurrence status and 0.87 to 0.89 for survival status. Among these models, the CatBoost model showed slightly better performance. Time-to-event models were developed using the random survival forest algorithm, resulting in AUROC values of 0.90 for recurrence time and 0.89 for survival time, respectively. In all developed models, the newly created 'Slope' variable was consistently selected as the most important predictor. For the time-to-event models developed, an R Shiny application was created to facilitate individual patient-level predictions. Conclusions: This work demonstrated the feasibility of utilizing CEA in early detection of recurrence status, survival status, recurrence time, and survival time in colorectal cancer. The developed model achieved good predictive performance. It is hoped that the model and the R Shiny application developed will be helpful in assessing the prognosis of colorectal cancer patients in Korea.
목표: 대장암은 선진국에서 암 관련 사망의 두 번째 주요 원인이며 적절한 치료를 받은 환자 중에도 일부는 암의 재발을 경험합니다. 재발 초기 진단은 환자의 예후를 향상시킨다는 것이 알려져 있습니다. 그럼에도 불구하고 현재 재발의 초기 감지를 가능하게 하는 비침습적 방법이 부족합니다. 이와 관련하여, 이 연구는 대장암 환자의 재발 및 생존을 조기에 예측하기 위한 방법을 개발하고자 하였습니다. 자료 및 방법: 세브란스병원에서 1-3 기 대장암으로 진단 후 수술 받은 4,020 명의 환자 자료를 기반으로 하고 있습니다. 각 환자로부터 재발 및 생존을 조기 예측하기 위한 잠재적 예측 변수로서 인구학적 정보 및 임상 특성, 수술 전 및 수술 후 CEA 농도, 침윤된 림프절 수, 절제된 림프절 수, 종양 위치 및 수술 시 나이 등이 수집되었습니다. 또한 다른 예측 변수인 ‘Slope’ 라는 변수가 생성되었는데, 이것은 암태아성항원 (CEA)의 혈중 농도에서 파생된 것으로, 재발 전 또는 수술 후 약 1년까지의 CEA 샘플로부터 얻은 선형 회귀 기울기를 의미합니다. 예측 변수 중 어느 하나에 결측 값이 있는 환자는 제외되었습니다. 분석은 두 단계로 수행되었습니다. 첫 번째 단계에서, 재발 여부와 생존 여부를 예측하기 위한 분류 모델이 개발되었습니다. 두 번째 단계에서, 시간 의존적인 암의 재발 및 생존 확률을 예측하기 위한 모델이 개발되었습니다. 이 연구에는 유연성과 확장성이 있고 데이터만을 기반으로 구현할 수 있으며 특정 모델의 가정이 필요하지 않는 이점이 있는 머신 러닝이 사용되었습니다. 데이터 분석과 모델 개발은 R 소프트웨어 (버전 4.2.2) 및 패키지를 이용하여 수행되었습니다. 결과: 다양한 머신 러닝 알고리즘을 테스트하여 분류 모델을 개발했습니다. 이 알고리즘에는 로지스틱 회귀, 서포트 벡터 머신, 의사 결정 트리, 랜덤 포레스트, Gradient boost, XGboost, Light-GBM, 그리고 CatBoost 가 활용되었습니다. 재발 여부 예측 모델에서 ROC 곡선 아래 면적 (AUROC) 의 범위는 0.87-0.92, 생존 여부 예측 모델에서 AUROC 값의 범위는 0.87-0.89 였습니다. 이러한 모델 중에서 CatBoost 알고리즘이 적용된 모델이 약간 더 나은 성능을 나타냈습니다. Time-to-event 모델은 랜덤 서바이벌 포레스트 알고리즘을 이용하여 개발되었으며, 재발 모델에 대한 AUROC 값은 0.90 이며, 생존 모델에 대한 AUROC 값은 0.89 로 산출되었습니다. 모든 개발된 모델에서 새로 도입한 변수인 ‘Slope’ 가 가장 중요한 예측 변수였습니다. 개발된 Time-to-event 모델에 기반하여, 개별 환자 수준의 예측을 용이하게 하기 위한 R Shiny 애플리케이션을 만들었습니다. 결론: 본 연구는 대장암에서 재발 및 생존 여부와 시간 의존적 재발 및 생존 확률을 조기에 예측하기 위한 CEA의 활용가능성을 확인했습니다. 환자의 예후 예측을 위해 개발된 모델은 성능이 좋았으며, 개발된 모델과 R Shiny 어플리케이션이 한국 대장암 환자의 예후 평가에 도움이 되길 기대합니다.