Risk Factors for Breast Cancer Recurrence and Recurrence Prediction Models in Patients with Breast Cancer Surgery
Authors
이해림
College
Graduate School of Public Health (보건대학원)
Department
Graduate School of Public Health (보건대학원)
Degree
석사
Issue Date
2024-08
Abstract
Despite the increased breast cancer survival rates due to early detection and improved medical technology, approximately 8-10% of breast cancer patients experience local recurrence, and 15-30% experience distant metastasis. Accurate prediction of breast cancer recurrence is crucial for enabling early intervention and improving overall survival rates. While research on breast cancer recurrence prediction using machine learning is actively underway, there is still a shortage of studies based on domestic data. This study utilized retrospective data collected from 13,968 patients who were diagnosed with breast cancer and underwent breast surgery at Severance Hospital from January 1, 2000, to May 31, 2019, excluding patients with pre-existing distant metastasis (120 patients) and those diagnosed with non-invasive breast cancer (2,523 patients). General characteristics based on breast cancer molecular subtypes and recurrence status were examined using the Chi-square test. Kaplan-Meier survival analysis was employed to analyze the recurrence-free survival rate after breast cancer surgery based on risk factors and treatment variables, with significance tested using the log-rank test. Cox Proportional Hazard models were used to analyze the risk factors for cancer recurrence after breast cancer surgery. Subgroup analysis was conducted to determine if there were differences in cancer recurrence risk according to breast cancer molecular subtypes. Predictive models for breast cancer recurrence were constructed using Cox Proportional Hazard models, Random Survival Forest, and XGBSE, and their goodness of fit and variable importance were compared. Data analysis was performed using R 4.3.4 and Python 3.12.2. The recurrence rate of breast cancer was approximately 11%, with 89% of patients remaining recurrence-free. HR+/HER2- subtype accounted for 54%, while HR+/HER2+ accounted for 18%, HR-/HER2+ for 10%, and HR-/HER2- for 15%. Recurrence-free survival rates showed significant differences according to the year of surgery, age at diagnosis, breast cancer molecular subtype, N stage, endocrine therapy, adjuvant chemotherapy, and surgical method. Notably, patients who underwent surgery after 2010 had higher recurrence-free survival rates than those who underwent surgery before 2010 (p<0.001), and patients aged under 30 showed the lowest recurrence-free survival rates (p<0.001). Among breast cancer molecular subtypes, triple-negative patients showed thelowest recurrence-free survival rates, and as T stage, N stage, and TNM stage progressed, recurrence-free survival rates decreased (p<0.001). Cox proportional hazard analysis revealed that higher age at diagnosis was associated with decreased recurrence risk (p<0.001). The risk of recurrence was observed to be higher in the order of HR+/HER2-, HR+/HER2+, HR-/HER2+, and HR-/HER2-(p<0.001). Recurrence risk also increased with advancing T stage and N stage (p<0.001). Patients who received radiation therapy or adjuvant chemotherapy had lower recurrence risk compared to those who did not (p<0.001). Patients who underwent breast-conserving surgery had lower recurrence risk compared to those who underwent total mastectomy (p<0.001), and those who underwent axillary lymph node dissection had higher recurrence risk compared to those who underwent sentinel lymph node biopsy (p<0.001). Subgroup analysis of relative risk of cancer recurrence according to breast cancer molecular subtypes revealed that surgery after 2010 had a greater impact on the effect of breast cancer molecular subtypes on cancer recurrence than surgery before 2010 (p=0.048). The effect of breast cancer molecular subtypes on cancer recurrence was significant in N stage 2 and 3 cases (p=0.018). Machine learning analysis results showed that machine learning models had lower predictive power than Cox proportional hazard models. The performance of the Random Survival Forest model was better on the training set (C-index 0.886) than on the test set (C-index 0.721), indicating overfitting to the training set. Although the XGBSE model showed similar performance in both the training set (C-index 0.769) and test set (C-index 0.692), its predictive power was the lowest. This study's significance lies in confirming the risk of breast cancer recurrence according to breast cancer molecular subtypes and staging and developing a predictive model for breast cancer recurrence using domestic single-center data. It underscores the importance of establishing patient follow-up plans considering breast cancer molecular subtypes and staging. However, since only data from a single institution were used, further research using large-scale multi-center data is needed to validate the study results.
조기 발견 및 개선된 의료 기술로 유방암 생존율은 증가함에도 불구하고 유방암 환자의 약 8-10%는 국소 재발을 경험하고 15-30%는 원격 전이를 경험한다. 유방암 재발의 정확한 예측은 초기 개입을 가능하게 하며 생존률을 높이는 것에 기여한다. 기계학습을 이용한 유방암 재발예측 연구가 활발히 진행되고 있는 반면, 국내 자료를 이용한 연구는 아직까지 부족한 실정이다. 본 연구는 2000년 1월 1일부터 2019년 5월 31일까지 신촌 세브란스 병원을 방문하여 유방암을 진단받고 유방절제술을 받은 13,968명 중 진단 시 이미 전이가 있는 환자(120명), 비침윤성 유방암을 진단받은 환자 (2,523명)을 제외한 11,292명을 대상으로 후향적으로 수집한 자료를 이용하였다. 유방암 분자 아형에 따른 일반적 특성, 유방암 재발 여부에 따른 일반적 특성은 Chi-square test로 확인하였다. Kaplan-Meier 생존 분석을 사용하여 유방암 위험요인 및 치료변수에 따른 유방암 수술 후 무 재발 생존율을 분석하고 Log rank test로 검정하였다. Cox Proportional Hazard model를 이용하여 유방암 수술 후 암 재발 위험요인을 분석하였다. 유방암 분자아형에 따른 암 재발 위험도가 변수 그룹 별로 차이가 있는지 확인하기 위해 하위그룹 분석을 시행하였다. Cox Proportional Hazard model, Random survival forest, XGBSE로 유방암 재발 예측모형을 구축하고 적합도와 변수 중요도를 비교하였다. 데이터 분석은 R 4.3.4와 Python 3.12.2를 사용하여 분석하였다. 무 재발 생존율은 수술 연도, 진단 시 연령, 유방암 분자 아형, N stage, 내분비 치료 여부, 수술 후 항암치료 여부, 수술 방법에 따라 유의미한 차이를 보였다. 특히, 2010년 이후에 수술받은 환자들의 무 재발 생존율이 2010년이전에 수술받은 환자들보다 높게 나타났으며(p<0.001), 30대 이하 환자들이 가장 낮은 무 재발 생존율을 보였다(p<0.001). 유방암 분자 아형 중에서는 삼중 음성 환자들이 가장 낮은 무 재발 생존율을 보였고, T stage, N stage, TNM stage가 진행될수록 무 재발 생존율이 감소하였다(p<0.001). 콕스 비례위험분석 결과 다른 변수들을 통제하였을 때 진단 시 연령이 높을수록 재발 위험도가 감소하며(p<0.001), 유방암 분자 아형 HR+/HER2-군 대비 HR+/HER2+군(HR=1.21, 95% CI =1.02-1.43), HR-/HER2+군(HR=1.53, 95% CI=1.08-2.15), HR-/HER2-군(HR=2.95, 95% CI=2.14-4.06)일수록 재발 위험이 증가한다. T stage, N stage 병기가 진행될수록 재발 위험이 증가한다(p<0.001). 방사선 치료를 받는 경우, 수술 후 항암치료를 받은 경우는 그렇지 않은 경우보다 암 재발 위험이 낮다(p<0.001). 유방 부분 절제술을 받은 군 대비 유방 전절제를 받은 군의 암 재발 위험이 높으며(p<0.001), 액와림프절 감시 생검술을 받은 군 대비 액와림프절 곽청술을 받은 군의 재발 위험이 높다(p<0.001). 유방암 분자 아형에 따른 암 재발 상대위험도 하위그룹 분석 결과 2010년 이후 수술받은 경우가 2010년 이전 수술받은 경우보다 유방암 분자 아형이 암 재발에 미치는 영향이 크다(p=0.048). N stage 2기, 3기인 경우에서 유방암 분자 아형이 암 재발에 미치는 영향이 크다(p=0.018). 머신러닝 분석 결과 Cox 비례위험 모델보다 머신러닝 모델의 예측력이 낮았다. RSF 모델의 성능은 train set(C-index 0.886)이 Test set(C-index 0.721)보다 좋으며 이는 RSF 모델이 Train set에 과적합 되었다고 볼 수 있다. XGBSE 모델은 Train set(C-index 0.769)과 Test set(C-index 0.692) 모두에서 비슷한 성능을 보이지만 예측력이 가장 낮다. 본 연구는 유방암 분자 아형과 병기에 따른 유방암 재발 위험도를 확인하였고 국내 단일기관 자료를 이용하여 유방암 재발 예측모델을 만들었다는 것에 의의가 있다. 유방암 분자 아형과 병기를 고려하여 환자의 추적관찰 계획을 세워야 한다. 단일기관의 자료만을 이용하였다는 제한점이 있으므로 연구 결과를 기반으로 향후 대규모의 다기관 자료를 이용한 유방암 재발 예측모델에 대한 연구가 필요하다.