Cited 0 times in 
Cited 0 times in 
Predicting locoregional recurrence in breast cancer following breast-conserving therapy using learning-based models with multi-institutional registries
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | 유상균 | - |
| dc.date.accessioned | 2026-02-05T06:08:21Z | - |
| dc.date.available | 2026-02-05T06:08:21Z | - |
| dc.date.issued | 2025-02 | - |
| dc.identifier.uri | https://ir.ymlib.yonsei.ac.kr/handle/22282913/210645 | - |
| dc.description.abstract | Purpose: Radiotherapy (RT), alongside surgery, is an essential component that consists of breast- conserving therapy. However, in a small percentage of patients, locoregional recurrence (LRR) may occur, leading to achieving the purpose of treatment. This study aims to develop and validate a machine learning (ML) model that incorporates radiomics features from multi-institutional registries to predict the risk of LRR in breast cancer patients. By utilizing a single magnetic resonance imaging (MRI) sequence (T2-weighted with fat suppression) and identifying the key features associated with risk of LRR, this study seeks to enhance the robustness and clinical applicability of LRR risk predictive models for personalized treatment planning. Methods: A multi-institutional registry of 352 breast cancer patients was retrospectively collected and analyzed. The dataset comprised diagnostic T2-weighted MRI scans with fat suppression, manually delineated primary breast tumors, and clinical factors such as age at diagnosis, tumor size, pathology, and molecular subtypes. The delineation was performed and confirmed by board- certified radiation oncologists at each institution. To address class imbalance, various data sampling methods, including oversampling techniques, were explored and evaluated. Ultimately, a balanced subset was randomly selected to address class imbalance and ensure equal representation of LRR and non-LRR cases during model development. Radiomics features, including shape, first-order statistics, and texture, were extracted from manually contoured regions of interest (ROIs). During feature extraction, the impact of MRI scan normalization on model performance was also assessed. A machine learning model was developed using feature selection techniques and principal component analysis (PCA), with logistic regression as the classifier. A domain adaptation technique was employed to improve model performance. Additionally, a model incorporating both radiomics features and clinical factors known to be associated with the risk of LRR was developed to evaluate the added predictive value of combining different data types. The model’s performance was evaluated using five-fold cross-validation and an independent test dataset, with calibration applied to improve the accuracy of probability estimates. Results: The model achieved the best performance when MRI scan normalization was applied, feature selection was performed using a wrapper method (Recursive Feature Elimination, RFE), and both radiomics features and clinical factors were included as inputs. Under these conditions, the model achieved an average AUC of 0.757 (95% confidence interval, 0.715-0.799) for cross- validation and 0.762 for the independent test dataset. Conclusion: In this study, a predictive model for the risk of LRR in breast cancer patients was developed by integrating radiomics features with clinical factors known to be associated with LRR risk. The findings suggest that radiomics, as a non-invasive biomarker, could contribute to enhancing personalized risk assessment when integrated with clinical factors. To further validate the proposed model’s predictive power, prospective datasets should be analyzed in future studies. 목적: 방사선 치료는 수술과 함께 유방보존치료를 가능하게 하는 필수적인 치료법이다. 그러나 일부 환자에서 국소 재발(LRR)이 발생하여 유방 보존이 실패할 수 있다. 본 연구는 다기관 레지스트리에서 추출한 라디오믹스 특징을 통합하여 유방암 환자의 LRR 위험을 예측하는 기계 학습 모델을 개발하고 검증하는 것을 목표로 하였다. 단일 자기공명영상(MRI) 시퀀스(T2 가중 지방 억제)를 활용하고 LRR 위험과 관련된 주요 특징들을 식별함으로써, 본 연구는 LRR 위험 예측 모델의 견고성과 임상 적용 가능성을 높여 개인 맞춤형 치료 계획 수립에 기여하고자 한다. 방법: 다기관 레지스트리를 기반으로 352명의 유방암 환자 데이터를 후향적으로 수집하고 분석하였다. 데이터셋은 T2 가중 지방 억제 MRI 스캔, 수동으로 윤곽을 그린 유방 종양, 및 진단 시 연령, 종양 크기, 병리학적 특성, 분자 아형 등의 임상적 요인으로 구성되었다. 종양 윤곽은 각 기관의 방사선종양학 전문의에 의해 수행되고 검증되었다. 클래스 불균형 문제를 해결하기 위해 오버샘플링 기법을 포함한 다양한 데이터 샘플링 방법을 탐색하고 평가하였으며, 최종적으로 균형 잡힌 모델 개발을 위해 LRR 환자와 LRR 발생하지 않은 환자를 각각 동일한 비율로 포함한 샘플을 무작위로 선택하여 모델 개발에 사용했다. 라디오믹스 특징으로는 수동으로 윤곽을 그린 관심 영역(ROIs)에서 추출된 형태 기반, 일차 통계, 텍스처 특징들이 포함되어 있고, 특징 추출 과정에서 MRI 스캔 정규화가 모델 성능에 미치는 영향이 평가되었다. 기계 학습 모델은 특징 선택 기법들과 주성분 분석(PCA)을 사용하고 로지스틱 회귀를 분류기로서 사용하여 개발하였다. 또한, 모델 성능을 향상시키기 위해 도메인 적응(domain adaptation) 기법을 적용하였으며, LRR 위험과 관련된 임상적 요인과 라디오믹스 특징을 통합한 모델을 개발하여 서로 다른 데이터 유형을 결합했을 때의 추가적인 예측 가치를 평가하였다. 모델의 성능은 5-fold 교차 검증 및 독립적인 테스트 데이터셋을 사용하여 평가되었으며, 확률 추정의 정확성을 향상시키기 위해 칼리브레이션을 적용하였다. 결과: MRI 스캔 정규화를 적용하고, 래퍼(wrapper) 방식의 재귀적 특징 제거(Recursive Feature Elimination, RFE)를 활용한 특징 선택을 수행하며, 라디오믹스 특징과 임상적 요인을 모두 입력으로 포함했을 때 최고의 성능이 달성되었다. 이러한 조건에서 모델은 교차 검증에서 평균 AUC 0.757 (95% 신뢰 구간, 0.715-0.799)을, 독립적인 테스트 데이터셋에서 AUC 0.762를 달성하였다. 결론: 본 연구에서는 유방암 환자의 LRR 위험을 예측하기 위해 라디오믹스 특징과 LRR 위험과 관련된 임상적 요인을 통합한 예측 모델을 개발하였다. 연구 결과, 비침습적 바이오마커로서 라디오믹스는 임상적 요인과 결합될 때 개인 맞춤형 위험 평가를 향상시킬 가능성을 보여주었다. 본 모델의 예측력을 추가로 검증하기 위해 향후 전향적 데이터셋을 활용한 분석이 필요하다. | - |
| dc.description.statementOfResponsibility | open | - |
| dc.publisher | 연세대학교 대학원 | - |
| dc.rights | CC BY-NC-ND 2.0 KR | - |
| dc.title | Predicting locoregional recurrence in breast cancer following breast-conserving therapy using learning-based models with multi-institutional registries | - |
| dc.title.alternative | 유방보존치료 후 유방암 국소 재발을 예측하기 위한 다기관 레지스트리를 활용한 학습 기반 모델 개발 | - |
| dc.type | Thesis | - |
| dc.contributor.college | College of Medicine (의과대학) | - |
| dc.contributor.department | Others | - |
| dc.description.degree | 박사 | - |
| dc.contributor.alternativeName | Yoo, sang kyun | - |
| dc.type.local | Dissertation | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.