Cited 0 times in
Development and Validation of a Distributed Neural Network Cox Model in Multi-Partitioned Data
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 박지애 | - |
dc.date.accessioned | 2025-04-18T05:07:18Z | - |
dc.date.available | 2025-04-18T05:07:18Z | - |
dc.date.issued | 2024-08 | - |
dc.identifier.uri | https://ir.ymlib.yonsei.ac.kr/handle/22282913/205085 | - |
dc.description.abstract | Biomedical datasets utilized for data-driven technologies exist in a distributed way across various industries and sites, including medical, financial, and public institutions. Depending on how data sources are distributed, the distributed data can be separated into horizontally or vertically partitioned data. When the sites have the same feature sets but different patient sets, we call the distributed data across the sites horizontally partitioned data. Conversely, when the sites hold disjoint sets of features for the same patient sets, the distributed data across the sites is referred to as vertically partitioned data. The number of patients and features in the dataset can be expanded horizontally or vertically through the two partitioned datasets. However, to construct a large-scale dataset, it could be necessary to introduce the concept and application of multi-partitioned data, which encompasses both horizontally and vertically partitioned data. Utilizing partitioned datasets across diverse industries and institutions enables the generalization of analysis set and allows for application of data that more precisely reflects patient characteristics. However, distributed data sharing between institutions is constrained by confidentiality and privacy concerns related to patient data. One alternative solution to harness distributed data while alleviating privacy protection issues is through distributed analytics, involving the sharing of aggregated intermediate results from each institution rather than the raw data itself. In order to estimate a patient’s prognosis, modeling the time until an event occurs, such as death, could be more important than modeling the occurrence of the event. The most widely used model for predicting time-to-event is the Cox proportional hazards model (referred to as the Cox model). The standard Cox model assumes linearity between features, which might pose limitations in addressing intricate relationships among numerous features in large-scale partitioned datasets. To overcome the limitations of the linearity assumption, the Cox model with neural networks can be a useful alternative as a nonlinear model. In this thesis, we develop a distributed neural network Cox model by adopting extreme learning machine (ELM) as an optimization method for neural networks. The particle swarm optimization (PSO) and the differential evolution (DE) are additionally considered to improve performance simultaneously with the use of ELM. Utilizing ELM, the proposed model incorporates a mechanism for exploring and selecting various hyperparameter settings after the first iteration, and it offers an efficient distributed model as a one-shot model. Additionally, the proposed distributed Cox model targets vertically and horizontally partitioned datasets, as well as multi-partitioned data that integrates both horizontal and vertical partitioning. The vertically, horizontally, and multi-distributed neural network Cox models developed in this thesis are referred to as VdistCox, HdistCox, and MdistCox, respectively. The experiments using simulated data were conducted to examine the characteristics of our models and time costs under various data conditions. In addition, we validated the proposed models using multi-partitioned data with nine and four parties from two real databases: the electronic intensive care unit collaborative research database (eICU) and the cancer genome atlas (TCGA). In the experiments of eICU, which is real horizontally partitioned data from different hospitals, we generated three horizontal partitions based on hospital datasets and three vertical partitions by randomly dividing 19 features at each hospital into sets of 6, 6, and 7. The number of patients in the first, second, and third horizontal partitions was 426, 286, and 243, respectively. In addition to the three hospitals used for model building, external performance was measured with three additional hospitals. In the experiments using 743 patients with breast cancer from the TCGA, we generated two vertical partitions based on 7 clinical features and 50 genetic features, and simultaneously constructed two horizontal partitions by randomly extracting 300 patients twice from the entire dataset. The remaining dataset was used for external validation. As the results of the simulations, it was confirmed that the proposed model accurately represented the linear and non-linear relationships between distributed features in the Cox model. Also, the hyperparameter setting process of the proposed model allowed for the selection of hyperparameters that maximized performance on the test set. In addition, the measurement of the time cost to evaluate the efficiency of the distributed model confirmed that the time cost increases with the number of patients but is little affected by the number of features. In results using real datasets, among ELM, ELM with PSO, and ELM with DE, the performance of ELM with DE was the best overall but had the greatest time cost. As confirmed in the simulation results for time cost based on the number of patients and features, VdistCox, with fewer patients, had a lower time cost than HdistCox. Moreover, MdistCox and HdistCox, which have the same number of patients, had similar time costs despite the differences in the number of features. When applied by expanding each single party's data vertically or horizontally, or by expanding vertically or horizontally partitioned data into multi-partitioned data, the performance of the proposed models improved. However, the performance improvement effect due to data expansion differed depending on the characteristics of the data before expansion. In order to improve performance through data expansion, it is necessary to understand the characteristics of available data and utilize data vertically, horizontally, or in both directions rather than considering only a specific direction. The multi-distributed neural network Cox model proposed in this thesis can be expected to improve the generalization and external performance of the Cox model without data sharing in a distributed environment through simultaneous data expansion in the vertical or horizontal direction. In addition, the proposed models use ELM as a basic optimization method to set hyperparameters in a one-shot manner and apply additional optimization methods, such as PSO and DE, to build vertical, horizontal, and multi-distributed neural network Cox models. This approach considers both the efficiency and performance of the distributed models. 데이터 기반 기술을 위한 biomedical data는 의료, 금융, 공공기관 등 다양한 산업 및 기관에 걸쳐 분산된 형태로 존재한다. 여러 기관에 분산된 데이터는 일반적으로 수직 또는 수평 분할 데이터로 구분한다. 서로 다른 사이트에서 동일한 feature 세트에 대해 환자 데이터 세트가 다른 경우 사이트 전체에 분산된 데이터를 수평 분할 데이터라고 한다. 반면, 동일한 환자들에 대해 서로 다른 feature 세트가 여러 사이트들에 분산되어 있는 데이터의 경우 수직 분할 데이터라고 한다. 두 분할 데이터를 통해 데이터세트의 환자 수와 feature수를 수평적 또는 수직적으로 확장할 수 있지만, 대규모 데이터세트를 확보하기 위해서는 수평과 수직 분할 데이터를 모두 고려할 수 있는 다중분할 데이터의 개념 및 적용이 필요할 수 있다. 서로 다른 산업 및 기관의 경계를 넘어서 수직, 수평, 또는 다중분할 데이터의 활용은 분석 집단을 일반화하고 환자의 특징을 더 정교하게 고려한 데이터 활용을 가능하게 해준다. 그러나 환자 데이터의 기밀성과 개인정보 보호 문제로 인해 기관간 분산된 데이터 공유가 제한된다. 개인정보 보호 문제를 완화하면서 분산 데이터를 활용할 수 있는 하나의 대안적인 방법은 직접적인 데이터 공유대신 각 기관 데이터로부터 집계된 중간 결과를 공유하는 방식으로 distributed analytics를 하는 것이다. 환자의 예후를 예측하기 위해서는 사망과 같은 어떠한 임상적 사건이 발생할 때까지의 시간을 모델링하는 것이 중요하다. 이벤트 발생 시간을 예측하기 위해 가장 널리 사용되는 모델은 Cox 비례 위험 모델(Cox 모델이라고 함)이다. 일반적인 Cox model은 feature들간 선형성을 가정하는데, 이 가정은 대규모의 분할데이터에서 많은 feature들간 복잡한 관계를 다루기에 제한이 있을 수 있다. 선형성 가정의 한계를 극복하기 위해 신경망을 사용한 Cox model은 비선형 생존모델로서 유용한 대안이 될 수 있다. 본 논문에서는 신경망의 최적화 방법으로 ELM(Extreme Learning Machine)을 채택하여 각 사이트의 데이터를 공유하지 않는 분산 신경망 Cox 모델을 개발한다. ELM 사용과 동시에 성능 향상을 위해 PSO(particle swarm Optimization) 및 DE(Differential Evolution)를 추가적으로 고려하였다. 또한, 다양한 hyperparameter setting들을 첫 번째 반복이후 탐색하여 선택할 수 있는 특징을 가지고 있으며, ELM만을 사용하는 제안 모델은 one-shot model로서 보다 효율적인 분산 모델을 제공한다. 한편, 제안된 분산 Cox 모델의 대상이 되는 분할 데이터는 수직 및 수평 분할 데이터뿐 아니라, 수직과 수평 분할 데이터가 혼합된 다중 분할 데이터를 포함한다. 본 논문에서 개발된 수직, 수평, 다중 분산 neural network Cox model은 VdistCox, HdistCox, MdistCox라 한다. 우리는 제안모델의 nonlinear distributed Cox model로서의 특징 및 다양한 데이터 조건에서 time cost를 살펴보기 위해 simulated data를 통한 실험을 하였다. 또한, 실제 데이터를 통한 검증을 위해 두 개의 실제 데이터베이스인 eICU(the electronic intensive care unit collaborative research database)와 TCGA(the cancer genome atlas)를 사용하였다. eICU로 9개 party, TCGA로 4개 party를 가지는 다중 분할 데이터를 생성하여 본 논문에서 개발된 MdistCox를 검증했다. 병원단위로 분산된 실제 수평 분할 데이터인 eICU의 실험에서는 병원 데이터세트 별로 3개의 수평 분할을 생성했고, 동시에 각 병원의 19개 feature들을 무작위로 6, 6, 7개로 나누어 3개의 수직 분할을 생성했다. 첫 번째, 두 번째, 세 번째의 수평 분할된 병원의 환자는 각각 426명, 286명, 243명이었다. 모델구축을 위한 3개 병원 외에 3개의 외부병원을 대상으로 외부성능 측정하였다. 또한, TCGA의 유방암 환자 743명을 대상으로 한 실험에서는 전체 데이터 세트에서 무작위로 300명의 환자를 두 번 추출하여 2개의 수평분할을 생성하고, 동시에 7개의 clinical feature set과 50개의 genetic feature set으로 2개의 수직 분할을 생성하였다. 나머지 환자 데이터 세트는 외부 검증에 사용되었다. 시뮬레이션 결과, 제안 모델은 Cox model에서 서로 분산된 feature들간 선형 또는 비 선형적인 true relationship을 잘 나타내 주었고, 제안 모델의 hyperparameter setting 과정은 test set에서의 성능을 가능한 높게 해주는 hyperparameter들을 선택할 수 있게 해주는 것을 확인하였다. 또한, 분산 모델의 효율성을 평가하기 위해서 time cost를 측정한 시뮬레이션에서, 제안모델은 환자수의 크기가 증가함에 따라서는 time cost가 증가하지만, feature수의 증가는 time cost에 거의 영향을 주지 않는 것을 확인하였다. 실제 데이터의 실험 결과에서는, ELM, ELM과 PSO, ELM과 DE의 최적화 방법 중에서 ELM과 DE의 성능은 전반적으로 가장 높은 성능을 보였지만 time cost가 가장 컸다. 시뮬레이션에서 확인된 환자 수 및 feature 수에 따른 time cost의 결과와 같이, 환자 수가 더 적은 VdistCox는 HdistCox보다 time cost가 더 낮으며, 동일한 환자수를 보유한 MdistCox와 HdsitCox는 feature수가 다름에도 거의 비슷한 time cost의 결과를 보였다. 각 단일 party 데이터를 수직 또는 수평으로 확장하거나, 수직 또는 수평으로 분할된 데이터를 다중 분할 데이터로 확장하여 분산 모델을 적용한 경우 성능이 향상되었다. 하지만 데이터 확장으로 인한 성능 향상 효과는 확장 이전의 데이터 특성에 따라 달랐다. 데이터 확장을 통한 성능 향상을 위해서는, 특정 방향만을 고려하기 보다는 이용가능한 데이터의 특성을 파악하여 수직, 수평, 또는 양방향으로의 데이터를 활용할 필요가 있다. 우리가 제안한 다중 분산 neural network Cox 모델은 수직 또는 수평 방향으로의 동시적 데이터 확장을 통해 분산환경에서 데이터 공유없이 Cox 모델의 일반화 및 외부 성능 향상을 기대할 수 있다. 또한, 제안모델은 ELM을 기본적인 optimization method로 사용하여 one-shot 방식으로 hyperparameter를 setting하고 PSO와 DE의 추가적인 optimization method를 적용하여 분산 모델의 효율성과 성능을 고려한 수직, 수평, 다중 분산 neural network Cox model을 구축할 수 있게 한다. | - |
dc.description.statementOfResponsibility | prohibition | - |
dc.publisher | 연세대학교 대학원 | - |
dc.rights | CC BY-NC-ND 2.0 KR | - |
dc.title | Development and Validation of a Distributed Neural Network Cox Model in Multi-Partitioned Data | - |
dc.title.alternative | 다중 분할 데이터에서 distributed neural networks Cox model의 개발 및 검증 | - |
dc.type | Thesis | - |
dc.contributor.college | College of Medicine (의과대학) | - |
dc.contributor.department | Others (기타) | - |
dc.description.degree | 박사 | - |
dc.contributor.alternativeName | Park, Jiae | - |
dc.type.local | Dissertation | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.