Cited 0 times in

Development and validation sepsis clustering model with longitudinal multi-modal data

Other Titles
 종단적 멀티모달 데이터를 이용한 패혈증 클러스터링 모델 개발 및 검증 
Authors
 성민동 
College
 College of Medicine (의과대학) 
Department
 Dept. of Internal Medicine (내과학교실) 
Degree
박사
Issue Date
2023-02
Abstract
"Sepsis is a serious condition in which an uncontrolled response to infection leads to life- threatening organ dysfunction. Due to the diverse nature of sepsis, there is no standard test for diagnosing it. Recent advancements in genomics, data science, and machine learning have greatly improved the precision and personalization of medicine. In particular, single-cell transcriptomics analysis technology has been developed to gain further insights into the basic biology of many diseases. Previous studies have attempted to cluster sepsis, but they have been limited by the long time required for classification or by using only admission variables. This study aims to cluster heterogeneous sepsis using a deep learning method, specifically focusing on single-cell transcriptomic of immune cells and cytokine analysis in the blood to investigate changes over time in sepsis shock with severe sepsis. The retrospective cohort used the MIMIC-IV dataset. From the MIMIC-IV dataset, we created two datasets: the pretrain set, which included all the patients in the MIMIC-IV dataset, and the sepsis set, which included only patients who were classified as septic. Using logistic regression analysis, we identified 100 time-varying variables that were highly related to the 28-day mortal- ity rate in the sepsis set, along with demographic variables such as age and sex. The patients in the pretrain set with the selected variables were used as input for a modified transformer model (defined as the pretrain model) to learn a vector representing the patient’s current state, referred to as the “status embedding vector.” The sepsis set was then extracted from the MIMIC-IV dataset. Using the pretrain model, we inferred the status embedding vector of the sepsis set. These embedding vectors were then clustered using a consensus k-means algorithm. Clinical variables were compared in the resulting clustered sepsis phenotypes, and survival analysis was performed to further analyze these phenotypes. In addition to comparing with previous clinical indices, we developed two models that predict the 28-day mortality of sepsis patients using the SOFA (Sequential Organ Failure Assessment) score, which is widely used in clinical practice as a diagnostic and prognostic marker. These models were developed with and without the sepsis clusters obtained through our analysis. The performance of the models was evaluated using the AUROC (Area Under the Receiver Operating Characteristic) metric, and the feature importance was evaluated using SHAP (SHapley Additive exPlanations). To longitudinally analyze patients with sepsis, two prospective cohorts were established: (1) a cohort consisting of 4 sepsis shock patients admitted to the emergency room of Severance Hospital from April to June 2022, which was referred to as the “prospective cohort I”; and (2) a cohort consisting of 20 sepsis patients and 20 patients with inflammation but not sepsis, who were admitted to the ICU, which was referred to as the “prospective cohort II.” In prospective cohort I, blood samples were collected from these patients at three different time points: (1) during the septic shock period, defined as the T1; (2) at the resolution of shock, defined as the T2; and (3) at the time of discharge from the hospital, defined as the T3. Plasma and peripheral blood mononuclear cells (PBMCs) were isolated from the blood samples. Cytokines related to sepsis were measured in the plasma, and single-cell RNA was extracted and analyzed using PBMCs. In prospective cohort II, blood samples were collected at 0, 1, 3, and 7 days after admission. Plasma was isolated from the blood samples. The single-cell transcriptomics of PBMC were analyzed in prospective cohort I. Cytokines related to sepsis were also measured in the plasma in both prospective cohorts. Clinical indicators that were most similar to the analyzed results were identified to incorporate more immunological information into the clustering model. By applying the retrospective model to the prospective cohorts, we were able to obtain the status embedding vectors from all time points when blood samples were collected. These vectors were then clustered using the k-means clustering model developed in the retrospective cohort. The results of the clustering analysis were compared with those of the cytokine analysis and single- cell transcriptomics analysis. The pretrain set (N = 76,943) was used to train the pretrain model. The sepsis set (N = 25,951) was used to cluster the sepsis phenotypes. The sepsis set was divided into five clusters: clusters 1, 2, 3, 4, and 5, with the worst prognosis in cluster 5. The survival analysis showed that the survival curve of all clusters was meaningful as a result of the log-rank test. (p < 0.001). The mortality prediction model with cluster showed AUROC as 0.65 compared to 0.62, which was the model without the cluster. The feature importance of the model with cluster showed that the most important feature was the cluster rather than the SOFA score. In the prospective cohort I, we analyzed the single-cell transcriptomics in PBMCs. When we calculated the cell type fraction at each time point for each patient, we observed that lymphocytes showed a decreasing trend at T1 and increasing trends at T2 and T3. Monocytes did not change much, but the distribution of cells constituting the monocytes changed. We further analyzed the monocytes and found that the monocyte subcluster 5 and 6 increased at T1, but decreased at T2 and T3. In contrast, monocyte subcluster 1 decreased at T1, but increased at T2 and T3. We also performed gene set enrichment analysis to confirm the role of these monocyte subcluster and found that monocyte subcluster 5 and 6 were related to the mTORC1 pathway, while monocyte subcluster 1 were related to the interferon-gamma and alpha pathway. To verify the conditions of these patients, we measured cytokine levels known to be associated with sepsis at each time point and compared them with levels in normal people in other cohorts. Compared to normal people, levels of IL-2, 4, and IFN-gamma decreased at T1 and decreased further over time. In contrast, levels of IL-1b, IL-6, IL-10, TNF-alpha, and CCL2/MCP-1 increased compared to normal people at T1, but decreased at T2 and T3. IL-18/IL-1F4, which stimulates interferon gamma secretion, increased compared to the normal group but showed the highest level at T2. In the prospective cohort I, we calculated status embedding vectors for 12 time points and used a previous clustering model. Only sepsis cluster 3 and 4 were identified from the 12 time points. As time went on, we observed an increase in the proportion of clusters with a better progno-sis. We evaluated the gene expressions of sepsis cluster 4 compared to 3 and found that the complement, inflammtory, IL-6, and IL-2 signaling pathways were dominant in cluster 4. Ad- ditionally, we observed that the hypoxia and mTORC1 signaling pathways were dominant in cluster 4 among monocytes. In the prospective cohort II, both the sepsis and non-sepsis groups showed similar patterns, but the sepsis group had a higher rate of poor prognosis on day 1. Over time, the proportion of poor prognosis clusters decreased in this cohort as well. We compared the CCL2/MCP-1, IL-18/IL-IF4, and TNF-𝛼cytokine levels of the different clusters and found that cluster 5, which had the poorest prognosis, had higher levels of cytokines compared to the other clusters. In this study, the heterogeneity of sepsis was evaluated with clinical phenotypes and molecular biological phenotypes, also the association of clinical phenotype and the molecular phenotype. With the development of genome analysis, and deep learning technology based on big data, efforts are being made to go to precision medicine and personalized medicine, and the intensive care field is no exception. Clustering the heterogeneity of sepsis, which currently does not have a golden-standard diagnosis test and treatment, will be useful for diagnosis, and further individualized treatments according to this diagnosis will come out.

패혈증은 감염에 대한 조절되지 않은 숙주의 반응으로 인해 발생하는 생명을 위협하는 장기 기능 장애로 정의된다. 그러나 패혈증의 이질성으로 인하여 패혈증에 대한 표준 검사법은 없다. 최근 유전체, 데이터 과학 및 기계 학습의 발전은 의학을 개인화 정밀화하는데 큰 공헌을 하고 있다. 특히 단세포 수준에서 전사체학을 분석하는 기술이 개발되어 많은 질병의 기초 생물학에 대한 이해를 더욱 향상시켰다. 최근, 패혈증에 대한 분류를 하고자 하는 연구는 이전에 있었으나, 구분을 하는데 있어 필요한 기간이 길다거나, 입실시의 변수만을 가지고 분류를 하는 한계점이 있었다. 따라서, 본 연구는 이질적인 패혈증을 딥러닝 방법을 이용하여 분류를 하고자 한다. 특히, 패혈증의 정도가 심한 패혈증성 쇼크에 대해서는 시간이 갈수록 어떠한 변화가 있는지 혈액의 면역세포들에 대해서 단일세포전사체 분석 및 사이토카인 분석을 진행하고자 한다. 후향적 코호트는 MIMIC-IV 데이터셋을 사용하였다. MIMIC-IV 데이터셋에서 MIMIC-IV 데이터셋에 모든 환자가 포함된 전학습 집합과 패혈증으로 분류된 환자만 포함된 패혈증 집합 두 가지 데이터셋을 만들었다. 로지스틱 회귀분석을 이용하여 연령, 성별 등 인구통계학적 변수와 함께 패혈증 집합에서 28일 사망률과 연관성이 높은 시간에 따라 변하는 변수 100개를 확인하였다. 선택된 변수로 설정된 전학습 집합 내의 환자들은 '상태 임베딩 벡터'로 지칭되는 환자의 현재 상태를 나타내는 벡터로 전학습 모델인 변형된 트렌스포머 (Transformer) 모델을 학습하였다. 전학습 모형을 이용하여 패혈증 집합의 상태 임베딩 벡터를 계산하였다. 이어서, 이러한 임베딩 벡터들은 합의 k-평균 알고리즘을 사용하여 군집 분석을 진행하였다. 생성된 군집 패혈증 표현형에서 임상 변수를 비교하였고, 이러한 표현형을 추가로 분석하기 위해 군집별 생존 분석을 수행하였다. 기존 임상지수와 비교하는 것 외에도 진단 및 예후 마커로 임상에서 많이 활용되는 SOFA(순차 장기부전 평가) 점수를 활용해 패혈증 환자의 28일 사망률을 예측하는 두 가지 모델을 개발했다. 이 모델들은 우리의 분석을 통해 얻은 패혈증 클러스터의 유무에 따라 개발되었다. 모델의 성능은 AUROC(Area Under the Receiver Operating Characteristic) 메트릭을 사용하여 평가하였고, 특징 중요도는 SHAP(Shapley Additive Explanations)을 사용하여 평가하였다. 패혈증 환자를 종단적으로 분석하기 위해 두개의 전향적 코호트를 구성하였다. ""전향적 코호트 I""은 2022년 4월부터 6월까지 세브란스병원 응급실에 입원한 패혈증 쇼크 환자 4명으로 구성되었으며, ""전향적 코호트 II""는 중환자실 입실 환자 중 20명의 패혈증 환자와 20명의 염증이 있지만 패혈증이 없는 환자로 구성하였다. 전향적 코호트 I에서, 혈액 샘플은 패혈증성 쇼크(시점1), 쇼크가 해결되었을 때(시점2), 퇴원 전(시점3)의 3번의 시점에서 수집되었습니다. 수집된 혈액 샘플에서 혈장과 말초혈액 단핵구 (PBMC)를 분리하였다. 혈장에서 패혈증과 관련된 사이토카인을 측정하고, PBMC를 이용하여 단세포 RNA를 추출하여 분석하였다. 전향적 코호트 II에서는 각각의 환자에서 입실 후 0일, 1일, 3일, 7일에 혈액 샘플을 채취하였다. 혈장은 혈액 샘플에서 분리되었다. PBMC의 단일 세포 전사체는 전향적 코호트 I에서 분석되었다. 패혈증과 관련된 사이토카인은 또한 두 전향적 코호트에서 혈장에서 측정되었다. 전향적 코호트에 후향적 모델을 적용하여 혈액 샘플을 채취한 모든 시점으로부터 상태 임베딩 벡터를 얻은 후, 다음 후향 코호트에서 개발된 k-평균 클러스터링 모델을 사용하여 이러한 벡터를 클러스터링하였다. 군집 분석 결과는 사이토카인 분석 및 단세포 전사체 분석 결과와 비교하였다. 전학습 집합(N=76,943)은 전학습 모델을 훈련시키는 데 사용되었다. 패혈증 세트 (N = 25,951)를 사용하여 패혈증 표현형을 클러스터링하였다. 패혈증 집합은 군집 1에서 가장 예후가 좋고, 군집 5에서 예후가 가장 나쁜 군집으로 하여 1, 2, 3, 4, 5의 5개 군집으로 구분하였으며, 생존 분석 결과 로그랭크 검사 결과 모든 군집의 생존 곡선이 유의미한 것으로 나타났다 (p < 0.001). 군집이 있는 사망률 예측 모형은 군집이 없는 모형인 0.62에 비해 AUROC가 0.65로 나타났다. 클러스터가 있는 모형의 특징적 중요성은 SOFA 점수보다는 클러스터가 가장 중요한 특징임을 보여주었다. 전향적 코호트 I에서 PBMC의 단세포 전사체학을 분석하였다. 환자별 시점별 세포형 분율은 1번 시점에서는 림프구가 감소 추세를 보였고 2, 3번 시점에서는 증가 추세를 보였다. 단핵구는 큰 변화가 없었지만 단핵구를 구성하는 세포의 분포는 변했다. 우리는 단핵구를 추가로 분석하여 단핵구 그룹 5와 6이 시점 1에서 증가했지만 시점 2와 3에서 감소하였으며. 대조적으로 단핵구 그룹 1은 시점 1에서 감소했지만 시점 2와 3에서 증가했다. 이러한 단핵구 그룹의 역할을 확인하기 위해 유전자 세트 농축 분석을 수행 하였다. 단핵구 그룹 5 및 6이 mTORC1 경로와 관련이 있는 반면, 단핵구 그룹 1은 인터페론-감마, 알파 경로와 관련이 있었다. 이들 환자의 상태를 검증하기 위해 매 시점 패혈증과 연관이 있는 것으로 알려진 사이토카인 수치를 측정해 다른 코호트의 정상인 수준과 비교했다. 정상인에 비해 IL-2, 4, 인터페론 감마 농도는 시점 1에서 감소하였고 시간이 지남에 따라 더 감소하였다. 대조적으로, IL-1b, IL-6, IL-10, TNF-alpha 및 CCL2/MCP-1의 농도는 1 시점에서 정상인에 비해 증가했지만, 2 및 3 시점에서 감소했다. 시점 2에서 인터페론 감마 분비를 자극하는 IL-18/IL-1F4는 정상인에 비해 증가했지만, 가장 높은 수준을 보였다. 전향적 코호트 I에서는 12회 지점에 대한 상태 임베딩 벡터를 계산하고 이전 군집화 모형을 사용하였다. 12회 시점부터 군집 3와 군집 4만 확인되었다. 시간이 지남에 따라 예후가 더 좋은 군집의 비율이 증가하는 것을 관찰하였다. 우리는 유전자 세트 농축 연구를 사용하여 클러스터 3와 4의 유전자 발현을 비교했고 군집 4에서 보체, 염증, IL-6 및 IL-2 신호 전달 경로가 우세하며, 저산소증 및 mTORC1 신호전달체계가 군집 4의 단핵구에서 우세하다. 전향적 코호트 II에서는 패혈증군과 비패혈증군 모두 유사한 양상을 보였으나, 패혈증군은 1일차 예후 불량률이 더 높았으며, 시간이 지남에 따라 이 코호트에서도 예후 불량 군집의 비율이 감소하였다. 서로 다른 군집의 CCL2/MCP-1, IL-18/IL-IF4, TNF-α 사이토카인 수치를 비교한 결과 예후가 가장 나쁜 군집 5가 다른 군집에 비해 사이토카인 수치가 높은 것으로 나타났다. 본 연구에서는 패혈증의 이질성을 임상 표현형과 분자 생물학적 표현형, 또한 임상 표현형과 분자 표현형의 연관성으로 평가하였다. 유전체 분석과 빅데이터 기반 딥러닝 기술이 발달하면서 정밀의학과 개인맞춤의학으로 가기 위한 노력이 이어지고 있고, 중환자실 분야도 예외는 아니다. 현재 골든스탠다드 진단검사와 치료법이 없는 패혈증의 이질성을 군집화하는 것이 진단에 유용할 것이며, 이 진단에 따른 개별화된 치료법이 추가로 나올 것이다."
Files in This Item:
T015669.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Dept. of Internal Medicine (내과학교실) > 3. Dissertation
Yonsei Authors
Sung, MinDong(성민동) ORCID logo https://orcid.org/0000-0002-5217-8877
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/196894
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links