0 10

Cited 0 times in

Development of machine learning-based model to predict cardiovascular disease in patients at risk using healthcare big data

DC Field Value Language
dc.contributor.author송신정-
dc.date.accessioned2025-04-18T05:05:35Z-
dc.date.available2025-04-18T05:05:35Z-
dc.date.issued2024-02-
dc.identifier.urihttps://ir.ymlib.yonsei.ac.kr/handle/22282913/204927-
dc.description.abstractThe rise in cardiovascular disease worldwide is causing enormous social and economic costs. Accordingly, the field of precision medicine aims to improve care through personalized prediction and prevention. In South Korea, we have health insurance claims data covering almost every citizen, which provides all the information about healthcare utilization behavior. Health insurance users can access their data through a simple authentication process. This data can be used to predict their personalized risk factors. Recently, bidirectional encoder representations from transformers (BERT) and related models have achieved tremendous success in the natural language processing domain. We adapt the BERT framework originally developed for the text domain to the structured HIRA data. The study aimed to predict cardiovascular diseases in subjects at risk (newly diagnosed metabolic diseases; hypertension, diabetes, hyperlipidemia) using health insurance claims data and BERT. Each disease was assigned to the training, validation, and test sets in the ratio of 7:2:1 through data augmentation. Patients' diagnoses and prescribed medications were embedded as input sequences, and age was used for positional encoding to distinguish visits. The model's predictive ability was evaluated by measuring the area under curve (AUC). In each group of patients diagnosed with hypertension, diabetes, and dyslipidemia, BERT achieved mean AUC areas of 97.9%, 97.8%, and 97.8%, respectively. We found that the top-ranked conditions for self-attendance were hypertension, diabetes, dyslipidemia, and diagnoses and medications that are more common in older adults. BERT performs good cardiovascular diseases prediction using only diagnosis names and medication prescriptions on a relatively small training dataset. This study suggests that BERT can be used to advance personalized predictive healthcare models and patient care. 전 세계적으로 심혈관 질환이 증가하면서 막대한 사회적, 경제적 비용이 발생하고 있다. 이에 따라 정밀의료 분야는 개인 맞춤형 예측과 예방을 통해 치료를 개선하는 것을 목표로 연구가 이뤄지고 있다. 한국에서는 거의 모든 국민을 대상으로 하는 건강보험 청구 데이터를 보유하고 있어 의료 이용 행태에 대한 모든 정보를 제공하고 있다. 건강보험 사용자는 간단한 인증 절차를 통해 자신의 데이터에 접근할 수 있는 장점이 있어 이 데이터를 이용하여 개인 맞춤형 위험 요인을 예측하는 데 사용될 수 있다. 최근 자연어 처리 영역에서 양방향 변환기 표현(BERT) 및 관련 모델이 주목을 받고 있으며, 텍스트 도메인을 위해 개발된 BERT 모델은 구조화된 건강보험 청구 데이터의 분석 및 적용에 적합할 것으로 판단하였다. 따라서 본 연구에서는 건강보험 청구 데이터를 BERT 모델을 통해 위험인자를 가진 환자에서 심혈관 질환발생을 예측하는 모델을 만들고자 하였다. 고혈압, 당뇨, 이상지질혈증을 새로 진단받은 환자를 위험도를 가진 환자로 정의하였으며, 각 질환에서 심혈관계 질환으로 발생하는 것을 예측하고자 하였다. 각 질환은 데이터 증강을 통해 7:2:1의 비율로 훈련, 검증, 테스트 세트로 나누었다. 환자의 진단과 처방된 약물은 입력 시퀀스로 포함되었으며, 방문을 구분하기 위해 나이를 위치 인코딩에 사용하였으며 모델의 예측 능력은 곡선 아래 면적(AUC)을 측정하여 평가하였다. 위험도를 가진 인구 (고혈압, 당뇨병, 이상지질혈증을 새로 진단받은)에서 BERT의 AUC area는 각각 97.9%, 97.8%, 97.8%에 달하였다. Self-attention의 가장 높은 순위를 차지한 질환은 고혈압, 당뇨병, 이상지질혈증 및 노년층에서 더 흔한 진단 및 약물 치료인 것으로 나타났다. BERT는 비교적 적은 훈련 데이터 세트에서 진단명과 약물 처방만을 사용하여도 훌륭한 심혈관 질환 예측 능력을 보여주었다. 이 연구는 BERT가 개인화된 예측 의료 모델로, 위험도를 가진 – 새로 진단받은 고혈압, 당뇨, 이상지질혈증 환자에서 심혈관계질환의 발생 예측결과를 보여주며, 이를 기반으로 하여 예후를 향상시킬 의료이용행태의 개선 및 개인 맞춤의료의 기반이 될 수 있을 것으로 기대한다.-
dc.description.statementOfResponsibilityopen-
dc.publisher연세대학교 대학원-
dc.rightsCC BY-NC-ND 2.0 KR-
dc.titleDevelopment of machine learning-based model to predict cardiovascular disease in patients at risk using healthcare big data-
dc.title.alternative위험인자를 가진 환자에서 심혈관 질환을 예측하는 머신 러닝 기반 모델 개발: 보건의료 빅데이터를 이용한 연구-
dc.typeThesis-
dc.contributor.collegeCollege of Medicine (의과대학)-
dc.contributor.departmentOthers (기타)-
dc.description.degree박사-
dc.contributor.alternativeNameSong, Shinjeong-
dc.type.localDissertation-
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 3. Dissertation

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.