1547 757

Cited 0 times in

이분형자료의 분류문제에서 불균형을 다루기 위한 표본 재추출 방법비교

DC Field Value Language
dc.contributor.author박근우-
dc.date.accessioned2019-01-02T16:45:58Z-
dc.date.available2019-01-02T16:45:58Z-
dc.date.issued2018-
dc.identifier.urihttps://ir.ymlib.yonsei.ac.kr/handle/22282913/166457-
dc.description의학전산통계학협동과정-
dc.description.abstract이분형자료의 분류에서 자료의 불균형 정도가 심한 경우 "계급 불균형"(Prati 2009)문제가 발생한다. 이러한 자료의 불균형 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본 재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 연구에서 사용한 표본 재추출 방법은 총 20가지이며 오버샘플링, CNN기반 언더샘플링, 언더샘플링, 오버샘플링 언더샘플링 혼합방법 총 4가지로 분류하였다. 표본 재추출 방법을 비교하기위해 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, Supoort Vector Machine, 랜덤 포레스트 모형을 사용하였다. 모의실험에서는 4개의 모형을 사용하였다. 첫 번째 모의실험은 불균형 정도를 고정하고 독립변수들의 선형 결합으로 나눌 수 없는 수식을 설정하고, 양 끝값에 오차를 두고 종속변수를 만들었다. 두 번째 모의실험은 첫 번째 모의실험과 동일한 상황에 한쪽 끝에만 오차를 두고 종속변수로 만들었다. 세 번째 모의실험은 종속변수의 선형 결합에 한쪽 끝값에 오차를 두고 종속변수를 만들었다. 네 번째 모의실험은 종속변수의 선형 결합에 한쪽 끝값에 세 번째 모의실험에 비해 오차를 적게 하고 종속변수를 만들었다. 모의실험 후 실제데이터를 사용하여 분석하였다. 분석결과, 가장 많은 모의실험과 자료분석에서 정확도가 0.5 이상이면서 민감도가 높았던 표본 재추출 방법은 Random Under Sampling(RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN이었다. 이를 통해 RUS방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 또한 개발된 오버샘플링 방법들이 언더샘플링 방법들 보다 민감도 수치가 높은 것을 확인하였다. 본 연구를 통해 임의로 표본을 뽑는 RUS 방법의 새로운 확장 가능성을 제시하는 바이다.-
dc.description.statementOfResponsibilityopen-
dc.publisher연세대학교-
dc.rightsCC BY-NC-ND 2.0 KR-
dc.rightshttps://creativecommons.org/licenses/by-nc-nd/2.0/kr/-
dc.title이분형자료의 분류문제에서 불균형을 다루기 위한 표본 재추출 방법비교-
dc.title.alternativeComparison of resampling methods for dealing with imbalanced data in binary classification problem-
dc.typeThesis-
dc.description.degree석사-
dc.contributor.alternativeNamePark, Geun U-
dc.type.localThesis-
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 2. Thesis

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.