212 110

Cited 0 times in

이분형자료의 분류문제에서 불균형을 다루기 위한 표본 재추출 방법비교

Other Titles
 Comparison of resampling methods for dealing with imbalanced data in binary classification problem 
Authors
 박근우 
Issue Date
2018
Description
의학전산통계학협동과정
Abstract
이분형자료의 분류에서 자료의 불균형 정도가 심한 경우 "계급 불균형"(Prati 2009)문제가 발생한다. 이러한 자료의 불균형 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본 재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 연구에서 사용한 표본 재추출 방법은 총 20가지이며 오버샘플링, CNN기반 언더샘플링, 언더샘플링, 오버샘플링 언더샘플링 혼합방법 총 4가지로 분류하였다. 표본 재추출 방법을 비교하기위해 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, Supoort Vector Machine, 랜덤 포레스트 모형을 사용하였다. 모의실험에서는 4개의 모형을 사용하였다. 첫 번째 모의실험은 불균형 정도를 고정하고 독립변수들의 선형 결합으로 나눌 수 없는 수식을 설정하고, 양 끝값에 오차를 두고 종속변수를 만들었다. 두 번째 모의실험은 첫 번째 모의실험과 동일한 상황에 한쪽 끝에만 오차를 두고 종속변수로 만들었다. 세 번째 모의실험은 종속변수의 선형 결합에 한쪽 끝값에 오차를 두고 종속변수를 만들었다. 네 번째 모의실험은 종속변수의 선형 결합에 한쪽 끝값에 세 번째 모의실험에 비해 오차를 적게 하고 종속변수를 만들었다. 모의실험 후 실제데이터를 사용하여 분석하였다. 분석결과, 가장 많은 모의실험과 자료분석에서 정확도가 0.5 이상이면서 민감도가 높았던 표본 재추출 방법은 Random Under Sampling(RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN이었다. 이를 통해 RUS방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 또한 개발된 오버샘플링 방법들이 언더샘플링 방법들 보다 민감도 수치가 높은 것을 확인하였다. 본 연구를 통해 임의로 표본을 뽑는 RUS 방법의 새로운 확장 가능성을 제시하는 바이다.
Files in This Item:
T014975.pdf Download
Appears in Collections:
7. Others (기타) > Others (기타) > 5. Others
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/166457
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse