1 18

Cited 0 times in

Variable selection methods with FDR control for class imbalanced data via data splitting

Other Titles
 클래스 불균형 자료에서 데이터 분할을 통한 FDR 통제하의 변수 선택 방법 
Authors
 임현진 
College
 College of Medicine (의과대학) 
Department
 Others (기타) 
Degree
석사
Issue Date
2024-08
Abstract
Identifying pertinent variables associated with the response variable in high-dimensional data is crucial across diverse domains. Nonetheless, many of the selected variables might lack actual association with the response variable. Particularly in severely class-imbalanced data, simple Lasso regression often leads to a significant increase in the false discovery rate (FDR). Even with methods implemented to control FDR, the true positive rate (TPR) can be very low. This study proposes two approaches aimed at enhancing TPR when selecting variables while controlling FDR for class-imbalanced data through data splitting strategies: 1) an extension of penalized regression, and 2) adjustment of class imbalance ratio. For comparison, the Benjamini-Hochberg procedure and the Knockoff framework were included. A simulation study showed imbalance ratio adjustment methods improved performance compared to conventional approaches.

고차원 자료에서 반응변수와 유의미한 연관성을 갖는 독립변수를 선택하는 것은 다양한 분야에 적용되고 있다. 그러나 선택된 변수 중에서 실제로 응답 변수와 관련이 없는 변수가 다수 포함될 수 있는 문제점이 있다. 특히 심각한 클래스 불균형 자료에서 단순 Lasso regression의 변수 선택은 잘못된 발견 비 율 (False Discovery Rate, FDR)을 증가시킨다. FDR 통제 방법을 구현하더라도 실 제 양성 비율 (True Positive Rate, TPR)이 매우 낮을 수 있다. 본 논문에서는 클 래스 불균형 자료에서 FDR 통제 하에 데이터 분할을 통한 변수 선택 시 TPR 을 향상시키기 위한 두 가지 접근 방법을 제안한다.1) 패널티화 회귀의 확장, 2) 불균형 비율 조정 방법의 적용. 비교에는 Benjamini-Hochberg procedure과 Knockoff framework를 사용한다. 시뮬레이션 연구를 통해 기존 방법보다 제안 된 조정 방법에서 높은 성능임을 확인하였다.
Files in This Item:
T016597.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 2. Thesis
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/205149
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links