266 349

Cited 0 times in

모형 불확실성에 따른 random survival forest와 Cox 비례위험모형의 예측오차 비교

Other Titles
 Prediction error of random survival forest and Cox regression analysis with model misspecification 
Authors
 엄지윤 
Issue Date
2017
Description
의학전산통계학협동과정 의학통계학전공/석사
Abstract
빅데이터 시대가 도래하면서 대용량의 정보들과 이를 처리하기 위한 데이터 마이닝 방법들이 임상 분야에 활발히 적용되고 있다. Random survival forest는 붓스트랩과 각 마디의 split 단계에서 무작위성을 부여하여 생존확률을 예측하는 마이닝 기법으로, 특별한 분포나 통계학적 가정이 전제되지 않아도 분석 가능하며 처리 속도가 빠르다는 장점 때문에 최근 각광받고 있다. 하지만 실제 임상 자료에서 random survival forest와 Cox 비례위험모형의 예측 정확도는 유사하였다. 본 연구의 목적은 두 방법의 예측력이 비슷한 이유를 다양한 자료 구조의 시뮬레이션 환경에서 찾고자 한다. 독립변수 내 상관성을 고려하여 여러 가지 경우의 참모형을 통해 생존 자료를 생성하고, 이차항과 교호작용, noise 변수 유무를 고려한 4가지 분석모형으로 random survival forest, Cox 비례위험모형, Lasso-Cox 모형을 비교하였다. 비교 척도로는 Harrell의 concordance index와 integrated brier score를 사용하였다. 모의실험 결과 분석모형이 참모형과 일치하는 경우 random survival forest는 Cox 비례위험 모형과 Lasso-Cox 모형에 비해 C-index가 낮고, IBS는 높아 예측력이 다소 떨어졌다. 반면, 이차항의 효과나 독립변수 간의 교호작용이 존재함에도 불구하고 이들을 포함하지 않고 독립변수의 주효과만으로 분석 모형에 적합하였을 경우, Cox 비례위험모형과 Lasso-Cox 모형는 Random survival forest보다 C-index가 낮았다. 특히 IBS는 2배 이상 높아져 예측 오차가 크게 증가하였다. 이에 반해 Random survival forest는 C-index와 IBS의 값이 크게 달라지지 않고 일정한 크기로 나타나 복잡한 참모형에서 분석모형이 부적합되더라도 어느 정도 예측력이 유지되었다. noise 변수가 추가된 경우에도 동일한 양상을 보였다. 빅데이터에서 자료 구조가 복잡할 경우, 자료의 참모형을 파악하기 어렵기 때문에 분석모형이 부적합될 위험성이 증가한다. 따라서 random survival forest가 분석모형을 잘못 적합하여도 예측력을 일정하게 보존할 수 있다는 측면에서 안정적이고, 빅데이터 시대에서 유용하게 사용될 수 있는 방법이라 기대된다. As being the new era of big data, data mining methods are applied to clinical research. Random survival forest is ensemble learning for analysis of right-censored survival data. It draws bootstrap samples randomly and chooses candidate variables randomly for splitting at each node of the tree. By giving randomization to the base learning process, random survival forest improves the performance of predicting survival probability. However, applications of random survival forest in real data showed little difference of prediction error between random survival forest and Cox regression analysis. The purpose of this article is to find the reason why two methods have similar performance. Various survival data with the correlation of covariates are generated, and true models are specified according to data. Also, analysis model are presented considering quadratic effect, interaction effect, and noise variables. They are fitted in random survival forest, Cox regression model, and Lasso-Cox model. After that, we compare three methods. The performance measures are Harrell’s c-index and IBS. When the analysis model was the same with true model, random survival forest had the lowest c-index and the highest IBS. As quadratic terms or interaction terms had significant effects on true model, but not included in analysis model, c-index of random survival forest was the highest and IBS was the lowest among three methods in the misspecified analysis model. Especially, IBS increased by more than twice in the case of Cox analysis and Lasso-Cox model. The simulation results demonstrated that, for random survival forest, the prediction error of variation was quite smaller than the others and the prediction capability was maintained even if model was misspecified. In the complex structure of big data, it is difficult to clarify true model. This gives rise to model misspecification risk. From this point of view, random survival forest can be useful methods in clinical research.
Files in This Item:
T014313.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 2. Thesis
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/154850
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links