195 654

Cited 0 times in

선형모형에 기초한 질적 형질과 일배체의 관련성 분석방법 비교

Other Titles
 A comparison of association analysis using linear model between qualitative trait and haplotype 
Authors
 한혜리 
Issue Date
2005
Description
의학전산통계학협동과정 의학통계학전공/석사
Abstract
[한글]

질병과 관련 있는 유전자를 찾기 위한 최근의 방법 중의 하나는 인간의 유전자에 존재하는 단일염기다형성(single nucleotide polymorphism; 이하 SNP)을 이용하는 것이다. 그러나 많은 질병들이 복합형질(complex trait)이므로 단일 SNP을 이용하는 방법에는 제약점이 있다. 이러한 한계를 극복하기 위해 여러 SNP들을 이용하여 일배체(haplotype)를 구축하는 방법이 제안되었다. 특히 SNP들이 독립적이지 않고 연관불균형(linkage disequilibrium)상태일 경우 일배체로 군집화하여 질병과의 관련성을 보는 것이 효과적인 방법이다.일배체를 구성함에 있어서 가장 중요한 문제는 일배체가 어떻게 구성되어 있는지를 알 수 없다는 사실이다. 따라서 일배체 빈도를 추정하기 위한 방법이 필요한데, 가장 대표적인 방법으로 EM 알고리즘을 들 수 있다. 그러나 EM 알고리즘은 안정적인 성능에도 불구하고 많은 SNP들이 존재하는 경우에는 추정이 불가능하다는 단점이 존재하여 이를 응용한 알고리즘들이 제시되었고 ECM 알고리즘, EE 알고리즘이 그것이다.구축된 일배체와 질병과의 관련성을 보기 위하여 본 논문에서는 선형모형에 기초한 네 가지 분석방법을 비교하였다. 결측치 유무에 따라 완전자료와 불완전자료로 나누어서 비교하였으며 환경요인을 고려한 경우와 그렇지 않은 경우도 비교하였다. 네 가지 방법을 실재자료를 이용하여 분석한 결과 여러 특징들을 볼 수 있었는데 일배체를 구성하는 SNP수가 많아질수록 각 방법간의 성능차이가 관찰되었다. HTR(haplotype trend regression)의 경우는 SNP수와 상관없이 일관되지 못한 결과를 보여주었고 Chaplin 방법이 가장 보수적인 방법인 것으로 보였으며 가장 덜 보수적인 방법은 스코어 방법인 것으로 나타났다. 또한 Chaplin 방법은 SNP수가 많은 경우 적은 결측치에도 결과가 많이 달라지는 것으로 나타났다. HWE 가정을 따르지 않는 자료인 경우는 스코어 방법이나 H-plus 방법을 사용하는 것이 바람직한 것으로 보였다.환경요인을 고려한 경우는 그렇지 않은 경우에 비해 질적 형질과 일배체의 관련성이 떨어지는 것으로 보아 환경요인을 고려하지 않고 관련성 분석을 할 경우 형질과 일배체의 관련성을 과대 해석할 수 있다는 것을 알 수 있었고 방법간의 비교 측면에서는 스코어 방법과 H-plus 방법간의 차이가 대체적으로 없는 것으로 보인다.



[영문]One of the recent methods for evaluating associations between genes and diseases is using SNP(single nucleotide polymorphism). Since most of diseases such as cancer, diabetes, schizophrenia, and coronary heart diseases are complex traits, methods of using single SNP have many restrictions, so the construction of haplotype which is composed of multiple SNPs within candidate genes is suggested for overcoming these restrictions. Especially, when SNPs are not independent and these are in linkage disequilibrium, haplotype-based analysis is useful in association studies.Since phase of haplotype is not unknown, we need methods which estimate haplotype frequency to resolve this haplotype ambiguity. Nevertheless EM algorithm is most popular because of stable performance, estimation using EM algorithm may be failed when there are number of SNPs. Furthermore, ECM algorithm and EE algorithm which are applying EM algorithm are suggested.For haplotype-based analysis we compared HTR, Score, Chaplin and H-plus method based linear model. In addition, we considered incomplete data set which has missing data and chose models which included genetic factors and environmental factors.In order to compare results of four methods, we used Cardiovascular genomic center data and hypertension as qualitative trait and observed some interesting results that the performance difference of four methods increased when the number of SNP was small or large. Moreover, HTR showed inconsistent results and Chaplin was considered most conservative method. When SNPs is not in HWE, Score method or H-plus method are recommended. Moreover, when we considered environmental factors, we knew environmental factors affected association of haplotype and disease and the difference of Score method and H-plus method was not showed.
Files in This Item:
T008937.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Others (기타) > 2. Thesis
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/136920
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links