16 27

Cited 0 times in

Development of a clinical next generation sequencing panel for diagnosis of cystic lung diseases : evaluation of diagnostic yield and optimization of bioinformatics pipelines

Other Titles
 낭성폐질환 진단을 위한 차세대 염기서열 분석 패널의 개발: 진단률 평가 및 바이오인포매틱스 파이프라인의 최적화 
Authors
 오주원 
College
 College of Medicine (의과대학) 
Department
 Dept. of Laboratory Medicine (진단검사의학교실) 
Degree
박사
Issue Date
2020
Abstract
낭성폐질환(cystic lung disease, CLD)은 ‘낭(cyst)’이라는 공통된 특징을 가지는 다양한 질환을 대표하는 질환군이다. 이러한 공통된 특징을 보이는 질환이 증가함에 따라 그 진단이 더욱 어려워지고 있다. CLD 중 연관된 유전자의 변이와 해당 질환과의 연관성이 잘 정의된 질환이 여러 개가 있다; 림프관평활근종증 (lymphangioleiomyomatosis, LAM, 빌트-호그-두베 증후군(Birt-Hogg-Dube syndrome, BHD), 결절성경화증(Tuberous sclerosis complex, TSC), 낭성섬유증(cystic fibrosis, CF) 등이 그 예이다. 지금까지는 CLD에 대한 분자유전학적 진단이 주로 생거시퀀싱(Sanger sequencing)에 의한 염기서열분석으로 이루어졌다. 질환과의 연관성이 밝혀진 모든 유전자에 대한 생거시퀀싱을 하는 경우 비용이 급격히 증가하기 때문에, 가장 높은 빈도로 변이가 보고되어 있는 유전자부터 먼저 검사를 한 뒤, 임상양상으로 판단했을 때 가장 의심되는 유전자를 순차적으로 검사하는 방식으로 유전학적 검사가 이루어져왔다. 이러한 관점에서 볼 때, 생거시퀀싱 방식으로 CLD 감별진단을 하는 것은 많은 비용과 시간이 필요하다는 문제점이 있기 때문에, 자연스럽게 많은 유전자를 한꺼번에 검사할 수 있는 검사법에 대한 필요성이 대두되었다. 최근, 표적 차세대염기서열분석(targeted next-generation sequencing, NGS) 방법이 개발되어 더 낮은 비용으로 더 많은 유전자들을 한꺼번에 표적하여 검사할 수 있게 되었다. 그러나, NGS 검사장비는 동일염기 반복서열을 발견하는데 부정확하거나 구조적 변이(structural variant, SV)를 찾아내는 것이 어려운 것이 단점이다. 이 연구에서 우리는 NGS 플랫폼을 이용한 맞춤형 낭성폐질환 패널 (CLD panel)의 진단율을 평가하고, 동일염기 반복서열을 정확히 기술하기 위한 최적의 바이오인포매틱스 변수 (parameter)를 정하였다. 총 62명의 낭성폐질환 환자를 대상으로 연구를 진행하였고, 모든 환자 검체는 FLCN 유전자의 Sanger 시퀀싱과 Multiplex Ligation-dependent Probe Amplification 검사를 시행하였으며 Ion torrent S5 NGS platform으로 NGS 시퀀싱을 진행하였다. 3개 종류의 바이오인포매틱스 파이프라인을 비교 하였다; NextGENe v.2.4.2.2, Ion Reporter Software 5.10, Biomedical Genomics Workbench 5.0. 최적화 후의 분석적 민감도는 Ion Reporter는 98.6% 에서 98.8%로 증가하였고, NextGENe은 99.0% 에서 100.0%로, Workbench는 99.8%에서 100.0%로 민감도가 모두 증가하였다. 전반적인 임상적 진단율은 FLCN Sanger 시퀀싱과 비교하였을 때, 38.7% 에서 40.3%로 증가하였다. 민감도 측면에서, Ion Reporter의 경우 최적화 후에도, 반복서열로 이루어진 hotspot 변이를 발견하지 못하였으나 일련의 최적화 과정과 여러 개의 독립적인 바이오인포매틱스 파이프라인을 종합적으로 고려함으로서, 전반적으로 NGS panel의 성능을 향상시킬 수 있었다. 그 외에도, CFTR 유전자에서 질병연관 변이를 발견하고, 하플로타입을 조합해보았다. NM_000492.3:c.374T>C 변이는 ACMG 가이드라인에 따르면 VUS로 분류되는 변이지만, CLD 환자군과 정상 환자군의 발현빈도 차에 따른 오즈비를 구했을 때, 3.90-5.62로 높게 나와 질병과의 연관성을 시사하였다. 또한 하플로타입 분석 결과, p.M470V과 p.Q1352H 변이가 있는 하플로타입이 CLD와 통계학적으로 경계적 (borderline) 중요성을 가지는 것으로 나타났다 (p value=0.0542). 우리는 이 연구에서 낭성폐질환 NGS 패널을 개발하고, 바이오인포매틱스 파이프라인을 최적화 시켰다. 진단율은 38.7%에서 40.3%로 증가하였다. 끝으로 하고자 하는 말은 NGS panel의 임상적 유용성은 질병원인 유전자를 밝히는데만 국한되지 않는다는 것이다. NGS를 통해 얻어진 많은 유전적 정보를 통해, 우리는 질병연관성 변이를 보고할 수 있고, 필요에 따라 하플로타입을 보고할 수 있으며, 낮은 빈도로 발견된 임상적으로 중요한 변이의 모자이시즘의 가능성도 언급해줄 수 있다는 점에서 더욱 그 임상적 유용성을 증가시킬 수 있다. Multiple cystic lung disease (CLD) represents a diverse group of uncommon disorders that can present a diagnostic challenge due to the increasing number of diseases associated with this presentation. Among CLD, several diseases have well-defined causative mutations in the relevant genes; e.g. Birt-Hogg-Dube syndrome (BHD), tuberous sclerosis complex (TSC) and cystic fibrosis (CF). Thus far, the molecular diagnosis of CLD is mainly based on Sanger sequencing. As Sanger sequencing of all the candidate genes substantially increase the cost, genetic testing usually starts with the most commonly involved genes and proceeds to less likely genes only when clinical suspicion is very high. In recent years, targeted next-generation sequencing (NGS) platform has been further developed, allowing us to focus specifically on genomic regions of interest for cheaper multiplexed sequencing of more cases. However, inaccuracy in detecting the length of homopolymers repeats and complexity in detecting structural variation became a critical barrier against accurate detection of genomic variations. Herein, we seek to establish an optimal bioinformatics pipeline for processing the NGS data. Through detemination of the optimal parameter settings for detecting mutations in error suspceptible region, we tried to increase the overall diagnostic sensitivity. Also, we evaluated diagnostic yield and validate the analytical performance of the CLD panel. 62 patients with multiple lung cysts was enrolled. Mutations in FLCN gene was characterized through Sanger sequencing, Multiplex Ligation-dependent Probe Amplification (MLPA) and quantitative PCR (qPCR). Evaluation of diagnostic yield of the CLD NGS panel was done using Ion torrent S5 NGS platform. Genomic DNA reference materials obtained from Coriell cell repository and results of Sanger sequencing-confirmed mutations in FLCN was used to validate analytical performance of the CLD panel. Three bioinformatics(BI) pipeline for processing NGS data were used; NextGENe v.2.4.2.2 (Softgenetics, PA, USA), Ion Reporter Software 5.10 (Thermo Fisher Scientific, Waltham, MA, USA), Biomedical Genomics Workbench 5.0 (QIAGEN bioinformatics, CA, USA). Optimization of each BI pipeline increased analytical sensitivities from 98.6% to 98.8% for Ion Reporter, from 99.0% to 100.0% for NextGENe and from 99.8% to 100.0% for Workbench. Overall diagnostic yield using NGS went up from 38.7% to 40.3% compared with FLCN Sanger sequencing alone. Even though the pathogenic hotspot of FLCN is mostly filtered out using Ion Reporter BI pipeline due to 8 homopolymers repeat sequences, adjusting BI can dramatically improve the overall performance. Optimization of the BI pipeline is essential when designing difficult NGS panel. Diesease-associated variants anlaysis and haplotype construction of CFTR gene showed CLD as a newly addressed phenotype of CFTR mutation carriers. When compared with allele frequency in normal control, NM_000492.3:c.374T>C variant classified as VUS according to ACMG guideline, showed Odds ratio of 3.90-5.62 with statistically significant difference. Among 14 haplotypes constructed, p.M470V in combination with p.Q1352H on the backgrounds of wild type of the rest of genetic loci showed borderline significant difference between the control group and CLD patients from this study (p value=0.0542). We developed CLD NGS panel and optimized variant calling process in BI pipelines. Adjusting BI improved the overall performances. Diagnostic yield using NGS went up from 38.7% to 40.3% compared with FLCN Sanger sequencing alone. Lastly, clinical usefulness of NGS panel is not limited to detecting the pathogenic variants. With the abundant genetic information, clinical laboratory can inform the clinicians about the disease-associated variants, suggest haplotype if needed, and provide informations of low AF variants with possible germline mosaicisim.
Files in This Item:
TA02493.pdf Download
Appears in Collections:
1. College of Medicine (의과대학) > Dept. of Laboratory Medicine (진단검사의학교실) > 3. Dissertation
Yonsei Authors
Oh, Joowon(오주원) ORCID logo https://orcid.org/0000-0002-8449-3660
URI
https://ir.ymlib.yonsei.ac.kr/handle/22282913/181184
사서에게 알리기
  feedback

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse

Links