VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing
#
Find similar titles
- (rev. 5)
- Hyungyong Kim
Structured data
- About
- VarScan
- Publisher
- Genome Research
- URL
- http://www.ncbi.nlm.nih.gov/pubmed/22300766
Table of Contents
논문요약 #
TCGA의 151 high-grade ovarian tumors Exome sequencing data를 input으로 VarScan2 analysis tool을 이용하여 somatic single nucleotide variant, copy number alteration를 detection.
Oncogenes(CCNE1, MYC)의 amplification과 Tumor Suppressors(NF1,PTEN, and CDKN2A)의 deletion을 발견.
Somatic mutation과 CNA detection를 찾는데 VarScan2의 robust performance를 입증하고 ovarian cancer에서 genetic alterations의 새로운 지표를 제시.
Results #
coverage, base quality, variant allele frequency, and statistical significance의 thresholds를 지정할 수 있음.
In single samples, the latter value is computed by Fisher’s exact test of the read counts supporting each allele (reference and variant) compared to the expected distribution based on sequencing error alone.
더 좋은 detection을 위해 sequencing이나 alignment related artifacts를 제거하는 false-positive filter를 적용.
Circular binary segmentation(CBS) algorithm로 segmentation, A subsequent joining procedure로 copy number가 비슷한 adjacent segments들을 merge, large-scale or focal events로 분류.
Application to 151 ovarian cancer tumor-normal pairs. #
151 serous ovarian carcinomas matched normal sample로 germline, somatic, LOH의 SNVs, indels와 copy number gain, loss를 detection.
Comparison of germline variants to high-density SNP array genotypes. #
Germline variant detection의 accuracy를 측정하기 위해 exome data를 이용한 VarScan2를 high-density SNP array data와 비교(TCGA, The Cancer Genome Atlas). 그 결과, genotype이 99.56%의 일치를 보였다.
Concordance를 확인하기 위해 discrepancies가 있는 2854개의 Array result와 Exome result의 metrics를 연구한 결과,
- 이 중에서 27%의 discrepancies가 Exome data에서 매우 높은 depth와 allele frequencies를 보여 array data에서 misclustering or allele droupout에 의해 true variants를 놓친 것으로 보임.
- 또다른 17%의 discrepancies는 두 platform 모두에서 heterozygous지만 variant allele이 다른 결과를 보임. 이 중 대부분이 reverse-complementary allele combination.
대부분의 discrepancy가 array result에서 heterozygous, exome result에서 homozygous variant. 이 중 8.2%가 20X 또는 그 이상의 coverage와 함께 100% variant allele frequency이므로 이 결과는 exome result가 맞는 것으로 보이지만 discrepancies의 대략 절반이 20X coverage에 도달하지 못한다.
따라서, germline variants called using exome data are highly accurate (99.56%), and a significant fraction of the discrepancies can be attributed to array genotyping error or imbalanced allelic representation in the sequence data.
Orthogonal validation of somatic mutations #
Somatic mutation detection의 specificity를 평가하기 위해 SNV로 추정되는 부분을 PCR, resequencing하여 비교한 결과, 11%의 차이가 보였음. 대부분 exome sequence depth가 낮고 variant allele frequency가 매우 감소돼있었다.
또한, false-positive filter에 의해 제거된 2458개의 putative mutations를 validation하여 84.34%의 오류를 확인 즉, 94.71%의 valid mutation과 78.37%의 false positive removing.
TCGA 2011의 60 tumor-normal pairs와 비교하여mutation detection의 sensitivity를 평가, 숨어있던 3065 valid somatic mutation의 83.7%를 추가 발견. 놓친 나머지 16.3% 즉 500개 중 93개는 Low confidence, 51개는 high confidence지만 filter에 의해 제거, 298개는 BAM파일의 coverage가 부족
VarScan2에 의해 detection한 141 HC somatic indels의 validation을 시도.
Of these, 85 (60.28%) were confirmed as somatic, 30 (21.28%) were refuted as wild type, and 26 (18.4%) were found to be germline or LOH events. 추가로, tumor-normal pair에서 추가로 80 somatic indels가 확인됨
다운받은 BAM file 중 73개가 coverage를 갖고 이 중에서 65개(89.04%)가 VarScan2에 의해 HC somatic mutation으로 확인
Comparison to single-sample methods for somatic mutation detection #
Exome and Whole-genome sequencing data가 있는 ovarian cancer case를 이용. Exome data로부터 simple subtraction method를 통해 평균 152,708개의 tumor specific candidate mutation을 찾았고 VarScan2에서는 508개의 somatic mutation을 찾았음.
그동안의 validation experiment에서 볼 수 없었던 위의 significant fraction의 가능성을 알아보기 위해 WGS로부터 SomaticSn iper라는 algorithm을 사용(subtracntion method), 비교함. VarScan2와는 67.61%가 겹쳤고 반대로 subtraction method에서는 0.96%밖에 겹치지 않았음.
다음으로 알려진 somatic mutation을 통해 sensitivity를 측정. 전체 290개 중 subtraction method는 85.17%, VarScan2는 91.03%를 발견. subtraction method가 false positive call에 의해 lower sensitivity를 갖는다.
Orthogonal validation of SCNAs #
SCNA detection의 정확도를 측정하기 위해 SNP array, exome, WGS를 통해 평가된 five ovarian tumors의 copy number data를 비교. array, WGS 결과와 비교하여 large-scale과 focal event 모두 그 능력이 입증됨. 특히, 보통 event가 매우 긴 것으로 보여 exome, array, WGS dataset의 large scale event overlap에 집중 분석.
206개의 large-scale CNA가 발견됐고 그 중 80.1%(165)가 exome, array, WGS에서 모두 발견됨. VarScan2는 90%(185)의 large-scale event를 발견. array 혹은 WGS data에 의해 거의 supported. VarScan2에서 발견하지 못한 10%의 large-scale events는 희박하게 target되는 region에서의 oversegmentation때문으로 추정.
focal copy number 비교는 noncontiguous portions affecting coding sequence에 3개의 platform comparison으로 도전 중.
Five case에서 total 135,000개 중에 677,434 copy number alteration이 비교 가능했음. 이 중 72.1%가 2개의 platform에서, 44.49%가 all three platform에서 detection. total 중 72.14%의 focal event가 VarScan2 method에 의해 detection. SNP array의 결과인 65.39%보다 높지만 79.05%의 WGS result보다 낮다.
추가로, 142 exome에서 large-scale gains and losses를 더 큰 TCGA data set의 array data와 비교, 이미 보고된 8 gain과 22 loss를 발견. VarScan2의 method는 TCGA에 의해 보고된 gain과 loss를 모두 밝혔고 나아가 저자의 data set과 TCGA dataset의 arm-level event이 매우 높은 correlation을 보였다.
이를 통해 VarScan2 approach가 저자들이 이전에 행한 array-based finding을 대신할 수 있고, somatic CNA를 detection하는데 array-based and WGS approaches를 매우 정확하게 견줄만하다고 제안.
Identification of recurrent CNAs with CMDS #
Tumor soppuressor(NF1,PTEN,CDKN2A,CDKN2B) 또는 oncogene(MYC, CCNE1, EVI1)의 Gene alterlation이 multiple tumor의 recurrent에 영향을 미칠 수 있음. 142 case genome-wide copy number의 평균을 분석한 결과, large-scale gain과 loss와 일치.
ovarian cancer에서 amplification 돼있는 것으로 알려진 EPH receptors EPHB3, EPHB4 focal amplification을 발견했고 이는 SNP array에서는 발견되지 않았다. 이는 이들의 data set이 high-resolution, exome-centric nature를 갖기 때문이며 새로운 recurrent CNAs를 발견할 수 있을꺼라고 생각함. 이를 알아보기 위해 Correlation Matrix Diagnal Segmentation(CMDS) algorithm을 142 cases의 exome-based copy number data에 적용. CMDS는 통계적으로 중요한 RNCAs를 찾는데 사용됐고 이것은 focal events에 특히 sensitive함. 이들의 분석은 582개의 이미 잘 알려진 genes에 targeting하는 focal RNCAs 424개를 찾았고, 전체 582개의 gene들에 대한 Gene set analysis는 10개의 enriched pathways를 나타냈다.(Supplemental Table7)
Focal adhesion과 ECM-receptor interaction의 매우 많은 interaction은 cell-cell and cell-matrix adhesion molecule과 관련된, high-grade ovarian carcinoma에서 자주 dysregulated 돼있는 adhesion molecules.
Discussion #
참고 정보 #
Suggested Pages #
- 0.025 Samtools
- 0.025 Java
- 0.025 Illumina
- 0.025 SNV calling from NGS data
- 0.025 Perl
- 0.025 NGS
- 0.025 BAM
- 0.025 Cancer genomics
- 0.025 SOLiD
- 0.025
- More suggestions...