Skip to content

Computational methods for detecting copy number variations in cancer genome using next generation sequencing #
Find similar titles

You are seeing an old version of the page. Go to latest version

Structured data

About
CNV
NGS
Date Published
Publisher
Oncotarget
URL

논문요약

Main questions #

NGS-based CNV detection tool들을 overview. NGS data types를 요약, data preprocessing하는 원칙을 해독, 세분화 및 해석, 마지막으로 somatic CNV detection에 대한 도전과제를 논의.

Main finding of the paper #

CNV의 primary means로써 NGS based approach에 집중, cancer에서의 somatic CNV detection이 primary focus. gremlin CNV detection program에는 보통 맞지 않는 알고리즘과 전략을 새워야 함. 이 논문은 NGS-based CNV detection 연구들을 간결하게 리뷰했고 somatic CNV detection하는 기존 program들의 outlining. 그리고, CNV detection에 사용되는 NGS data의 primary type을 cover, 해석하고 요약. 서로다른 computational program들의 유사점과 차이점을 설명.

NGS studies #

광범위하게 넓은 NGS 기술이 전례없는, 체계적인 CNV screen을 가능하게 함. 전체 genome뿐만아니라 특정 구간만 targeted sequencing도 가능(예를들어 exome). 이 논문은 NGS-based CNV를 WGS와 WES 모두에서 다룬다.

WGS #

하나의 WGS 실험은 CNV를 밝히는 다차원 정보들을 생산함.

첫째로, read에 의해 나타나는 genomic region의 빈도수는 그 copy number와 linear correlated in a broad range.

둘째로, SNP locus에서 두 allele를 모두 covering하는 read의 수는 allele specific absolute copy numbers를 추정하는데 사용되고, LOH의 copy neutral regions을 추정하며, tumor population에 normal cell이 얼마나 있는지 추정한다.

셋째로, boundary region의 sequence를 capture한 read들은 structural variation을 연결하는데 중요하고 base pair resolution에서의 structural variation의 breakpoint를 알아낸다.

넷째로, pair-end and mate-paired sequencing에서 reference genome과 맞지 않는 범위와 방향을 갖고 있는 read의 pair는 structure variation을 밝히는데 매우 중요하다.

data의 quality와 richness는 WGS를 CNV를 찾는 가장 강력한 접근으로 만든다.

WES #

exome은 highly function-enriched subset을 나타내고, exome에 있는 CNV는 nongenic region보다 pathogenic하다고 여겨진다. WGS와 비교했을 때, WES는 exome regions의 개별적인 특성들 때문에 non-coding region으로 떨어지는 breakpoint를 결정하는 base pair resolution에 도달할 수 없다.(WES cannot reach base pair resolution in determining breakpoints falling into non-coding regions due to the discrete nature of exome regions.) 그리고 이 CNV는 genome에서의 exon 편재 때문에 exon-rich regions에서만 유효하다.

그럼에도 불구하고 WES는 가격면에서 효율적이고 분석도 유효한 CNV를 찾는 이상적인 방법이다. WGS의 결과와 WES 결과가 data type이 유사하므로 비슷한 data processing이 수행된다.

Somatic CNV Detection programs for NGS data #

table 1 입력

figure 1 입력

계산 알고리즘은 크게 3개의 모듈로 나눔. a. data preprocessing, b. segmentation, c. interpretation. 각 모듈에서 다른 strategies가 사용 될 수 있다. 사용된 알고리즘에 따라서 결과가 다름. 몇몇 프로그램들은 copy number gain or loss만 나타내고, 어떤 프로그램들은 total or allele specific copy number를 나타내고, 다른 프로그램들은 tumor purity나 ploidy, and even heterogeneity도 나타낸다.

table 2 입력

Data Types #

NGS-based CNV detection에 사용도리 수 있는 data들은 아래의 정보들을 포함. RC : read count / RD : read depth / BAF : B Allele Frequency / soft-clipped read / discordant read pairs / LRR : Log RD Ratio or Log RC Ratio

LRR은 대부분의 NGS-based analytic tool에서 copy number를 추출하는데 사용하는 primary information. 원칙적으로, LRR은 CNV detection에 필요한 충분한 정보를 제공. 하지만, 상속받은 data bias, sample 고유의 특성, 다양한 실험 환경들이 LRR 하나로 CNV를 부르는데 문제를 발생시킨다. 또다른 정보 B Allele Frequency or Fraction(BAF)이 특히 CNV detection에 유용하다.

Alleles are assigned arbitrarily, 하지만 보통 reference genome과 같은 sequence를 갖고있으면 A allele, 그렇지 않으면 B allele. tumor와 normal genome을 비교, heterozygous loci의 BAF는 tumor genome에서 0.5로부터 멀리 떨어진다.

BAF 하나로는, 특히 normal tissue contamination이 존재하면 완벽한 copy number를 나타낼 수 없음.

soft-clipped reads and discordant read pairs. CNV event가 발생할 때, boundary regions에 새로운 nucleotide sequence가 발생한다. 이러한 sequence들은 WGS에서 soft-clipped read 혹은 discordant read pair에 의해 captured 될 것이다. discordant read pairs는 거리와 방향이 reference genome과 맞지 않는 read. 이 둘은 CNV event를 confirm하는데, breakpoint를 정하는데 유용.

Data Preprocessing #

대부분의 CNV detection program들의 원리는 기대했던 것보다 LRR이 크거나 작으면 DNA의 gain이나 loss라고 본다. 하지만, mappability bias와 GC-content bias를 포함하는 random variations and systematic biases는 정확한 LRR을 찾는데 방해. biases를 정확하게 하는 것과 platform의 technical variation을 capture하는 baseline을 만드는 것이 중요. 그리고 data의 세분화가 필요함.

Mappability bias #

mappability는 분명하게 원래 있던 자리에 read가 mapping 되는 가능성으로부터 정의된다. 어떤 platform에서 전체 read에 대한 multi-read의 비율은 거의 sequence read의 길이, mapping에서 mismatches 된 수, 그리고 pair-end냐 single-end냐(sequencing approach)에 의존한다.

GC-content bias #

?

Other biases #

mappability와 GC-content 말고도 NGS based CNV detection program들에는 아직 수정되지 않은 bias들이 있을 수도 있다. 예를들어, A와 T는 fragment end에 더 많고, fragment libraries가 illumina procedure를 따라 생성될때 fragments들은 CpG dinucleotide로 주로 시작한다. 이러한 fragment end 주위의 지역적 bias는 fragmentation이 사실상 random이 아니라는 것을 함축한다. 나아가, sequence reads의 phred-score가 어떻게 CNV detection에 영향을 주는지도 확실치 않다. NGS-based cancer CNV studies에서의 체계적인 bias수정에 대한 연구가 필요하다.

Assumption of data distribution #

NGS data들의 모든 bias가 제거됐다고 가정하면, 대부분의 CNV detection program에서 segmentation을 위한 data variation을 정립하기 위해 assumption of data distribution이 필요하다. sequence reads가 genome으로부터 random하게 선택될 것이라고 여겨진 이래로 RC와 RD는 그 region의 size와 copy number와의 평균과 poisson distribution을 따라야만 한다. 대부분의 프로그램들은 hypothetical poisson distribution이 normal distribution과 근접했다. 하지만 miller et.al.은 발견된 distribution이 poisson distribution의 가설을 위반하였고, negative-binomial distribution이 poisson distribution보다 더 적합했다. 이 결과, ReadDepth program에선 negative binomial distribution이 NGS data의 bias를 잡는데 사용됨. NGS data distribution에 대한 향상된 이해는 detection의 정확성을 높일 것이다.

Segmentation #

segmentation은 한 지역의 모든 read들을 정해진 boundaries 내에서 결합시키는 것. segmentation의 도전 과제는 알고리즘이 random effect로부터의 genuine CNV 로부터 야기된 data variation을 구별할 필요가 있다는 것이다. 몇몇 전략이 이 목적을 위해 사용됐다. aCGH와 SNP array의 segmentation modules로 가장 많이 쓰이는 두 알고리즘을 사용. Circular Binary Segmentation(CBS) and Hidden Markov Model(HMM) have been adapted into programs for NGS data. CBS의 key 아이디어는 chromosome의 끝을 circle로 만들고 interactively computing segments를 통해 segment 내의 분산을 줄이고 segment와 segment 사이의 분산을 최대화하는데 있다. HMM은 각각의 window를 read count로부터 유래된 fixed number로 동시에 분류한다. 그리고 같은 지역에서 연속되는 windows를 병합시킴으로써 segmentation한다. HMM으로는 segmentation과 classification이 probabilistic parameters를 통해 서로 촉진시킬 수 있다. 하지만, OncoSNP-SEQ은 model의 off-line training으로부터 얻어진 fixed parameter를 사용한다. 이는 HMM의 forward-backward 알고리즘의 interactive application이 계산적으로 의미가 있기 때문이다. CBS와 HMM 말고도, 몇몇 새로운 알고리즘들이 지난 수년간 NGS-based하게 개발되어왔다.(BIC-seq) segmentation 프로그램들 나열됨.

Segments interpretation #

이상적인 segmentation approach는 인근의 data point들을 똑같은 copy number를 갖고 있는 것들을 하나의 segment로 병합할 것이다. 그리고 다른 copy number를 갖는 region을 다른 segment로 나눌 것이다. 몇가지 추가 해석 과정이 각각의 segment에서 copy number state를 결정하는데 필요함. 각 segment의 copy number state를 assign 하기 위해서는 quantitative criteria가 necessary. table 2에서 보인 것처럼 최근 copy number를 해석하는 툴들은 specific LRR cutoffs에 기인한다.

Challenges in somatic CNV detection #

이론적으로, digital karyotyping은 WGS나 WES data로부터 정해진 region의 CNV를 측정하는데 단순하고 powerful하다. 하지만, somatic CNV의 정확한 determination은 여전히 challenge한데 그 이유는 크게 tumor samples의 복잡성 때문. 첫째로, CNV들은 tumor genome에서 너무 광범위하고 diverse. 둘째로, tumor sample들은 알 수 없는 비율로 normal tissue로 contam돼있다. 셋째로, tumor cell의 배수성이 보통 알려져있지 않다. 넷째로, subclonal evolution에 의해 tumor sample의 multiple clones이 가능. 이러한 문제들이 local sequence content에 의해 야기되는 signal variation과 sample의 quality, experiment condition 등에 의해 더욱 혼잡하게 된다.

Extensive and diverse CNV events in tumor genome. #

germline과 somatic CNV는 범위와 다양성이 매우 다르다. 전반적으로, germline CNV는 전체 genome의 3.7%에서 12%를 cover하고, 서로 다른 사람들의 genome과 overlap된다. 반면에, somatic CNV는 whole genome을 아울러 나타날 수 있고, 상대적으로 낮은 비율로 재발한다. 이는 보통 normal genome sequencing data의 기술적인 다양성에 의해 read depth의 non-recurrent and sharp의 변화가 있다고 생각되지만, 이러한 가정은 tumor sample에 대한 잘못된 가정이다. 이 특징이 ERDS나 JointSLM, CoNIFER와 같은, somatic CNV detection에는 맞지 않는 germline CNV detection program을 만들었다. 예를 들어 sample을 across한 modeling은 non-recurrent signals variation을 제거하므로써 germline CNV detection의 performance를 향상시킨다. 하지만 이러한 전략은 non-recurrent ones이 tumor genome에서 더 많기때문에 somatic CNV detection에서의 false negative rate를 증가시킨다.

Tumor purity #

tumor sample의 normal cell contamination은 CNV에 의해 일어나는 LRR change의 발견을 줄이고 BAF를 원하는 값이 아닌 이상한 수로 만들어버린다. 이렇게 LRR과 BAF로부터 segmental copy number를 결정하는 어려움은 cutoff value를 정하는데 있어서 보통 알려지지 않은 tumor purity에 의존할 것이다. overall rd or rc가 tumor와 normal genomes의 rd, rc와 linear combination. 알맞는 LRR, BAF value는 가장 그럴듯한 tumor purity를 결정하는데 도움이 된다.

Tumor ploidy #

tumor genome의 Aneuploidy는 LRR로부터 copy number를 정하는데 어려움을 준다. NGS experimental protocol이 필요로 하는, cell의 수가 아닌 DNA의 양이 있다. 따라서, normal human cell에서의 diploidy와 일치하는 대신에, LRR baseline은 average ploidy와 일치한다. 이는 보통 tumor sample에서 잘 알려져있지 않다. LRR과 BAF 정보의 병합은 average ploidy를 알 수 있다. 이 도중, different ploidy는 BAF pattern의 different possibilities를 갖는다. 예를들어, diploidy는 BAF가 0, 0.5, 1인 경우의 수를 갖는다. tetraploidy는 BAF가 0, 0.25, 0.5, 0.75, 1의 경우의 수를 갖는다. tumor purity와 ploidy가 서로를 혼동하게 하므로, 이를 해결하는 것이 정확한 CNV call의 중요한 정보를 제공할 것이다. OncoSNP-SEQ, ABSOLUTE, Patchwork가 tumor purity와 ploidy를 측정하는 기능을 제공한다. Control-FREEC는 user에게 sample ploidy를 요구하고 이를 통해 tumor purity를 나타낸다. 만약 ploidy를 알 수 없다면 가능성이 있는 ploidy value를 넣고 여러번 돌려서 결과를 비교할 것을 권장한다.

Tumor heterogeneity #

tumor cell의 multiple clone들이 한 tumor 내에 공존할 수 있다. 그리고 subclone들은 tumor evolution과 cancer relapse에 매우 중요하다. sample 내의 낮은 차지 비율때문에 subclone을 규정하는 것은 쉽지 않다. 실제 subclone을 찾는 것을 depth of sequencing의 increasing이 도울 수 있는 동시에 정확성은 tumor sample의 properties와 tumor genome의 복잡성에 의존한다. OncoSNP-SEQ과 ABSOLUTE는 heterogeneous event를 detection하는 기능을 제공한다. 주어진 copy number state를 볼때 오로지 특정 몇몇의 LRR과 BAF combination이 가능하다. 그러므로, LRR와 BAF 패턴수는 제한적이다. 이 패턴의 분산이 tumor impurity와 aneuploidy, heterogeneity의 combination에 의해 나온다. tumor sample로부터 연구된 LRR과 BAF는 이 구성성분들과 linear한 combination을 갖는다. 이 linear한 combination은 tumor의 normal tissue와 multiple clone의 admixture가 있을때 이루어진다. 이 패턴의 분산을 통해 impurity, aneuploidy, heterogeneity를 분석할 수 있다.

Lack of gold standard #

새로운 문제점 : gold standard control이 부족하다.(특정 적절한 기준이 부족). benchmark CNV result가 없다. 현재 나온 NGS-based CNV detection program들이 같은 tumor sample의 snp array와 in silicon simulated data들을 이용해 결과가 나오는데 benchmark로써 사용하는게 불분명하다. ART, pIRS, … 와 같은 NGS data를 알려진 biase로부터 sequence context나 empirical platform-dependent error를 생성하므로써 simulation하는 것들이 나왔다. 하지만, 어떤 것도 모든 tumor genome의 특징들을 다 잡는 complehensive한 simulator가 존재하지 않는다. array-based platform과 알고리즘이 매우 부족한 것으로 보인다. 잘 controlled 된 reference set이 없으면, 각 프로그램의 장단점에 대한 이해가 힘들다. 이 결과, NGS-based CNV detection 알고리즘의 선택이 현재 알고리즘의 테크닉 description이 지배한다. 그래서 tumor genome의 복잡성을 포함하고 있는 더 좋은 benchmark dataset을 만들 community가 필요하고 그래야 알고리즘의 평가와 발전이 가능하다.

web biohackers.net
0.0.1_20140628_0