Skip to content

CODEX: a normalization and copy number variation detection method for whole exome sequencing #
Find similar titles

Main questions #

고전적인 CNV 탐지 방법인 Array CGH, SNP array는 해상도에 한계가 있다. NGS로 해상도를 높힐 수 있다. Exome seqencing이 효과적이지만, exon targeting 중 bias, artifact, 실험 노이즈가 있고 정확한 copy number 예측을 어렵게 한다. 이에 WES 데이터 정규화(normalization) 및 CNV calling(segmentation) 방법 CODEX를 소개함.

기존의 알고리즘

  • matched case/control settings by either directly using the matched normal
  • or building an optimazed reference set to control artifacts
  • SVD to extract copy number signal from noisy coverage matrices by removing K latent factors that explain the most variance


  • matched normal control이 필요 없으며, 대신 같이 시퀀싱한 다수의 샘플이 필요함.
  • 이런 discrete count 데이터(coverage)는 Poisson log-linear model(Poisson regression)이 더 알맞음.
  • 이 정규화방법은 GC 함량, 엑손 길이/캡처/증폭 효율, latent systematic artifact에 의한 비뚤림(biase)을 제거함

Materials and methods #

1000 Genomes Project WES와 paired SNP array 데이터로 비교 분석함. 또한 TARGETNeuroblastoma matched tumor/blood WES 222개로 ATRX 유전자 영역을 세부 관찰하여 CNV를 적절히 탐지하는지 확인하고자 함.

Sample data QC (9.74% filtered out)

  1. low coverage
  2. short base pair (<20bp)
  3. hard to map (mappability < 0.9)
  4. extreme GC content (<20, >80)

$$ Y_{ij} \sim \textrm{Poisson}(\lambda_{ij}) $$

$$ \lambda_{ij} = N_j F_j (GC_i)\beta_i \exp(\sum_{k=1}^K g_{ik} h_{jk}) $$

  • \( Y_{ij} \): coverage matrix (i:exon, j:sample)
  • \( GC_i \): GC content of exon i
  • \( N_j \): total number of mapped reads for sample j
  • \( f_j(GC_i) \): bias due to GC content for sample j
  • \( \beta_i \): exon specific bias due to length and capture
  • \( g_{ik}h_{jk} \): kth latent Poisson factor for exon i, sample j

Main finding of the paper #

The biological insight that could be gained from this study #

Remaining questions to be addressed #

Incoming Links #

Related Articles #

Suggested Pages #