Skip to content

2015 통계유전학워크숍 #
Find similar titles

Structured data

End Date
2015-07-18
Location
Soongsil University
Performer
한국유전체학회
Start Date
2015-07-13
URL

한국유전체학회에서 매년 진행하는 교육 프로그램. 2015년 제 10회.

Summary #

Cancer Genome Analysis #

(Peter Park)

강의전 하고싶은 질문들

  1. METABRIC normalized CNV를 유전자별 copy-number로 만드려면 어떻게?
  2. 암유전체의 Population/Ethinic 별 차이에 대한 연구?
  3. Biological network를 이용한 driver 찾기 혹은 타겟 유전자 찾기 연구 유용성?
  4. CNV calling from NGS data 연구 기여 가능성?

Session 1. Cancer Genome Analysis #

  • 유전체 정보를 클라우드에 올리는 것을 인정하는 추세임
  • Human genome Ref sequence (hg19)는 뉴욕거주 임의 20명
  • Exome sequencing은 capture kit이 어떤 것인지 아는 것이 중요하다. (TCGA breast cancer는 4개인가 서로 다른 kit이 사용됨)
  • TCGA는 가능한 최신의 것을 쓰는 것이 좋음 (이전 데이터는 질 안좋음)
  • TCGA 데이터는 샘플 제공 후 18개월 후 반드시 공개 - 데이터 생산에 기여했어도 그 이내에 꼭 퍼블리시해야
  • Nozzle이라는 웹기반 분석결과 웹사이트

Session 2. Analysis of SNV and indels #

  • GATK: 최근 버전은 커머셜 라이센스 필요 - 사연이 많음. 클라우드 서비스 등은 구 버전을 그대로 사용함
  • indel realignment 중요함. indel 주위에서 틀어지는 경향이 있음
  • MuTect: low frequent allele을 잘 찾기 위함. 일종의 Bayesian classifier
  • caller는 파라메터에 민감함. 경험이 중요. somatic인줄 알았는데 germline인 경우가 많음.
  • 암을 시퀀싱했다 하면, 옛날엔 30x. 요즘은 50x, 60x. heterogeneity 때문 (1000 Genomes Project는 3x 였음)
  • SNV calling from NGS data caller 마다 다름. low frequent allele을 처리하는 방법에 따라 다름.
  • VarScan 등이랑 비교해서 공통인 것을 쓰는 것이 좋음
  • HapMap NA12878을 표준 샘플로 검증 많이 함
  • titan이라는 거대한 유전자가 있음. 여기 변이가 중요했던 적이 있음.
  • driver를 찾을 때 RNA-seq을 같이 하면 좋음
  • Davoli et al, Cell, 2013에서 driver 찾는 규칙에 대해 정리함. oncogene, tumor suppressor gene 별로 각각 있음.

Session 3. Analysis of copy number and structural variation #

Copy number

  • 용어 CNVSV는 혼용되어 쓰이기도 아니기도 함
  • Genome-Wide Human SNP Array 6.0를 갖고 할 때는 CBS (Circular binary segmentation)이 괜찮음.
  • CNV calling from NGS data 방법들. Read depth-based method / mate-pair reads estimation / Split reads
  • WGS로 CNV 찾기가 SNP array보다 나음. 해상도가 좋음
  • mappability가 중요함. del과 혼동해선 안됨. mappability가 낮은 영역일 수 있음.
  • exome CNV가 잘 안맞는 이유는 exome capture에 대한 통계 모델을 잘 못만들기 때문
  • GISTIC: 샘플이 여러개 있을 때, 어떻게 유의한 CNV를 calling 하느냐 - 한사람에게만 많은지, 여러명에게서 많은지 상관없이 계산함
  • tumor purity를 계산해야 함

SV

  • sonication fractiona이 균일하게 되는 게 중요함 - mate pair length가 일정하게 유지됨 (최근 기술이 많이 좋아짐)
  • SV caller: BreakDancer, etc.
  • Chromothripsis는 암종별로 약 1~5%정도 발견됨 --> 그래도 잘 기능하는게 신기함

Somatic retrotransposition

  • genome evolution 연구 등에 사용됨

Session 4. Discussion and critique of recent papers #

  • Biologicl pathway network 어렵지 않음. 몇개 안되기 때문.
  • Clustering: NMF등의 방법 사용
  • PARADIGM 알고리즘 많이 사용됨. 이해가 쉽지 않으나 자주 발표됨.
  • Mutual exclusivity analysis (MEMo)도 많이 함. 어떤 변이랑 같이 혹은 독립적으로 나오나.
  • cBioPortal 괜찮음. TCGA를 갖고 만든 작품. 생물학적 관점에서 잘 만들어짐.
  • TERT rearrangement가 흥미진진함. mutation이 생기면 바인딩함.

첫날 에필로그 #

  • Whole genome은 혼자하기 어려움. 툴 설치하다 끝남. 잘하는 그룹과 코웍해야.
  • 여러 이벤트가 섞여 있는 것도 어떤 것이 먼저인지, 어떤것이 driver인지 수학적으로 알 수 있음

둘쨋날 #

  • DNase I hypersensitivity assay: open chromatin 영역을 DNase I 효소로 처리, DHS (DNase I hypersensitivity site)는 mutation이 잘 일어나는 부위임
  • ATAC-seq: 요즘 새로나온 방법, DHS는 경험이 많이 없는 사람이 하기엔 어려운 반면 ATAC-seq는 쉬운편, 많은 cell이 필요없음(몇백개정도)
  • WGS vs WES: WGS가 좋다. 아래논문 참고

    performance comparison of exome DNA sequencing technologies whole-genome sequencing is more powerful that whole-exome sequencing for detecting exome variant

Session 5. Tumor heterogeneity and evolution #

  • allele frequency를 이용해서 phylogenetic tree를 그릴수 있고
  • sample purity: histology와 INTEGER(연자lab에서 개발)를 이용한 purtity 계산결과는 비슷함(또는, 훨씬 더 성능이 좋음)
  • Varscan을 이용해서 variant calling 시, sample purity를 파라메터 값으로 넣어 줄 수 있음, 넣어주면 훨씬 더 많은 calls를 얻을 수 있음
  • ABSOLUTE: purity 측정 알고리즘, 완벽하지는 않음
  • Phylogenetic reconstruction: WGS 20x를 해서 phylogenetic reconstruction을 조사, fraction이 많을 수록 early하다고 봄(slide 13)
  • Single cell sequencing
    • microfluidics 필요함
    • allele dropout: 1 allele fail
    • locus dropout: both allele fali
  • MDA(Multiple Displacement Amplification)이 MALBAC보다 훨씬 좋다. 특별히 MALBAC쓸 이유 없음

Session 6. Integrative analysis and case studies #

  • Exon 영역 외에 다른 지역(non-coding region; enhancer, UTR, etc.)에서 나타난 mutation이 훨씬 찾기 힘드나 의미 있을 수 있음
  • 하지만, mutation을 찾았다고 해도 어떤 gene와 연관되어있는지 알기 힘들고, 암 발생에 영향을 주는지 밣혀내기 힘듦 -> ENCODE (functional element database) 이용
  • 퍼블리쉬되지 않은 tumor type 연구 중이라면 TCGA marker paper를 노려라

Session 7. Discussion on writing papers #

  • plan이 정확해야함
  • "Deans can't read but they can count: 개제한 논문수가 많으면 아무래도 유리함
  • 한문장이 너무 길어지지 않도록 하고, 요점만 간단히 명료하게 쓰도록
  • 리뷰어가 이해하지 못하는 글은 아무도 이해할 수 없음
  • 리뷰어 선택을 신중하게 해라
  • informatics 관련 논문은 낼 곳이 많치 않다. Genome biology, Genome research, NAR이 좋음, BMC bioinformatics 등은 논문들의 퀄리티 편차가 크다.

Suggested Pages #

web biohackers.net
0.0.1_20140628_0