2015 통계유전학워크숍
#
Find similar titles
- (rev. 9)
- Hyungyong Kim
Structured data
- End Date
- Location
- Soongsil University
- Performer
- 한국유전체학회
- Start Date
- URL
- http://www.kogo.or.kr/labboard/post/177/
한국유전체학회에서 매년 진행하는 교육 프로그램. 년 제 10회.
Table of Contents
Summary #
Cancer Genome Analysis #
강의전 하고싶은 질문들
- METABRIC normalized CNV를 유전자별 copy-number로 만드려면 어떻게?
- 암유전체의 Population/Ethinic 별 차이에 대한 연구?
- Biological network를 이용한 driver 찾기 혹은 타겟 유전자 찾기 연구 유용성?
- CNV calling from NGS data 연구 기여 가능성?
Session 1. Cancer Genome Analysis #
- 유전체 정보를 클라우드에 올리는 것을 인정하는 추세임
- Human genome Ref sequence (hg19)는 뉴욕거주 임의 20명
- Exome sequencing은 capture kit이 어떤 것인지 아는 것이 중요하다. (TCGA breast cancer는 4개인가 서로 다른 kit이 사용됨)
- TCGA는 가능한 최신의 것을 쓰는 것이 좋음 (이전 데이터는 질 안좋음)
- TCGA 데이터는 샘플 제공 후 18개월 후 반드시 공개 - 데이터 생산에 기여했어도 그 이내에 꼭 퍼블리시해야
- Nozzle이라는 웹기반 분석결과 웹사이트
Session 2. Analysis of SNV and indels #
- GATK: 최근 버전은 커머셜 라이센스 필요 - 사연이 많음. 클라우드 서비스 등은 구 버전을 그대로 사용함
- indel realignment 중요함. indel 주위에서 틀어지는 경향이 있음
- MuTect: low frequent allele을 잘 찾기 위함. 일종의 Bayesian classifier
- caller는 파라메터에 민감함. 경험이 중요. somatic인줄 알았는데 germline인 경우가 많음.
- 암을 시퀀싱했다 하면, 옛날엔 30x. 요즘은 50x, 60x. heterogeneity 때문 (1000 Genomes Project는 3x 였음)
- SNV calling from NGS data caller 마다 다름. low frequent allele을 처리하는 방법에 따라 다름.
- VarScan 등이랑 비교해서 공통인 것을 쓰는 것이 좋음
- HapMap NA12878을 표준 샘플로 검증 많이 함
- titan이라는 거대한 유전자가 있음. 여기 변이가 중요했던 적이 있음.
- driver를 찾을 때 RNA-seq을 같이 하면 좋음
- Davoli et al, Cell, 2013에서 driver 찾는 규칙에 대해 정리함. oncogene, tumor suppressor gene 별로 각각 있음.
Session 3. Analysis of copy number and structural variation #
Copy number
- 용어 CNV와 SV는 혼용되어 쓰이기도 아니기도 함
- Genome-Wide Human SNP Array 6.0를 갖고 할 때는 CBS (Circular binary segmentation)이 괜찮음.
- CNV calling from NGS data 방법들. Read depth-based method / mate-pair reads estimation / Split reads
- WGS로 CNV 찾기가 SNP array보다 나음. 해상도가 좋음
- mappability가 중요함. del과 혼동해선 안됨. mappability가 낮은 영역일 수 있음.
- exome CNV가 잘 안맞는 이유는 exome capture에 대한 통계 모델을 잘 못만들기 때문
- GISTIC: 샘플이 여러개 있을 때, 어떻게 유의한 CNV를 calling 하느냐 - 한사람에게만 많은지, 여러명에게서 많은지 상관없이 계산함
- tumor purity를 계산해야 함
SV
- sonication fractiona이 균일하게 되는 게 중요함 - mate pair length가 일정하게 유지됨 (최근 기술이 많이 좋아짐)
- SV caller: BreakDancer, etc.
- Chromothripsis는 암종별로 약 1~5%정도 발견됨 --> 그래도 잘 기능하는게 신기함
Somatic retrotransposition
- genome evolution 연구 등에 사용됨
Session 4. Discussion and critique of recent papers #
- Biologicl pathway network 어렵지 않음. 몇개 안되기 때문.
- Clustering: NMF등의 방법 사용
- PARADIGM 알고리즘 많이 사용됨. 이해가 쉽지 않으나 자주 발표됨.
- Mutual exclusivity analysis (MEMo)도 많이 함. 어떤 변이랑 같이 혹은 독립적으로 나오나.
- cBioPortal 괜찮음. TCGA를 갖고 만든 작품. 생물학적 관점에서 잘 만들어짐.
- TERT rearrangement가 흥미진진함. mutation이 생기면 바인딩함.
첫날 에필로그 #
- Whole genome은 혼자하기 어려움. 툴 설치하다 끝남. 잘하는 그룹과 코웍해야.
- 여러 이벤트가 섞여 있는 것도 어떤 것이 먼저인지, 어떤것이 driver인지 수학적으로 알 수 있음
둘쨋날 #
- DNase I hypersensitivity assay: open chromatin 영역을 DNase I 효소로 처리, DHS (DNase I hypersensitivity site)는 mutation이 잘 일어나는 부위임
- ATAC-seq: 요즘 새로나온 방법, DHS는 경험이 많이 없는 사람이 하기엔 어려운 반면 ATAC-seq는 쉬운편, 많은 cell이 필요없음(몇백개정도)
- WGS vs WES: WGS가 좋다. 아래논문 참고
performance comparison of exome DNA sequencing technologies whole-genome sequencing is more powerful that whole-exome sequencing for detecting exome variant
Session 5. Tumor heterogeneity and evolution #
- allele frequency를 이용해서 phylogenetic tree를 그릴수 있고
- sample purity: histology와 INTEGER(연자lab에서 개발)를 이용한 purtity 계산결과는 비슷함(또는, 훨씬 더 성능이 좋음)
- Varscan을 이용해서 variant calling 시, sample purity를 파라메터 값으로 넣어 줄 수 있음, 넣어주면 훨씬 더 많은 calls를 얻을 수 있음
- ABSOLUTE: purity 측정 알고리즘, 완벽하지는 않음
- Phylogenetic reconstruction: WGS 20x를 해서 phylogenetic reconstruction을 조사, fraction이 많을 수록 early하다고 봄(slide 13)
- Single cell sequencing
- microfluidics 필요함
- allele dropout: 1 allele fail
- locus dropout: both allele fali
- MDA(Multiple Displacement Amplification)이 MALBAC보다 훨씬 좋다. 특별히 MALBAC쓸 이유 없음
Session 6. Integrative analysis and case studies #
- Exon 영역 외에 다른 지역(non-coding region; enhancer, UTR, etc.)에서 나타난 mutation이 훨씬 찾기 힘드나 의미 있을 수 있음
- 하지만, mutation을 찾았다고 해도 어떤 gene와 연관되어있는지 알기 힘들고, 암 발생에 영향을 주는지 밣혀내기 힘듦 -> ENCODE (functional element database) 이용
- 퍼블리쉬되지 않은 tumor type 연구 중이라면 TCGA marker paper를 노려라
Session 7. Discussion on writing papers #
- plan이 정확해야함
- "Deans can't read but they can count: 개제한 논문수가 많으면 아무래도 유리함
- 한문장이 너무 길어지지 않도록 하고, 요점만 간단히 명료하게 쓰도록
- 리뷰어가 이해하지 못하는 글은 아무도 이해할 수 없음
- 리뷰어 선택을 신중하게 해라
- informatics 관련 논문은 낼 곳이 많치 않다. Genome biology, Genome research, NAR이 좋음, BMC bioinformatics 등은 논문들의 퀄리티 편차가 크다.
Suggested Pages #
- 0.025
- 0.025 C++
- 0.025 TNF
- 0.025 DNA sequencing
- 0.025 Comparative genomic hybridization
- 0.025 July 1
- 0.025 March 18
- 0.025 IRB
- 0.025 CSV
- 0.025 October 24
- More suggestions...