2015 통계유전학워크숍 #
Find similar titles

Structured data

한국유전체학회에서 매년 진행하는 교육 프로그램. 2015년 제 10회.

강의전 하고싶은 질문들

유전체 정보를 클라우드에 올리는 것을 인정하는 추세임
Human genome Ref sequence (hg19)는 뉴욕거주 임의 20명
Exome sequencing은 capture kit이 어떤 것인지 아는 것이 중요하다. (TCGA breast cancer는 4개인가 서로 다른 kit이 사용됨)
TCGA는 가능한 최신의 것을 쓰는 것이 좋음 (이전 데이터는 질 안좋음)
TCGA 데이터는 샘플 제공 후 18개월 후 반드시 공개 - 데이터 생산에 기여했어도 그 이내에 꼭 퍼블리시해야
Nozzle이라는 웹기반 분석결과 웹사이트

GATK: 최근 버전은 커머셜 라이센스 필요 - 사연이 많음. 클라우드 서비스 등은 구 버전을 그대로 사용함
indel realignment 중요함. indel 주위에서 틀어지는 경향이 있음
MuTect: low frequent allele을 잘 찾기 위함. 일종의 Bayesian classifier
caller는 파라메터에 민감함. 경험이 중요. somatic인줄 알았는데 germline인 경우가 많음.
암을 시퀀싱했다 하면, 옛날엔 30x. 요즘은 50x, 60x. heterogeneity 때문 (1000 Genomes Project는 3x 였음)
SNV calling from NGS data caller 마다 다름. low frequent allele을 처리하는 방법에 따라 다름.
VarScan 등이랑 비교해서 공통인 것을 쓰는 것이 좋음
HapMap NA12878을 표준 샘플로 검증 많이 함
titan이라는 거대한 유전자가 있음. 여기 변이가 중요했던 적이 있음.
driver를 찾을 때 RNA-seq을 같이 하면 좋음
Davoli et al, Cell, 2013에서 driver 찾는 규칙에 대해 정리함. oncogene, tumor suppressor gene 별로 각각 있음.

Copy number

용어 CNV와 SV는 혼용되어 쓰이기도 아니기도 함
Genome-Wide Human SNP Array 6.0를 갖고 할 때는 CBS (Circular binary segmentation)이 괜찮음.
CNV calling from NGS data 방법들. Read depth-based method / mate-pair reads estimation / Split reads
- Read depth based: FREEC, VasCan 괜찮음
WGS로 CNV 찾기가 SNP array보다 나음. 해상도가 좋음
mappability가 중요함. del과 혼동해선 안됨. mappability가 낮은 영역일 수 있음.
exome CNV가 잘 안맞는 이유는 exome capture에 대한 통계 모델을 잘 못만들기 때문
GISTIC: 샘플이 여러개 있을 때, 어떻게 유의한 CNV를 calling 하느냐 - 한사람에게만 많은지, 여러명에게서 많은지 상관없이 계산함
tumor purity를 계산해야 함

sonication fractiona이 균일하게 되는 게 중요함 - mate pair length가 일정하게 유지됨 (최근 기술이 많이 좋아짐)
SV caller: BreakDancer, etc.
Chromothripsis는 암종별로 약 1~5%정도 발견됨 --> 그래도 잘 기능하는게 신기함

Somatic retrotransposition

DNase I hypersensitivity assay: open chromatin 영역을 DNase I 효소로 처리, DHS (DNase I hypersensitivity site)는 mutation이 잘 일어나는 부위임
ATAC-seq: 요즘 새로나온 방법, DHS는 경험이 많이 없는 사람이 하기엔 어려운 반면 ATAC-seq는 쉬운편, 많은 cell이 필요없음(몇백개정도)
WGS vs WES: WGS가 좋다. 아래논문 참고

performance comparison of exome DNA sequencing technologies whole-genome sequencing is more powerful that whole-exome sequencing for detecting exome variant

allele frequency를 이용해서 phylogenetic tree를 그릴수 있고
sample purity: histology와 INTEGER(연자lab에서 개발)를 이용한 purtity 계산결과는 비슷함(또는, 훨씬 더 성능이 좋음)
Varscan을 이용해서 variant calling 시, sample purity를 파라메터 값으로 넣어 줄 수 있음, 넣어주면 훨씬 더 많은 calls를 얻을 수 있음
ABSOLUTE: purity 측정 알고리즘, 완벽하지는 않음
Phylogenetic reconstruction: WGS 20x를 해서 phylogenetic reconstruction을 조사, fraction이 많을 수록 early하다고 봄(slide 13)
Single cell sequencing
- microfluidics 필요함
- allele dropout: 1 allele fail
- locus dropout: both allele fali
MDA(Multiple Displacement Amplification)이 MALBAC보다 훨씬 좋다. 특별히 MALBAC쓸 이유 없음

Exon 영역 외에 다른 지역(non-coding region; enhancer, UTR, etc.)에서 나타난 mutation이 훨씬 찾기 힘드나 의미 있을 수 있음
하지만, mutation을 찾았다고 해도 어떤 gene와 연관되어있는지 알기 힘들고, 암 발생에 영향을 주는지 밣혀내기 힘듦 -> ENCODE (functional element database) 이용
퍼블리쉬되지 않은 tumor type 연구 중이라면 TCGA marker paper를 노려라

plan이 정확해야함
"Deans can't read but they can count: 개제한 논문수가 많으면 아무래도 유리함
한문장이 너무 길어지지 않도록 하고, 요점만 간단히 명료하게 쓰도록
리뷰어가 이해하지 못하는 글은 아무도 이해할 수 없음
리뷰어 선택을 신중하게 해라
informatics 관련 논문은 낼 곳이 많치 않다. Genome biology, Genome research, NAR이 좋음, BMC bioinformatics 등은 논문들의 퀄리티 편차가 크다.