Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown
#
Find similar titles
- (rev. 4)
- Hyungyong Kim
Structured data
- About
- RNA-seq
- Date Published
- Publisher
- Nature Protocols
- URL
- http://www.nature.com/nprot/journal/v11/n9/full/nprot.2016.095.html
RNA-seq은 Gene expression 수준을 비교하고, 측정하는 표준 방법이 되고 있음. 이 방법은 크고, 복잡한 데이터를 만들어내며, 종합적 이해를 위한 빠르고 정확한 소프트웨어를 필요로 함. HISAT, StringTie, Ballgown을 이용하여, 차등 발현 분석이 가능함.
Table of Contents
Summary #
Introduction #
Analysis pipeline은 4개의 task로 구분할 수 있다.
- alignment of the reads to the genome
- assembly of the alignments into full-length transcripts
- quantification of the expression levels of each gene and transcript
- calculation of the differences in expression for all genes among the different experimental conditions.
기존의 TopHat-Cufflinks 방법보다 더 빠르고, 메모리 덜 소모하며, 더 정확한 결과를 내는 방법을 개발함
- HISAT은 TopHat에 비해 훨씬 빠르고, 메모리 소모가 적음
- StringTie는 gene과 transcript 수준에서 alignment를 조립하고, multiple isoform을 만듬
- Balgown은 2개 혹은 그 이상의 실험에서 DEG를 찾아냄
An overview of the new Tuxedo protocol
Overview of the protocol #
최소 샘플 수는 6 (case/control 3반복씩). 그 외에도 time-course 등.
어떤 생물종도 가능함. 다만, smaller intro size에 대한 최적화 필요.
Alternative analysis packages #
원 Tuxedo protocol인 TopHat-[Cufflinks]]과 유사하게 각 단계를 조합하여 쓸 수 있음.
본 DEG 탐지 방법은 differential exon usage 만을 탐지하는 다른 프로그램들 DEXseq, rMATS, MISO와는 다름
Limitations of the protocol and software #
앞 단계 프로그램이 필요할 수 있음 FASTX toolkit, FastQC.
Ballgown은 StringTie 외에도 Cufflinks, RSEM 결과도 받을 수 있음.
Experimental design #
Read alignment with HISAT #
Bowtie, BWA와 유사하게 Burrows-Wheller transform (BWT) 자료구조를 사용함
인간의 경우, 평균 intron size는 >6,000 bp, 일부는 >1 Mbp.
TopHat에 비해 50배 빠름. <8 GB 메모리만 필요함. 일반 데스크탑에서 인간 20 샘플, 샘플당 100 Mbp reads를 처리하는데 하루가 안걸림.
TopHat 처럼 novel splice site, transcription initiaon/termination site를 참음.
Transcript assembly and quantification with StringTie #
transcript를 재구축하는데 network flow algorithm이 사용됨. abundance와 exon-intron 구조를 동시에 계산하기 때문에 기존의 방법들 보다 더 정확함. Cufflinks 보다 더 빠르고, 정확함.
gffcompare 유틸리티를 써서 annotation과 맞춰 볼 수 있음. (cuffcompare와 유사)
Differential expression analysis with Ballgown #
R 패키지로 Bioconductor를 이용함
StringTie 결과는 세개의 테이블로 정리
- phenotype data - information about the samples being collected
- expression data - normalized and un-normalized measures of the amount of each exon, junction, transcript and gene expressed in each sample
- genomic information - coordinates giving the location of the exons, introns, transcripts and genes
이를 읽어서 다음을 수행
- data visualization and inspection
- statistical tests for differential expression
- multiple test correction
- downstream inspection and summarization of results
FPKM 값은 보통 skewed 됨. 분산을 안정화하기 위해, log transformation, fit standard linear models 수행.
RNA-seq 분석의 일반적 문제 하나는 배치 효과와 같은 confounder 설명에 실패하는 것. Ballgown은 stattest 함수로 confounder를 직접 명시함.
Materials #
Procedure #
Incoming Links #
Related Articles (Article 0) #
Suggested Pages #
- 0.025 Programming language
- 0.025 Alternative splicing
- 0.025 Genome Biology
- 0.025 September 7
- 0.025 Bioinformatics
- 0.025 GEO
- 0.025 TCC
- 0.025 GSEA
- 0.025 C
- 0.025 featureCounts
- More suggestions...