Skip to content

Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown #
Find similar titles

RNA-seqGene expression 수준을 비교하고, 측정하는 표준 방법이 되고 있음. 이 방법은 크고, 복잡한 데이터를 만들어내며, 종합적 이해를 위한 빠르고 정확한 소프트웨어를 필요로 함. HISAT, StringTie, Ballgown을 이용하여, 차등 발현 분석이 가능함.

Summary #

Introduction #

Analysis pipeline은 4개의 task로 구분할 수 있다.

  1. alignment of the reads to the genome
  2. assembly of the alignments into full-length transcripts
  3. quantification of the expression levels of each gene and transcript
  4. calculation of the differences in expression for all genes among the different experimental conditions.

기존의 TopHat-Cufflinks 방법보다 더 빠르고, 메모리 덜 소모하며, 더 정확한 결과를 내는 방법을 개발함

  1. HISATTopHat에 비해 훨씬 빠르고, 메모리 소모가 적음
  2. StringTie는 gene과 transcript 수준에서 alignment를 조립하고, multiple isoform을 만듬
  3. Balgown은 2개 혹은 그 이상의 실험에서 DEG를 찾아냄

An overview of the new Tuxedo protocol

Overview of the protocol #

최소 샘플 수는 6 (case/control 3반복씩). 그 외에도 time-course 등.

어떤 생물종도 가능함. 다만, smaller intro size에 대한 최적화 필요.

Alternative analysis packages #

Tuxedo protocolTopHat-[Cufflinks]]과 유사하게 각 단계를 조합하여 쓸 수 있음.

DEG 탐지 방법은 differential exon usage 만을 탐지하는 다른 프로그램들 DEXseq, rMATS, MISO와는 다름

Limitations of the protocol and software #

앞 단계 프로그램이 필요할 수 있음 FASTX toolkit, FastQC.

BallgownStringTie 외에도 Cufflinks, RSEM 결과도 받을 수 있음.

Experimental design #

Read alignment with HISAT #

Bowtie, BWA와 유사하게 Burrows-Wheller transform (BWT) 자료구조를 사용함

인간의 경우, 평균 intron size는 >6,000 bp, 일부는 >1 Mbp.

TopHat에 비해 50배 빠름. <8 GB 메모리만 필요함. 일반 데스크탑에서 인간 20 샘플, 샘플당 100 Mbp reads를 처리하는데 하루가 안걸림.

TopHat 처럼 novel splice site, transcription initiaon/termination site를 참음.

Transcript assembly and quantification with StringTie #

transcript를 재구축하는데 network flow algorithm이 사용됨. abundance와 exon-intron 구조를 동시에 계산하기 때문에 기존의 방법들 보다 더 정확함. Cufflinks 보다 더 빠르고, 정확함.

gffcompare 유틸리티를 써서 annotation과 맞춰 볼 수 있음. (cuffcompare와 유사)

Differential expression analysis with Ballgown #

R 패키지로 Bioconductor를 이용함

StringTie 결과는 세개의 테이블로 정리

  1. phenotype data - information about the samples being collected
  2. expression data - normalized and un-normalized measures of the amount of each exon, junction, transcript and gene expressed in each sample
  3. genomic information - coordinates giving the location of the exons, introns, transcripts and genes

이를 읽어서 다음을 수행

  1. data visualization and inspection
  2. statistical tests for differential expression
  3. multiple test correction
  4. downstream inspection and summarization of results

FPKM 값은 보통 skewed 됨. 분산을 안정화하기 위해, log transformation, fit standard linear models 수행.

RNA-seq 분석의 일반적 문제 하나는 배치 효과와 같은 confounder 설명에 실패하는 것. Ballgown은 stattest 함수로 confounder를 직접 명시함.

Materials #

Procedure #

Incoming Links #

Related Articles #

Suggested Pages #

web biohackers.net
0.0.1_20140628_0