Structured data
- About
- ChIP-seq
ChIP-seq 실험데이터로 타겟 유전자를 찾는 방법을 알아보자.
ChIP-seq 실험의 최종 결과 파일은 WIG 혹은 BED이다. WIG는 상세하게 바인딩 영역을 확인할 때 쓰며, BED는 특정 영역이 얼마나 바인딩하느냐를 설명한다. ENCODE 데이터의 경우, 다음의 상세 BED 형식이 있다.
- ENCODE broadPeak format: regions of signal enrichment based on pooled, normalized data
- ENCODE gappedPeak format: regions of signal enrichment based on pooled, normalized data where the region may be spliced or incorporated gaps in the genomic sequence
- ENCODE narrowPeak format: peaks of signal enrichment based on pooled, normalized data
이들 바인딩 영역이 어떤 유전자 근처인지 알기 위해서는 유전자 위치 자료와 교집합에 해당되는 영역을 찾으면 된다. 유전자 위치 자료는 UCSC Genome Browser의 Table Browser를 이용한다. RefSeq 유전자로 하고, BED로 내보내며, 유전자 앞 영역을 포함하기 위해 유전자 업스트림 영역 3kbp를 포함한다. 이를 BED로 내려받은 파일의 이름을 refseq.bed로 하고, 특정 ChIP-seq 실험 결과 BED를 a.broadPeak라고 하면, 이 두 영역이 겹치는 부분은 bedtools를 이용하여 다음처럼 확인할 수 있다.
$ bedtools intersect -a a.broadPeak -b refseq.bed -wa -wb
chr18 77792143 77797000 . 793 . 20.289724 14.3 -1 chr18 77793935 77796935 NM_001305564_up_3000_chr18_77793936_r 0 -
chr18 77792143 77797000 . 793 . 20.289724 14.3 -1 chr18 77793935 77796935 NM_001305563_up_3000_chr18_77793936_r 0 -
chr18 77865589 77869860 . 680 . 16.205268 14.6 -1 chr18 77863914 77866914 NM_014913_up_3000_chr18_77863915_f 0 +
chr18 77904387 77908216 . 622 . 14.122665 15.0 -1 chr18 77902806 77905806 NR_028339_up_3000_chr18_77902807_f 0 +
chr18 77904387 77908216 . 622 . 14.122665 15.0 -1 chr18 77902806 77905806 NR_028340_up_3000_chr18_77902807_f 0 +
chr18 78004301 78006312 . 509 . 10.018841 14.7 -1 chr18 78005397 78008397 NM_032510_up_3000_chr18_78005398_r 0 -
이 결과가 보기 불편하면 AWK를 써서 다음처럼 필터링할 수 있다.
$ bedtools intersect -a a.broadPeak -b refseq.bed -wa -wb | awk '{print $1, $5, $9, $13}'
chr18 793 -1 NM_001305564_up_3000_chr18_77793936_r
chr18 793 -1 NM_001305563_up_3000_chr18_77793936_r
chr18 680 -1 NM_014913_up_3000_chr18_77863915_f
chr18 622 -1 NR_028339_up_3000_chr18_77902807_f
chr18 622 -1 NR_028340_up_3000_chr18_77902807_f
chr18 509 -1 NM_032510_up_3000_chr18_78005398_r
위 결과를 통해 어떤 유전자가 해당 영역에 바인딩하는지 알 수 있다. (몇가지 도구로 RefSeq id 대신 Gene symbol로 바꿔야 함)
Suggested Pages #
- 0.025 October 10
- 0.025 Nature
- 0.025 FASTQ
- 0.025 BEDOPS
- 0.025 Bioconductor
- 0.025 FactorBook
- 0.025 Regulome
- 0.025 modENCODE
- 0.025 Biological constraints
- 0.025 HOMER
- More suggestions...
Other Posts #
- newer 생물정보관련 학술지 피인용지수(IF) 현황
- older 대한민국 SNS 이용현황 그림 다시 그리기