퀄러티 정보를 포함하고 있는 NGS 시퀀싱 포맷. http://en.wikipedia.org/wiki/FASTQ_format
Table of Contents
관련정보 #
fastq -> fasta #
(from OBK maillist by 장혜식)
fastq -> fasta 변환은 방법이 상당히 많은데 각각 장단점이 다양해서 용도에 따라 맞게 쓰시면 되겠습니다. 몇 가지만 소개해 드리자면,
fq_all2std.pl #
Heng Li의 꽤 오래된 펄 스크립트인데요, fastq 포맷간 변환 중 일부와 fastq -> fasta 변환을 지원합니다. http://maq.sourceforge.net/fq_all2std.pl 독립적인 스크립트라 쓰기는 아주 쉽습니다.
fq_all2std.pl fq2fa test.fq > test.fa
fastq_to_fasta #
FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/)에 포함되어 있는 프로그램입니다. 그냥 말 그대로 fastq를 받아서 fasta로 변환해줍니다. fastx_toolkit 안에 들어있는 프로그램들은 특히 파이프로 쭉 연결해서 쓰기가 간편합니다. 필터나 트리밍 관련해서 뭔가 하려면 이쪽으로 연결하는게 편합니다.
zcat test.fq.gz | fastq_to_fasta > test.fa
fastqToFa #
UCSC Genome Browser 유틸리티 ( http://hgdownload.cse.ucsc.edu/downloads.html#utilities_downloads ) 안에 포함되어 있는 툴인데요, fastq_to_fasta보다 미세하게 약간 더 빠릅니다만.. 큰 차이는 없습니다. Genome Browser 툴들이 대체로 파이프로 연결하기에 편리하게 되어 있지는 않아서 그게 약간 흠입니다.
fastqToFa test.fq test.fa
fastx_collapser #
2번의 fastx_toolkit 안에 들어있는 툴인데요, 입력은 fastq, fasta모두 받고 출력은 fasta로 나갑니다. 이름처럼 중첩된 리드를 하나로 줄여주기 때문에, 짧고 중복이 많은 miRNA/piRNA나 ribosome footprinting, ChIP-seq 같은 경우에는 collapse한 fasta로 align하면 이후 분석 시간이 많이 절약됩니다. (다만 coverage 같은 것들 계산할 때 이름에서 카피 수를 미리 고려해 줘야 하는 게 좀 번거로와집니다.)
zcat test.fq.gz | fastx_collapser > test.fa
Biopython SeqIO #
위에서 언급된 C/C++로 된 프로그램들보다 속도가 상당히 느리지만 나름대로 뭔가 프로그램 사이에 넣는다거나. 그럴 때 좋으려나요? ;
#!python
from Bio import SeqIO
SeqIO.convert('test.fq', 'fastq-illumina', 'test.fa', 'fasta')
이렇게만 해도 변환이 됩니다. SeqIO.parse와 SeqIO.write를 쓰면 중간에 필터나 트리밍 같은 걸 넣을 수도 있겠습니다.
sed #
sed 명령으로 하면 아무 것도 설치하지 않고 그냥 변환할 수도 있습니다.
zcat test.fq.gz | sed 'N;s/^@/>/;n;N;d;N;d;' > test.fa
EMBOSS #
EMBOSS에 포함된 seqret을 쓰면 포맷에 따라 명령을 안 바꾸고 간단하게 확장자만 바꿔서 여러가지 포맷에 적응시켜서 쓸 수 있습니다.
seqret -sequence test.fq -outseq test.fa
관련링크 #
Incoming Links #
Related Medical Scholarly Articles (MedicalScholarlyArticle 0) #
Related Articles (Article 1) #
Related Education Events (EducationEvent 2) #
Related Web Pages (WebPage 3) #
Related Corporations (Corporation 4) #
Related Codes (Code 5) #
Related Web Applications (WebApplication 6) #
Suggested Pages #
- 0.106 Cell-free tumor DNA
- 0.100 Pathology
- 0.095 파이썬으로 메타지놈 기본 프로파일링 따라하기
- 0.070 Genotyping by sequencing
- 0.046 BED
- 0.040 ngs.plot
- 0.037 HTSeq
- 0.037 NABIC
- 0.035 ChIP-PED
- 0.034 Metagenomics
- More suggestions...