Skip to content

FASTQ #
Find similar titles

You are seeing an old version of the page. Go to latest version

퀄러티 정보를 포함하고 있는 NGS 시퀀싱 포맷. http://en.wikipedia.org/wiki/FASTQ_format

관련정보 #

fastq -> fasta #

(from OBK maillist by 장혜식)

fastq -> fasta 변환은 방법이 상당히 많은데 각각 장단점이 다양해서 용도에 따라 맞게 쓰시면 되겠습니다. 몇 가지만 소개해 드리자면,

fq_all2std.pl #

Heng Li의 꽤 오래된 펄 스크립트인데요, fastq 포맷간 변환 중 일부와 fastq -> fasta 변환을 지원합니다. http://maq.sourceforge.net/fq_all2std.pl 독립적인 스크립트라 쓰기는 아주 쉽습니다.

fq_all2std.pl fq2fa test.fq > test.fa

fastq_to_fasta #

fastx_toolkit (http://hannonlab.cshl.edu/fastx_toolkit/)에 포함되어 있는 프로그램입니다. 그냥 말 그대로 fastq를 받아서 fasta로 변환해줍니다. fastx_toolkit 안에 들어있는 프로그램들은 특히 파이프로 쭉 연결해서 쓰기가 간편합니다. 필터나 트리밍 관련해서 뭔가 하려면 이쪽으로 연결하는게 편합니다.

zcat test.fq.gz | fastq_to_fasta > test.fa

fastqToFa #

UCSC Genome Browser 유틸리티 ( http://hgdownload.cse.ucsc.edu/downloads.html#utilities_downloads ) 안에 포함되어 있는 툴인데요, fastq_to_fasta보다 미세하게 약간 더 빠릅니다만.. 큰 차이는 없습니다. Genome Browser 툴들이 대체로 파이프로 연결하기에 편리하게 되어 있지는 않아서 그게 약간 흠입니다.

fastqToFa test.fq test.fa

fastx_collapser #

2번의 fastx_toolkit 안에 들어있는 툴인데요, 입력은 fastq, fasta모두 받고 출력은 fasta로 나갑니다. 이름처럼 중첩된 리드를 하나로 줄여주기 때문에, 짧고 중복이 많은 miRNA/piRNA나 ribosome footprinting, ChIP-seq 같은 경우에는 collapse한 fasta로 align하면 이후 분석 시간이 많이 절약됩니다. (다만 coverage 같은 것들 계산할 때 이름에서 카피 수를 미리 고려해 줘야 하는 게 좀 번거로와집니다.)

zcat test.fq.gz | fastx_collapser > test.fa

BioPython SeqIO #

위에서 언급된 C/C++로 된 프로그램들보다 속도가 상당히 느리지만 나름대로 뭔가 프로그램 사이에 넣는다거나. 그럴 때 좋으려나요? ;

#!python
from Bio import SeqIO
SeqIO.convert('test.fq', 'fastq-illumina', 'test.fa', 'fasta')

이렇게만 해도 변환이 됩니다. SeqIO.parse와 SeqIO.write를 쓰면 중간에 필터나 트리밍 같은 걸 넣을 수도 있겠습니다.

sed #

sed 명령으로 하면 아무 것도 설치하지 않고 그냥 변환할 수도 있습니다.

zcat test.fq.gz | sed 'N;s/^@/>/;n;N;d;N;d;' > test.fa

EMBOSS #

EMBOSS에 포함된 seqret을 쓰면 포맷에 따라 명령을 안 바꾸고 간단하게 확장자만 바꿔서 여러가지 포맷에 적응시켜서 쓸 수 있습니다.

seqret -sequence test.fq -outseq test.fa

관련링크 #

web biohackers.net
0.0.1_20140628_0