FASTQ格式

FASTQ格式是一種保存生物序列（通常為核酸序列）及其測序質量得分信息的文本格式。序列與質量得分皆由單個ASCII字符表示。

該格式最初由維爾康姆基金會桑格研究所開發，旨在將FASTA格式序列及其質量數據整合在一起。而目前，FASTQ格式已經成為了保存高通量測序結果的事實標準。^[1]

格式

FASTQ文件中，一個序列通常由四行組成：

第一行以@開頭，之後為序列的標識符以及描述信息（與FASTA格式的描述行類似）
第二行為序列信息
第三行以+開頭，之後可以再次加上序列的標識及描述信息（可選）
第四行為質量得分信息，與第二行的序列相對應，長度必須與第二行相同

以下為一個包含單個序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低質量、~則為最高質量。以下字符從左到右代表從低到高的質量得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符與對應的ASCII碼如下：

十進制	圖形
33	!
34	"
35	#
36	$
37	%
38	&
39	'
40	(
41	)
42	*
43	+
44	,
45	-
46	.
47	/
48	0

十進制	圖形
49	1
50	2
51	3
52	4
53	5
54	6
55	7
56	8
57	9
58	:
59	;
60	<
61	=
62	>
63	?
64	@

十進制	圖形
65	A
66	B
67	C
68	D
69	E
70	F
71	G
72	H
73	I
74	J
75	K
76	L
77	M
78	N
79	O
80	P

十進制	圖形
81	Q
82	R
83	S
84	T
85	U
86	V
87	W
88	X
89	Y
90	Z
91	[
92	\
93	]
94	^
95	_
96	`

十進制	圖形
97	a
98	b
99	c
100	d
101	e
102	f
103	g
104	h
105	i
106	j
107	k
108	l
109	m
110	n
111	o
112	p

十進制	圖形
113	q
114	r
115	s
116	t
117	u
118	v
119	w
120	x
121	y
122	z
123	{
124	\|
125	}
126	~

最初桑格研究所的FASTQ格式允許序列與質量信息分成多行保存。但一般不推薦採用這種方式，因為第一、第三行開頭的@與+符號同樣也可能出現在質量信息中，可能會造成信息提取的困難。

參見

FASTA格式

參考文獻

^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[Cock2009-1] Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[1]

閱論編生物信息學
數據庫	測序數據庫：GenBank、European Nucleotide Archive（英語：European Nucleotide Archive）、日本DNA數據庫(DDBJ) 輔助數據庫：UniProt, database of protein sequences grouping together Swiss-Prot, TrEMBL 和蛋白質信息資源（英語：Protein Information Resource）其它數據庫：蛋白質資料庫, Ensembl, 和InterPro（英語：InterPro）專項基因組數據庫：酵母基因組數據庫（英語：Saccharomyces Genome Database）、FlyBase（英語：FlyBase）、VectorBase（英語：VectorBase）、PomBase、WormBase（英語：WormBase）、PHI-base（英語：PHI-base）、擬南芥信息資源（英語：The Arabidopsis Information Resource）與斑馬魚信息網（英語：Zebrafish Information Network）
軟件	BLAST Bowtie Clustal EMBOSS（英語：EMBOSS） HMMER（英語：HMMER） MUSCLE SAMtools（英語：SAMtools） TopHat（英語：TopHat (bioinformatics)）
其它	服務器：ExPASy（英語：ExPASy）本體論：基因本體
機構	歐洲生物信息研究所(EMBL-EBI) 歐洲分子生物學實驗室(EMBL) 美國國家生物技術信息中心（NCBI）瑞士生物信息學研究所（英語：Swiss Institute of Bioinformatics）日本國立遺傳學研究所博德研究所（英語：Broad Institute）維康桑格研究所斯克里普斯研究所(TSRI)
文件格式	FASTA格式 FASTQ格式斯德哥爾摩格式（英語：Stockholm format）
有關議題	計算生物學分子系統發生學測序序列比對
分類維基共享