FASTQ格式

FASTQ格式是一種儲存生物序列（通常為核酸序列）及其定序質素得分資訊的文字格式。序列與質素得分皆由單個ASCII字元表示。

該格式最初由維爾康姆基金會桑格研究所開發，旨在將FASTA格式序列及其質素數據整合在一起。而目前，FASTQ格式已經成為了儲存高通量定序結果的事實標準。^[1]

格式

FASTQ檔案中，一個序列通常由四行組成：

第一行以@開頭，之後為序列的識別碼以及描述資訊（與FASTA格式的描述行類似）
第二行為序列資訊
第三行以+開頭，之後可以再次加上序列的標識及描述資訊（可選）
第四行為質素得分資訊，與第二行的序列相對應，長度必須與第二行相同

以下為一個包含單個序列的FASTQ檔案範例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低質素、~則為最高質素。以下字元從左到右代表從低到高的質素得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字元與對應的ASCII碼如下：

十進制	圖形
33	!
34	"
35	#
36	$
37	%
38	&
39	'
40	(
41	)
42	*
43	+
44	,
45	-
46	.
47	/
48	0

十進制	圖形
49	1
50	2
51	3
52	4
53	5
54	6
55	7
56	8
57	9
58	:
59	;
60	<
61	=
62	>
63	?
64	@

十進制	圖形
65	A
66	B
67	C
68	D
69	E
70	F
71	G
72	H
73	I
74	J
75	K
76	L
77	M
78	N
79	O
80	P

十進制	圖形
81	Q
82	R
83	S
84	T
85	U
86	V
87	W
88	X
89	Y
90	Z
91	[
92	\
93	]
94	^
95	_
96	`

十進制	圖形
97	a
98	b
99	c
100	d
101	e
102	f
103	g
104	h
105	i
106	j
107	k
108	l
109	m
110	n
111	o
112	p

十進制	圖形
113	q
114	r
115	s
116	t
117	u
118	v
119	w
120	x
121	y
122	z
123	{
124	\|
125	}
126	~

最初桑格研究所的FASTQ格式允許序列與質素資訊分成多行儲存。但一般不推薦採用這種方式，因為第一、第三行開頭的@與+符號同樣也可能出現在質素資訊中，可能會造成資訊提取的困難。

參見

FASTA格式

參考文獻

^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[Cock2009-1] Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

[1]

閱論編生物資訊科學
資料庫	定序資料庫：GenBank、European Nucleotide Archive（英語：European Nucleotide Archive）、日本DNA資料庫(DDBJ) 輔助資料庫：UniProt, database of protein sequences grouping together Swiss-Prot, TrEMBL 和蛋白質資訊資源（英語：Protein Information Resource）其它資料庫：蛋白質資料庫, Ensembl, 和InterPro（英語：InterPro）專項基因組資料庫：酵母基因組資料庫（英語：Saccharomyces Genome Database）、FlyBase（英語：FlyBase）、VectorBase（英語：VectorBase）、PomBase、WormBase（英語：WormBase）、PHI-base（英語：PHI-base）、擬南芥資訊資源（英語：The Arabidopsis Information Resource）與斑馬魚資訊網（英語：Zebrafish Information Network）
軟件	BLAST Bowtie Clustal EMBOSS（英語：EMBOSS） HMMER（英語：HMMER） MUSCLE SAMtools（英語：SAMtools） TopHat（英語：TopHat (bioinformatics)）
其它	伺服器：ExPASy（英語：ExPASy）本體論：基因本體
機構	歐洲生物資訊研究所(EMBL-EBI) 歐洲分子生物學實驗室(EMBL) 美國國家生物技術資訊中心（NCBI）瑞士生物資訊科學研究所（英語：Swiss Institute of Bioinformatics）日本國立遺傳學研究所博德研究所（英語：Broad Institute）維康桑格研究所斯克里普斯研究所(TSRI)
檔案格式	FASTA格式 FASTQ格式斯德哥爾摩格式（英語：Stockholm format）
有關議題	計算生物學分子系統發生學定序序列比對
分類維基共用