FASTQ格式
外觀
FASTQ格式是一種儲存生物序列(通常為核酸序列)及其定序質素得分資訊的文字格式。序列與質素得分皆由單個ASCII字元表示。
該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其質素數據整合在一起。而目前,FASTQ格式已經成為了儲存高通量定序結果的事實標準。[1]
格式
[編輯]FASTQ檔案中,一個序列通常由四行組成:
- 第一行以@開頭,之後為序列的識別碼以及描述資訊(與FASTA格式的描述行類似)
- 第二行為序列資訊
- 第三行以+開頭,之後可以再次加上序列的標識及描述資訊(可選)
- 第四行為質素得分資訊,與第二行的序列相對應,長度必須與第二行相同
以下為一個包含單個序列的FASTQ檔案範例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!為最低質素、~則為最高質素。以下字元從左到右代表從低到高的質素得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字元與對應的ASCII碼如下:
十進制 | 圖形 |
---|---|
33 | ! |
34 | " |
35 | # |
36 | $ |
37 | % |
38 | & |
39 | ' |
40 | ( |
41 | ) |
42 | * |
43 | + |
44 | , |
45 | - |
46 | . |
47 | / |
48 | 0 |
十進制 | 圖形 |
---|---|
49 | 1 |
50 | 2 |
51 | 3 |
52 | 4 |
53 | 5 |
54 | 6 |
55 | 7 |
56 | 8 |
57 | 9 |
58 | : |
59 | ; |
60 | < |
61 | = |
62 | > |
63 | ? |
64 | @ |
十進制 | 圖形 |
---|---|
65 | A |
66 | B |
67 | C |
68 | D |
69 | E |
70 | F |
71 | G |
72 | H |
73 | I |
74 | J |
75 | K |
76 | L |
77 | M |
78 | N |
79 | O |
80 | P |
十進制 | 圖形 |
---|---|
81 | Q |
82 | R |
83 | S |
84 | T |
85 | U |
86 | V |
87 | W |
88 | X |
89 | Y |
90 | Z |
91 | [ |
92 | \ |
93 | ] |
94 | ^ |
95 | _ |
96 | ` |
十進制 | 圖形 |
---|---|
97 | a |
98 | b |
99 | c |
100 | d |
101 | e |
102 | f |
103 | g |
104 | h |
105 | i |
106 | j |
107 | k |
108 | l |
109 | m |
110 | n |
111 | o |
112 | p |
十進制 | 圖形 |
---|---|
113 | q |
114 | r |
115 | s |
116 | t |
117 | u |
118 | v |
119 | w |
120 | x |
121 | y |
122 | z |
123 | { |
124 | | |
125 | } |
126 | ~ |
最初桑格研究所的FASTQ格式允許序列與質素資訊分成多行儲存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在質素資訊中,可能會造成資訊提取的困難。
參見
[編輯]參考文獻
[編輯]- ^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.