常有人詢問NGS的產物是什麼?以什麼形式呈現?事實上大家可以想像,Sanger Sequencing的結果不外乎就是由A、T、C、G所組成,因此NGS定序完成的序列亦是如此,但是對於這種高通量定序如何區分每條序列的來源與其每個位置的準確度,確實是一大考驗,不過不必擔心,這一切都早已設想周到了。
NGS所產出的序列格式我們稱之為「FASTQ」,在認識FASTQ之前我們先從「FASTA」來下手,幫助我們更容易了解!FASTA可以是由核苷酸(Nucleotide)、胜肽(Peptides)或胺基酸(Amino Acid)所組成的序列,通常第一行皆由">"做為開頭,用來區分每條序列的啟始位置,後面則接上代表這序列的訊息,通常會標示基因或蛋白質的名稱,也會註明是什麼物種或是否為全長,每行約只有80個字元,超過便向下延伸;而FASTQ也是採用類似的模式呈現,不同的是由於NGS是短片段定序,因此通常在一行內就可以把每個序列呈現,而一條完整序列的FASTQ格式必須包含四行的資訊。
▲FASTA可以是核苷酸(Nucleotide)、胜肽(Peptides)或胺基酸(Amino Acid)所組成的序列。
FASTQ第一行第一個字為”@”,透過這方式來區分每條序列的啟始,這就好比FASTA的">",而接在”@”後面則是代表該序列來自哪台機器的什麼位置,這會因機器平台不同而略有差異,以Illumina Solexa來說,可以從第一行獲知是第幾條Lane,第幾個Tile的X、Y座標,最後則顯示序列是來自於雙端(Paired-End)哪一次的讀值,1則為First Read,2則為Second Read,想當然爾,若是以單端(Single Read)進行定序,最後僅會顯示1。
FASTQ第二行就是我們熟悉的序列資訊,由ATCG所組成,進行定序的Cycle數設定多少(亦指讀長),這邊就可以看到相對應的序列字元個數。
FASTQ第三行僅會出現一個”+”符號,並無任何特殊意義,僅提供機器辨識用。
FASTQ第四行為一串字母,乍看之下是亂碼,但他的重要性等同於第二行序列的資訊。可以發現這行的字元個數與第二行序列組成個數相同,這些字母叫做ASCII (American Standard Code for Information Interchange),這是一套國際標準通用的電腦編碼系統,透過編碼系統可以對應到一個數值,再經過運算後的最終數值稱之為QV值(Quality Value),代表著每個位置的錯誤率。而ASCII碼轉換成QV值就是為了統一標準以方便後續進行分析,但各平台與判讀軟體版本在QV值的運算方式會有些許差異,以Illumina為例,若今天使用CASAVA 1.7以前的版本與CASAVA 1.8版(已變成Sanger格式)轉換成QV值的算法就會不同,因此在做轉換時要特別注意。
▲一條完整序列的FASTQ格式包含了四行,因此總行數會等於定序量(Reads數)的四倍。
▲QC值的運算方式會因定序平台與訊號轉換軟體之版本而有有些許差異。
假設今日某序列的某個位置其鹼基對應ASCII碼為"^",對照ASCII碼十進位的數值為"94",該序列是使用Solexa平台CASAVA1.7的版本,因此該位置的QV值為ASCII碼扣除64便可得到QV值為30,一般表示為Q30,透過下列Phred Quality Score公式與換算表我們可以得知錯誤率為千分之一(正確率為99.9%)。
▲ASCII碼對照十進位數值即為其Quality Score (QV, Quality Value)。
▲左邊為QV值換算成錯誤率之公式,對照右邊表格即可清楚看見各QV值相對應之準確率。
以目前來說,普遍認為每個位置可容忍的錯誤率在Q20,也就是說僅能允許1%的錯誤率,而對於影響QV值的原因很多,樣品差異、平台特性、實驗操作程序不同都有可能會造成影響。至於後續該如何利用QV值篩選與過濾數據以進行分析,這都得依照實際情況與經驗來做調整!
[註] 部分圖片截取自http://www.wikipedia.org/
留言
張貼留言