[NGS]不同定序規格對於NGS定序結果的影響

NGS format choosing

NGS實驗的定序規格該如何選擇?如何在價格及效果的選擇上獲得一個最佳的平衡點?這兩個問題確實相當重要也常有客戶詢問,但這之前我們應先了解定序規格不同對於NGS的結果會造成甚麼樣的差異。威健生技透過RNA-seq內部測試結果,並搭配其他文獻,獨家完整揭露定序讀長、定序量、Single End與Paired-End對NGS結果之影響,這是目前全台灣業界第一也是唯一的真實實驗數據與比較!



首先針對定序量來看,先前在NGS的基本概念一文中曾提到,NGS實驗就好比抽籤的機率問題,我們永遠無法得知實驗樣品裡面的真實狀態(複雜度),僅能靠著經驗或其他實驗工具做初步的推估與猜測,因此複雜度越高,定序量就必須越高,就好比增加抽籤次數,越能看出整個樣品的原始樣貌,反之亦然。現今NGS黃金準則大家的共識仍就是「越高(多)越好」,事實上從許多文獻都可以看出一些端倪,去年5月發表在GENOME RESEARCH就有一篇文章曾提到(Genome Res. 2011 Jun;21(6):991-8),作者以Human B-cell利用Solexa平台進行RNA-seq的實驗,將20個樣品RNA-seq的結果累加, Pool Data獲得總定序量大約在900 million reads (50PE),依此當做每個基因及Transcripts的最終基因表現值(Final FPKM),實驗結果有三大發現,第一,當定序量超過100 million reads時,能比對回Reference Human Genome的比例大約維持在80%左右;第二,定序量在100 million reads與Final FPKM的差距在±5%的基因數僅有6%,但定序量提升到500 million reads,與Final FPKM的差距在±5%的基因數則提升到72%;第三,40 million reads雖然對於基因Alternative Splicing的偵測敏感性不佳,但對於偵測到大部分已知基因的表現卻已足夠。從上述三點結論我們可以知道,進行Resequencing的實驗判斷一個定序結果的好壞從Mappable Rate的粗略估計,60-65%以上的Mappability都是可以接受的,75-90%則是一個相當不錯的定序結果;定序量多寡確實也影響著偵測基因數與表現量。因此我們可以知道定序量對於NGS實驗結果的影響層面至少包含比對率及偵側能力!

再來看到威健生技內部RNA-seq測試結果,我們以Reads數做為定序量的標準,探討在相同定序量不同定序規格(Single End & Paired-End)及讀長(36bp/50bp/75bp/90bp)對於Mappability之影響,從下圖可以清楚看到,讀長越長能比對回Reference Genome的Reads會越多,這主要牽扯到Mapping的過程中Reads的特異性(Specificity),在比對分析我們會把過多重複比對上Genome不同位置的Reads移除 (Multiple Mapping),而無法確認該Reads真實的位置,後序分析會造成一定的誤差,因此讀長越長能提高該Read在Reference Genome的位置,所以36bp的Mappability很明顯較低,讀長一但超過50bp比對率則無明顯差異,有趣的是SE的比對率竟略高於PE,原因是這是在Mapping過程我們故意把去除Multiple Mapping的參數設定相同,這代表著SE比對回Genome的錯誤率也會稍微高一些,但無論SE或PE,讀長50bp以上都可以獲得較佳的比對率。

圖一  

進一步我們來看讀長改變對偵測能力與正確率的差異,從下圖可明顯看不同讀長使用SE的規格所偵測到基因個數差異較大(讀長越短偽陽性比例越高),而使用PE規格就算讀長改變對於基因個數的影響就如此明顯,從結果我們可以知道PE有一定程度彌補讀長較短的能力,但仔細看X軸的級距其實僅在5%,因此對於偵測能力並無顯著影響。

圖二  

NGS的特色之一就是可以進行沒有Reference Genome的組裝,而我們從下圖以RNA-seq的Novel Transcripts Prediction結果來看,讀長大於50bp所預測的基因總數較36bp來的少,PE亦少於SE,這是因為長度越長,所能Overlapping的部分越多,組裝的效果自然更佳,而PE如同Mapping的原理能依據相對位置準確判定該序列的先後順序,因此分析結果偽陽性也會較低。

圖三    

最後探討相同讀長的狀態下不同定序量所偵測到的基因個數,75PE分別在10、20、30、40 million reads所偵測到基因個數明顯持續上升。

圖四

因此從威健生技測試結果我們可以獲得幾個結論:(1)50bp以上已可獲得良好而穩定的比對率。(2)讀長及SE、PE對於偵測能力並無顯著差異,但PE相對於SE可有一定能力可彌補短讀長造成偽陽性的影響。(3)組裝能力PE略優於SE,可有效降低偽陽性,50bp以上讀長更明顯優於36bp。(4)定序量越高樣品實際樣貌的能見度越好。

事實上基於應用、成本、經費考量,NGS仍有基本的建議最低定序量及規格,之後的文章威健生技將以更全面而客觀的角度逐一剖析NGS在各種應用定序規格的選擇概念,提供給客戶最符合實驗需求的建議!



 ~Coming Soon~ 2012 June, Welgene Taiwan Local NGS Service!

留言

  1. 太讚了~!我想不是每個廠商都可以這麼用心的寫這樣的文章的!

    回覆刪除
  2. 贊成樓上的見解, 這樣可以提升貴公司的形象!

    回覆刪除

張貼留言