地區特色 WES 資料庫範例 --- Hong Kong ( HKG ) 全外顯子公開資料庫

歐美在過去十年有序組織、統整基因資料庫,估計 2022 年 3 月為止全世界已累積了 >75 萬筆的全外顯子 ( Whole Exome Sequencing, WES ) 數據,這些 WES 數據展現了豐富的人群健康與基因關聯成果 ( 20 萬筆 WES 資料開啟新世代心臟代謝疾病基因研究35 萬筆 WES 資料發現蛋白質截短型突變對壽命及疾病影響 )。也由於 WES 的研究、應用效力極佳,越來越多的大型研究計劃列為必收數據外,WES 也成為臨床檢查工具 ( WES 第一線診斷使用,揭開 population 外顯子序幕 )。

然而,這些歐美資料庫中的亞洲數據,主要是亞洲溫帶區域的族群,缺乏南方漢人族群 ( Southern Chinese Subgroup ) 的遺傳資訊。2021 年時香港用了 205 組 SureSelect V6 WES 資料,公開了第一個南方漢族區域型的基因資料庫,補上了過往大型資料庫的空白,並獲得新的變異發現:


1. ~20% 獨有的變異

與千人基因組計劃 ( 1000 Genomes Project, 1KGP ) 中,來自中國不同族群 ( 圖一 CHS;CDX;CHB ) 的基因組序列資料比對,香港 ( 圖一 HKG )、與中原漢人分區的變異總數為 128,470 種,其中 25,472 種為香港特殊而其他區域沒有的突變點,將近於 20%。

【圖一】Population comparison of HKG variants

3 public Chinese populations of 1KGP project: CHS, CHB and CDX (CHB: Han Chinese in Beijing, China; CHS: southern Han Chinese; CDX: Chinese Dai in Xishuangbanna, China)


2. 增加重要亞洲區域族群變異資料

為檢測該數據在於亞洲特定族群的意義,將其納入 1KGP 後,皆顯示 HKG 基因資料具有極顯著 ( 圖二A** ) 的重要性。

為確認該數據可信度,與其他來源香港資料 ( 圖二B:, NARD_HK、圖二C, Yu et.al ) 整合比較,分別互相呈現高度相關,暗示 HKG 可作為香港族群的代表資料庫之一。

【圖二】Validation of HKG variants by imputation and correlation analysis

(A) Imputation testing using the two reference panels: 1KGP and 1KGP + HKG. The average Info scores ± standard deviation error was based on 22 chromosomes. ** indicates the difference meets a significant level with p<0.01 of student's T test. (B) Correlation analysis using AFs of variants in HKG and NARD_HK (Northeast Asian Reference Database). (C) Correlation analysis using AFs of variants in HKG and Yu et al. 2021 reported actionable pharmacogenetic variants.


3. 新的可能致病變異

利用 CADD ( Combined Annotation-Dependent Depletion ) 評估突變的有害程度,數值越高,危險度越高,可作為該變異是否可能影響疾病的初步判斷依據。

【圖三】Pathogenicity score in novel and all variants of HKG


HKG 僅有 205 組數據,雖不及國際基因研究的規模,仍是亞洲或其他發展中國家可效仿、著手建立自有的基因體資料庫,也成功填補該族群 / 區域的數據空白,只要逐漸收集樣本、累積數據,將有助於發現、分析出基因突變在於特定人群的生理意義或致病性,促進基因遺傳學從區域、到全球的醫學發展。



留言