蛋白質體分析技術比較與應用實例

隨著蛋白質體學技術的快速發展,血漿蛋白質體分析在疾病診斷、生物標記發現與精準醫療領域中扮演日益重要的角色。當前市場上已有多種分析平台可用,包括以aptamer為基礎的SomaScan平台、抗體分析平台,以及高解析度的質譜法(mass spectrometry),各自擁有不同的偵測原理與技術優勢。然而,這些平台間在蛋白覆蓋範圍、重現性、數據完整性與生物學解析能力等方面缺乏系統性的實證比較,使得研究人員在選擇平台時往往難以依據量化資料進行判斷。

2025年來自bioRxiv的研究,首度針對涵蓋適體、抗體與質譜等三大技術的七種代表性平台進行同一樣本來源的全面比較,分析其在血漿中蛋白質分析深度、再現性、資料完整性與生物標記鑑定能力上的異同,並針對年齡相關蛋白質進行深入探討,為蛋白質體平台的選擇與應用提供實證依據與技術指引。

研究樣本來自78位健康捐血者(40位55–65歲、38位18–22歲),男女性別各半。血漿透過plasmapheresis收集,並同時送至七個平台進行分析,分別為:SomaScan 11K、SomaScan 7K(aptamer-based)、抗體分析平台 Explore 5K、抗體分析平台 Explore 3K(antibody-based PEA)、MS-Nanoparticle(Seer Proteograph™)、MS-HAP Depletion(Biognosys TrueDiscovery™)、MS-IS Targeted(SureQuant™)。所有平台分析同一批血漿樣本,確保橫向比較的準確性,分別使用各平台的標準流程,收集蛋白表現數據、重現性(CV)、資料完整度、與生物變項之關聯等資訊,作為綜合評估依據,總計檢測出13,007獨特的血漿蛋白,為目前最大規模的同一樣本比較研究。


圖 1.使用七種蛋白質體學平台分析了來自78位健康捐血者的血漿樣本。【1】


首先比較了各平台在蛋白質檢測數量、重現性(技術CV)、資料完整性(Data completeness)以及檢測線性上的表現。SomaScan 11K平台表現最全面,共檢測到9,645個蛋白,並具有最小的技術變異(CV約5.3%),且96.2%的資料為可用數據。抗體分析平台5K雖檢出蛋白較多,但資料缺失率高(完整性僅35.9%),CV高達26.8%,顯示其穩定性較差。質譜平台方面,MS-Nanoparticle偵測到5,943個蛋白,MS-HAP Depletion則為3,575個,但其CV亦偏高(約30%)。唯一例外是MS-IS Targeted,儘管僅檢測551個蛋白,但其CV穩定(8.3%)且具絕對定量能力。資料完整性方面,SomaScan亦優於其他平台,其測項於所有樣本中幾乎完整檢測,抗體分析平台5K則因多數低表現蛋白落在偵測極限之下,導致資料缺失率偏高。
圖2.顯示各平台CV的分布情況、資料完整度、可偵測蛋白的濃度分布及每個平台識別FDA 核可的蛋白質生物標記的數量。【1】


為了解平台間測量值是否具有一致性,研究分析了各平台之間共同偵測蛋白的表現量相關性。整體而言,平台間的Spearman相關性偏低。SomaScan 11K與7K相關性最高(ρ = 0.79),其次為抗體分析平台 5K與3K(ρ = 0.74)。與MS平台相比,MS-IS Targeted與抗體分析平台 3K的相關性最高(ρ = 0.62),各平台間的蛋白表現數值整體相關性不高,但若針對已知且顯著的生物標記(如老化相關蛋白)進行分析,則呈現高度一致。以259個所有平台皆檢測到的蛋白為例,若該蛋白在某平台具有較低CV(<20%),則其與其他平台的相關性明顯較高,顯示技術穩定性是導致平台間差異的主要原因之一。此外,有些蛋白即使被多個平台偵測到,但因探針結合異構體差異或測量方式不同,導致表現結果無法一致,顯示蛋白異構體辨識能力亦影響跨平台一致性。

圖3.展示各平台間的蛋白質相關係數的分佈,並進一步探討CV與相關性的關係,發現CV小於20%的蛋白,具有較高平台間一致性;而CV大於20%的蛋白,其表現則顯著分歧。【1】


深入探討各蛋白質體平台在解析生物學變異上的能力,使用多元線性模型,評估蛋白表現量與主要生理變項(如年齡、性別、BMI、種族、吸菸、血容比與總蛋白濃度)之間的關聯性,並進行變異來源分解分析。在蛋白標記鑑定方面,SomaScan 11K 平台表現最為全面,能辨識最多的生理變項相關蛋白。例如,與 BMI 相關的蛋白達 5,239 個(其中有 4,040 個在 FDR 調整後仍顯著),與性別相關的蛋白則有 2,726 個(1,074 個為調整後顯著),顯示其高覆蓋性與穩定性有助於發掘廣泛的生理標記。質譜平台方面,MS-Nanoparticle 在性別相關蛋白的鑑定上表現亮眼,共檢出 2,427 個顯著蛋白(1,873 個經調整後仍保留統計顯著性),展現其在特定變項辨識上的潛力。針對蛋白表現變異來源進行的變異分解分析結果亦顯示不同平台之間的差異。SomaScan 11K、SomaScan 7K、抗體分析平台 3K 與 MS-IS Targeted 平台對於已知生理因子所能解釋的蛋白變異比例最高,約可解釋 19.9% 到 21.3% 的總變異。相比之下,抗體分析平台 5K 與 MS-HAP Depletion 平台的變異解釋力則偏低,僅為 13.8% 到 14.5%。這代表某些平台雖然蛋白檢測數多,但實際上可解釋的生物學資訊有限,可能受限於檢測品質、資料缺失或技術變異性。

圖4.顯示各平台對年齡、性別與BMI的標記鑑定能力及變異分析結果。【1】


研究特別針對年齡變項進行探討,所有平台所偵測到的顯著年齡相關蛋白(p-adj<0.05)之交集中,抗體分析平台 3K檢測到最多(669個),其次為SomaScan 11K(628個),其中有282個蛋白為SomaScan 11K獨特標記。7 個在所有平台中皆具顯著年齡關聯性的蛋白質,包括IGFBP2、IGFBP3、CHGA、COMP等,這些蛋白亦是其他大型老化研究中重複出現的重要蛋白。儘管平台之間整體蛋白質的表現量相關性不高,在被多平台共同鑑定為顯著年齡相關的蛋白質中,表現趨勢具有高度一致性,代表真正有生物學意義的蛋白在不同平台間的信號具有一致性。各平台在功能路徑分析上也呈現差異,SomaScan與抗體分析平台平台辨識出較多的老化相關生物過程與分子功能,如細胞外基質、免疫調節、補體級聯反應與IGF傳輸等;質譜平台也能檢測到與蛋白結合、細胞黏附與代謝相關的老化路徑,顯示不同技術平台在解析老化生物學面向上的互補性。

圖5.比較平台間年齡相關蛋白的回歸係數,發現一旦某蛋白於多平台中皆為顯著標記,其表現趨勢高度一致(ρ=0.66–0.95),反映生物標記跨技術穩定性佳。【1】


此研究提供了一個大規模、同一樣本來源的多平台比較,突顯各蛋白質體平台的優勢與限制。SomaScan 11K在蛋白偵測數、再現性與生物變項鑑定上具有明顯優勢,適合用於大規模探索研究。抗體分析平台平台雖在資料完整性上稍遜,但在特定條件下亦有良好表現,並與UK Biobank數據相容,有助於資料整合。而MS平台雖覆蓋度稍低,但能提供蛋白修飾、異構體資訊,並透過MS-IS Targeted實現絕對定量,對於生物標記驗證與轉譯應用極具價值。研究結果強調選擇平台時應根據研究目的進行取捨,或透過平台互補策略進行整合分析,以獲得最完整的蛋白質體資訊。

SomaScan®分析平台實例1

在2024年 Nature Medicine的研究,運用 SomaLogic 公司開發的 SomaScan® v4.1 aptamer 平台,對來自 STEP 1 與 STEP 2 臨床試驗的血清樣本進行蛋白質體分析,探索 semaglutide (屬GLP-1 receptor agonist 類,用來治療第二型糖尿病和輔助體重控制)對循環蛋白質的調控,並釐清其對體重控制以外潛在生物學機轉與治療作用的影響。SomaScan® v4.1可同時檢測 7,289 個 aptamer 探針對應的大約 6,400 種人類蛋白。受試者包括無 T2D (Type 2 Diabetes, 第二型糖尿病)的肥胖或過重者(STEP 1)與合併 T2D 的肥胖者(STEP 2),最終分析樣本數為 STEP 1 的 1,133 人與 STEP 2 的 595 人,皆提供了試驗前(baseline)與治療 68 週後的血清樣本。分析中使用線性回歸來評估蛋白濃度變化,並以 Holm–Bonferroni 校正 p 值控制多重檢定誤差,同時也使用 FDR(false discovery rate)控制偽陽性率。

在不調整體重與 HbA1c 的模型下,研究發現 semaglutide 對血漿蛋白具有廣泛調控作用。STEP 1 中共有 495 個蛋白靶點(438 種獨特蛋白)呈現顯著變化,STEP 2 中則為 277 個靶點(244 種蛋白),這些變化涉及食慾調控(如 leptin、ghrelin)、脂質代謝(如 APOF)、發炎(如 CRP)、胰島素訊號(如 IGFBPs)、消化酵素(如 amylase、lipase、trypsin 家族)等關鍵路徑。

圖6.以火山圖與顯著性標示視覺化這些變化,呈現多數蛋白在 semaglutide 組表現量顯著下降,尤其在發炎與心血管相關蛋白如 CRP、TNC、NT-proBNP 等。【2】


將體重與 HbA1c 變化納入模型中控制潛在干擾,以判斷 semaglutide 是否具有超越減重與降血糖的直接蛋白質體效應。此分析結果顯示,STEP 1 中有 47 個蛋白(38 種獨特蛋白)在調整後仍顯著變化,STEP 2 中則為 15 個蛋白(14 種)。這些蛋白的變化可能是 semaglutide 的直接藥理作用所致,其中多數蛋白與心血管疾病風險密切相關,如 NT-proBNP(反映心室壓力與心臟衰竭風險)、ANGPT2(血管新生與重塑)、CD93(內皮穩定性)、TNC 和 THBS2(細胞外基質重構)皆有顯著的下降,支持 semaglutide 具備潛在的心血管保護效益。

圖7.皮下注射semaglutide與安慰劑對循環蛋白質體的影響,包括心血管風險生物標記如 TNC、NT-proBNP、ANGPT2、CD93、MSR1 等皆顯著下降,顯示 semaglutide 可直接調控與血管功能、免疫與發炎相關的蛋白質,支持其潛在的心血管保護效益。【2】


為更進一步探討 semaglutide 是否對疾病風險具臨床意義,研究亦引用 SomaScan® 所建立的27種蛋白質-心血管疾病風險模型來預測 semaglutide 對心血管風險的影響。分析結果顯示,相較於安慰劑,semaglutide不論在 1.0 mg 或 2.4 mg 劑量下皆可顯著降低此風險分數,特別是在未患 T2D 的 STEP 1 族群中亦呈現明顯下降,顯示其心血管保護作用不受糖尿病狀態限制。

圖8.顯示 semaglutide 可顯著降低 CVD風險分數,且此趨勢在不同試驗族群與劑量下皆成立,表明即使在非高風險族群中亦具潛在的心血管預防作用。【2】


此外,研究將 semaglutide 所引發的蛋白變化與冰島 deCODE 計畫中 35,000 多名觀察性蛋白質體資料進行比對,結果發現,semaglutide 改變的蛋白與多種慢性病(如纖維肌痛、高血壓、憂鬱、神經病變疼痛、乳癌、心衰竭等)呈反向的調控。例如,在 STEP 1 中,semaglutide 能降低多種在上述疾病中上升的蛋白,並增加疾病中常見下降的蛋白,進一步支持 semaglutide 潛在的藥物再定位可能性。

圖9.呈現 semaglutide 在 STEP 1 與 STEP 2 中對多種疾病相關蛋白產生反向調控,包括纖維肌痛症、神經病變疼痛、憂鬱症、乳癌、心衰竭等,這些結果進一步強化 semaglutide 在多重慢性病風險調控中的潛能。【2】


研究團隊進一步利用孟德爾隨機化分析(Mendelian Randomization),以 BMI 與 T2D 的遺傳傾向與蛋白質體資料進行整合,發現 Semaglutide 有效將高BMI 與高T2D 疾病風險降低,強化其作為代謝疾病對抗策略的生物學合理性。

圖10.展示了 semaglutide 在 STEP 1 與 STEP 2 中的蛋白質體效應與肥胖(BMI)與 T2D 的遺傳風險(由 deCODE 計畫的孟德爾隨機化分析所得)之比較。結果發現,semaglutide 降低了多數與高 BMI 或 T2D 遺傳風險正相關的蛋白,並增加與健康體態與代謝功能相關的蛋白【2】


該研究首次以大規模臨床試驗資料,系統性揭示 semaglutide 在人體蛋白質體上的調控作用,這些變化不僅限於減重與降血糖,更涵蓋心血管、發炎、神經與癌症相關路徑,顯示 semaglutide 有潛力發展為跨疾病領域的治療藥物,其蛋白質體變化資料也為藥物機制闡釋、疾病生物標記發掘及藥物再定位研究提供關鍵資源。未來應重視在臨床試驗中系統性納入蛋白質體分析,不僅有助於機轉解析,更能挖掘藥物的新適應症與生物標記用途,為個人化醫療與新藥開發提供科學依據。


SomaScan®分析平台實例2

2023年 Nature Biotechnology的研究,運用 Stabl 機器學習模型 整合 SomaScan 蛋白質體分析平台 與 CyTOF™ 單細胞質譜技術,SomaScan 數據集被應用於 預測臨產時間(time to labor) 及 預測術後感染(surgical site infection, SSI) 的臨床案例中,作為多模態分析的一部分,結合了代謝體(metabolomics)與單細胞質譜(mass cytometry)等數據,進行整合建模與特徵篩選。



一、預測臨產時間(Time to Labor)

應用 SomaScan 蛋白質體技術於懷孕個體的血漿樣本,目標為建立一套可預測分娩時間的模型。資料來自兩個獨立的訓練與驗證 cohort,分析架構涵蓋三種 omics 層級:血漿蛋白質體(1,317項 SomaScan分析項)、代謝體(3,529項 untargeted MS分析項)以及單細胞免疫質譜(1,502項 mass cytometry 分析項)。Stabl 方法針對這三層數據分別計算資料驅動的特徵選擇門檻(θ),展現其多模組適應性,避免傳統 early 或 late-fusion 策略一體適用的不足。Stabl 模型在保有預測準確度的同時,顯著精簡了輸入變數的數量,有助於生物標記的詮釋與轉譯應用。於蛋白質體層面,模型挑出與臨產時間呈顯著關聯的候選標記物,包括懷孕荷爾蒙(如 17-hydroxyprogesterone)、胎盤衍生蛋白(如 Siglec-6)、以及免疫調節蛋白(如 IL-1R4 與 SLPI)。這些蛋白的變化呈現出在臨產前免疫系統與荷爾蒙環境的動態轉換,說明 Stabl 框架在高維資料中能有效提取具生物學意義的核心變數,為未來發展血液檢測工具預測分娩時間提供了技術基礎。

圖11.分娩時間預測模型中血漿蛋白質體學資料集的 UMAP 視覺化(上圖)和穩定性路徑(下圖)。【3】


二、預測術後感染風險(Surgical Site Infection, SSI)

另一項應用為預測手術後感染(SSI)的風險,分析對象為進行腹部手術的患者(n = 93),其中包括 16 例 SSI 個案與 77 位無感染個案,採 nested case–control 設計控制潛在臨床混雜因子。每位患者手術前皆收集血液樣本,進行 SomaScan 血漿蛋白質體與單細胞免疫質譜雙模組分析。Stabl 架構透過資料驅動的特徵選擇程序,有效壓縮特徵數量,並提升模型在分類任務中的準確度(StablL AUROC = 0.82)。在蛋白質體層級,Stabl 挑出 21 個具有代表性的候選蛋白,包括發炎細胞激素(如 IL-1β、IL-18)、免疫趨化因子(如 CCL3),以及壓力反應相關蛋白(如 HSPH1),這些蛋白顯示患者在手術前即存在預編程的免疫狀態。這些生物標記與單細胞層級上觀察到的免疫訊號(如 neutrophils 對 IL-6 的 STAT3 活化)互相呼應,支持一種假設:術後 SSI 的發生與術前體內的免疫傾向有關,可能因先天免疫過度啟動導致手術後抵禦細菌感染的能力受限。此一整合分析策略展示了 Stabl 能在複雜多模態資料中精準識別與預後相關的關鍵標記,為術前 SSI 風險預測提供新的血液生物標記候選群。

圖12.術後感染風險風險預測模型中血漿蛋白質體學資料集的 UMAP 視覺化(左)和穩定性路徑(右)【3】


此研究透過機器學習方法 Stabl,成功運用 SomaScan 高通量蛋白質體數據於兩項具臨床價值的預測任務中:一為預測懷孕婦女的臨產時間,另一為術前預測病患手術後感染的風險,這些結果驗證了 SomaScan 數據於臨床應用的潛力。

SomaScan是基於適體技術的高通量血漿蛋白質分析平台,擁有最廣泛的蛋白覆蓋能力,其SomaScan 11K版本可分析超過11,000種蛋白。除了涵蓋範圍廣,技術穩定性也非常高,變異係數(CV)平均僅約5%,並且資料完整性極佳,樣本中幾乎所有測項皆可成功偵測,該平台所需樣本量低(55μL)、數據結果線性佳,特別適合大規模的標記物探索研究。


【參考文獻】

  1. Douglas Y. Kirsher, Shreya Chand, Aron Phong, Bich Nguyen, Balazs G. Szoke, Sara Ahadi. The Current Landscape of Plasma Proteomics: Technical Advances, Biological Insights, and Biomarker Discovery. bioRxiv 2025.02.14.638375; doi: https://doi.org/10.1101/2025.02.14.638375
  2. Maretty, L., Gill, D., Simonsen, L. et al. Proteomic changes upon treatment with semaglutide in individuals with obesity. Nat Med 31, 267–277 (2025). https://doi.org/10.1038/s41591-024-03355-2
  3. Hédou, J., Marić, I., Bellan, G. et al. Discovery of sparse, reliable omic biomarkers with Stabl. Nat Biotechnol 42, 1581–1593 (2024). https://doi.org/10.1038/s41587-023-02033-x

留言