發布日期:2018-03-21
本周,人工智能又開掛了。
距離我們上次報道張康教授的重磅AI研究還不到一個月,來自全球100多個實驗室的近150位科學家聯合在頂級期刊《自然》發文[1],他們開發了一個超級AI系統,基于腫瘤組織DNA的甲基化數據,可以準確區分近100種不同的中樞神經系統腫瘤。更厲害的是,這個AI系統還能發現一些指南里面沒有的新分類。這對于癌癥的精準治療而言,又是個巨大的進步。
這項研究一方面能夠彌補目前中樞神經系統腫瘤難以診斷的問題,一方面也是為尚不完善的中樞神經系統腫瘤分類做出了極大的貢獻。
在諸多癌癥中,中樞神經系統腫瘤可以說是最難搞的。目前科學家已經確定的中樞神經系統腫瘤足有100來種[2],它們的臨床表現和生物學特性有高度特異性,很難確診。由于此類腫瘤的分子標志物稀少,目前臨床上中樞神經系統腫瘤的診斷核心技術還是基于顯微鏡的組織學診斷。
不過難點在于,很多在顯微鏡下表現相似的腫瘤,實際上有不同的基因變異特點,這些幾乎是很難觀察到的,這就給精準診斷帶來了極大的困難。雖然FDA已經批準了基于組織病理學切片成像輔助診斷疾病的技術[3],也有很多創業公司開始嘗試利用AI分析這些病理圖片,輔助醫生診斷。然而上面存在的問題依然不能避免。
所以近年來WHO也逐漸在分類標準中增加了分子指標,例如幾種與特定腦癌亞型相關的基因變異和甲基化情況。
Andreas von Deimling和Stefan M. Pfister領導的這個國際團隊認為,分析癌癥的甲基化組是個很聰明的做法,甲基化特征一方面能夠標志相應的細胞變化,一方面還能夠用于追蹤細胞來源,例如用來診斷那些病灶不明的癌癥[4]。而且前人的實驗也證實了癌癥甲基化數據的可靠性,即使在很小的樣本中也能夠得到重復[5]。現在研究者們要做的就是,在這些零散的數據基礎上繼續擴大,讓癌癥甲基化組能夠成為一個統一標準的、全方位的診斷和分類工具。
不過這里面有個大問題就是,甲基化數據從哪里來。開發AI系統是需要大量的數據訓練算法的,但是限于之前技術不足和高昂的成本,針對某種特定腫瘤的甲基化數據顯然是嚴重不足的,更何況這還是個發病率不是特別高的中樞神經系統腫瘤。
感謝技術的進步。現在科學家已經可以很容易的從經福爾馬林固定后石蠟包埋的少量組織(FFPE)中提取DNA,這就解決了實驗材料的來源問題。盡管沒有足夠的腫瘤DNA甲基化數據,但是在全世界的很多實驗室和醫療機構中,都保存有FFPE樣本。
于是,這個龐大的研究團隊開始收集FFPE樣本,并用Illumina公司的主流甲基化芯片450K(可分析人體45萬個甲基化位點)分析近3000份腫瘤樣本的甲基化數據,幾乎覆蓋了目前WHO分類中全部的中樞神經系統腫瘤種類。此外,為了區分中樞神經系統腫瘤與其他腫瘤和正常腦組織之間的差異,研究團隊還分析了部分間充質腫瘤、黑色素瘤、彌漫性大B細胞淋巴瘤、漿細胞瘤以及6種垂體腺瘤,以及健康腦組織的DNA甲基化情況。
決策過程
研究人員把每個樣本的幾十萬個甲基化信息一股腦交給計算機,首先根據WHO的分類以及樣本的診斷結果,在有監督的機器學習算法下,分析WHO定義的每類腫瘤的甲基化特征;然后又無監督的機器學習算法再分析一遍,讓AI系統總結出自己對中樞神經系統腫瘤甲基化的認知。
最后,他們得到了82個中樞神經系統腫瘤甲基化特征,以及9個對照樣本的甲基化特征。這91個甲基化特征就是AI系統在WHO定義的指導下,對中樞神經系統腫瘤甲的分類。顯然,AI系統對中樞神經系統腫瘤的分類,肯定不可能完全與WHO的分類完全重合。
研究人員把這82個甲基化特征分成了5類。
第一類的29個是完全與WHO的分類匹配的,就是說,AI系統認為這些甲基化特征分別屬于某一類腫瘤,按照WHO的分類標準,醫生之前的診斷確實也是屬于這個分類。第二類也有29個,他們能與WHO分類中的某種腫瘤下面的亞類型匹配。
剩下的就是只能部分匹配,或者完全不能匹配。而這些也是研究人員最感興趣的,他們認為,這一發現可以幫助研究人員更深入的理解中樞神經系統腫瘤。
a,91個甲基化特征,以及它們所屬的5個類別;b,2801個樣本的甲基化特征降維數據圖
到此,中樞神經系統腫瘤的甲基化特征已經被AI系統提取,加上對照組,一共有91個。顯然,如果研究就到此為止的話,使用價值還是有限的。畢竟,人工分析每個樣本的甲基化類型與這91個匹配情況是件非常費時費力的事情。
于是,他們把這91個甲基化類型交給了隨機森林機器學習算法,開發出一個AI決策系統,只要研究人員將從測序機器上下來的甲基化數據導入這個AI系統,就可以快速判斷這個腫瘤屬于哪一種。
為了驗證這些甲基化特征和AI決策系統的準確性。研究者選取了1104份已經組織學和分子生物學診斷的中樞神經系統腫瘤患者組織樣本,同時用傳統的標準組織病理學分析和這個AI系統進行診斷。
結果,在60.4%的樣本上,AI系統和病理學家診斷是一致的。15.5%的樣本AI系統和病理學家的也是一致的,只不過AI系統認為,它們應該屬于一個更小的亞型。
還有12.6%的病例,AI系統和病理學家診斷的結果不一致。那到底是AI系統對,還是病理學家對?于是研究人員對這部分樣本做了更加深入的分析(例如基因測序),最后驚喜的發現,92.8%的樣本是AI系統對了。
最后剩余的11.5%的樣本,AI系統表示無能為力,不知道該如何分類,仔細分析發現,其中三分之一是罕見腫瘤,可能是前期的樣本量不夠,導致AI系統無法識別。因此,這部分隨著數據的積累,或許可以解決。
AI系統對病例的識別情況
目前該AI平臺已經免費向研究機構開放[6],自2016年上線以來,已經有近萬份個體DNA甲基化數據上傳!實用性已經得到千余例真實病例的支持。
當然,研究者也提出,甲基化特征還不能作為單一的診斷標準,還需要臨床的驗證。不過作為研究的工具,它著實將使中樞神經系統腫瘤科研前進一大步。
一方面,統一的、易于使用的標準將使科研變得更加條理分明;另一方面,甲基化組明確的數據特征也便于使用計算機進行分析。有了這項技術,我們對腫瘤的分類將會更具動態并逐漸走向完善,最終帶來更加精準、有針對性的治療方案。
參考資料:
[1]. David Capper, David T. W. Jones, Martin Sill, et al. DNA methylation-based classification of central nervous system tumours. Nature, 2018.
[2]. Louis D N, Perry A, Reifenberger G, et al. The 2016 World Health Organization classification of tumors of the central nervous system: a summary[J]. Acta neuropathologica, 2016, 131(6): 803-820.
[3]. https://www.fda.gov/newsevents/newsroom/pressannouncements/ucm552742.htm
[4]. Moran, S. et al. Epigenetic profling to classify cancer of unknown primary: a multicentre, retrospective analysis. Lancet Oncol. 17, 1386–1395(2016)。
[5]Hovestadt, V. et al. Robust molecular subgrouping and copy-number profling of medulloblastoma from small amounts of archival tumour material using high-density DNA methylation arrays. Acta Neuropathol. 125, 913–916(2013)。
[6] https://www.molecularneuropathology.org
來源:奇點網