發布日期:2016-08-15
艾吉泰康正在努力打造高通量序列設計引擎。我們自己有些感悟,就是探針引物在設計環節都是序列,在高通量的序列特征的分析,或者說設計環節當中有很多的共性的東西。包括我們在基因捕獲里面,無論是高通量探針還是引物設計,包括在其它的序列特征提取當中很多規則是一樣的。所以我們可能會開發出越來越多的設計的應用,并且做到線上為大家免費提供服務。
實際上在互聯網的領域,我們把這個定義為一種SaaS服務,就是一種非常專業的,高通量特征序列提取的一種業務流程。我們可以和專業的云計算的PaaS去配合(比如聚道云等),實際上我們今年一直在這個方面努力。因為它不只是一些生物的問題,還牽涉到一些算法優化,還有硬件的事,確實花了一些的時間,期待能和更專業的IT背景的人或企業合作。在序列設計的領域,當時我們已經積累發表了一批SCI文章和專著,引用率和使用率頗高。
基因捕獲在技術原理上其實特別簡單。液相雜交法中首先將常規樣本的基因組打斷,然后根據測序儀器加接頭。我們設計的探針,會跟DNA隨機打斷的片段特異地互補結合,最后通過磁珠把捕獲的目標區域吸附下來,吸附下來再經過洗脫、純化、富集上機測序。可能不同的公司在這個里面有些細節不一樣,但是這些公共步驟都是一樣的。多重PCR就更簡單,實際上它在實驗環節中只需經過一輪或者兩輪PCR,直接得到產物就上機測序了。這個里面難點還是在設計,以及實驗條件的磨合上,實驗步驟真的是特別簡單。
從解析這個角度上給大家交流一下,里面有哪些關鍵參數來評判基因檢測的好壞。第一個當然是有目標區域的測序量,覆蓋度,數據的均一性,代表著是它的可信度,也就是準確度。所謂的均一性,形象一點比喻,你看reads的分布圖跟山峰一樣的,有高有低的那肯定就不均勻,在峰底的時候準確度就特別低,峰頂是過度的高。還有一些標準就是重復率、捕獲效率,以及一些常規的測序質量等等。這個捕獲效率我做了一個公式,講的比較直觀一點。比對到目標區域的有效數據量除以比對到所有的人基因組區域的有效數據量就是捕獲效率。有效數據量是什么呢,你測序的時候會有重復率,用1減去這個重復率就是不重復率,不重復的達到QC標準比例再乘以原始數據,就是這個有效數據。然后平均深度我們是這么定義的,比對到目標區域的有效數據量除以panel區域的大小來計算平均深度。
重復率這一塊我們的去重標準是非常嚴格的,只允許唯一一條,其它的都叫重復。目前部分企業篩選標準比較低,允許三條,會對檢測結果造成很大的解讀隱患。下一頁展示的是在panel檢測中可以通過增加測序深度提高準確度,你看在五十層的時候這個是一個純合突變,到三百層的時候就被發現是雜合突變,明顯表明測序深度能夠部分解決準確度的問題。
靶向捕獲的研究和臨床應用
下面我講一些具體的應用案例。捕獲測序首先在基礎科研上有一些應用,最近我們探索地跟一些研究所在基因組編輯的脫靶效應優化上面做的一些合作開發,然后在單細胞測序上面,經過上游的細胞捕獲,然后擴增,下游再接上基因捕獲看看這個數據效果怎么樣。
另外像液體活檢ctDNA的這一塊也是比較多的應用。另外其實我們剛才聊了很多的東西都是基于基因組的。舉個案例,就是基因組編輯的定制化的全基因組脫靶優化方案,實際上它會有一些目標基因,我們會對這個目標利用靶向測序技術分析它的脫靶效應,看能不能通過靶向測序把它給鑒定出來,然后優化實驗的過程。首先它會有一些目標基因,比如說這個案例里面,就是DMD基因。我們會在全基因組范圍內預測它的脫靶位點,然后從篩選這些位點進行編輯實驗,實驗結果會通過表型,無論細胞表型還是動物表型去查看。這時候其實還不能確定脫靶位點,然后可以通過把和表型關聯的預測的這些脫靶位點進行捕獲測序,精確地告訴大家,基因是否在其他的基因組區域上脫靶了,脫靶的基因型是什么?
另外在臨床基因檢測中應用最多的是SNP的發現和檢測,同時其它基因組變異的篩查研究也特別多。我們舉一些案例。這個是一個遺傳病的panel,可以用來發現拷貝數的變異,右上直方圖是父親、母親、孩子的拷貝數體現,能夠發現顯著的差異,藍色的區域就是拷貝數的變化的量,這個能夠確定拷貝數斷點的位置。基因捕獲技術還可以發現特別大片段基因的缺失,有些常規的分子生物技術還做不到。
這是展示的胰腺癌的一個樣本中拷貝數變異,ERBB2的基因擴增是跟很多靶向藥物用藥相關聯的,有助于協助醫生判斷對患者進行異病同治。
這個是我們做的一個panel,發現中國人群前列腺癌樣本中的基因融合現象,因為基因融合有的時候比較復雜,它的融合點準確位置并不確定,而且有一些文獻報道的也是歐美人群的數據。當你不知道這個融合點位置的時候,在設計引物和探針的時候非常困難。實際上這個是發現了一個比較典型的三基因融合的現象,就是Gene-1、Gene-2,包括這個ETV1的一個3基因的融合,在一代測序上面得到了驗證。
這個是食管癌的panel檢測案例,文獻報道的有一個C1QTNF3-AMACR的基因融合。但是我們還發現了另外六個新的融合事件。Gene3和MECOM的融合,Gene4和VMP1的融合。這個也是剛才發現了更多復雜的融合的變異結構,通過生物信息可以把他們的基因的結構給復原出來。
艾吉泰康做了很多上游panel設計和開發,因此我們對panel基因檢測本身的技術參數非常了解,我們也發現了產業內現存的一些質控問題。只有做好指控,并對技術指標的解讀標準非常清晰,才能真正做到精準檢測。
基因檢測上游的測序技術,包括基因捕獲技術在國內都處于發展早期和追趕期,行業標準也沒有形成規范。我們長期和行業內企業合作,都是從原始數據到生物信息的各個層次的數據的整體交付,這樣數據質量問題永遠可追溯。跟我們打交道的大部分都是企業內的專業技術人員,好多像郝向穩先生、田埂博士這樣的。他們會第一時間給我們反饋數據里面的問題。但是我們在做臨床基因檢測的時候,大部分的企業都是發布臨床報告,醫生并不能發現其中的數據質量上的一些瑕疵。所以需要我們這些從業者以職業道德去做好質控,每個技術指標標準都要非常清晰。
其實目前基因檢測市場上還是良莠不齊,有很多由于數據質控造成的問題。這個案例就是測序質量的問題,測序質量低不篩除掉直接發報告導致了假陽性。測序質量不高的只有一個辦法,就是重測。覆蓋率,這個就是panel的問題,捕獲區域完全沒有覆蓋完整,然后還直接去發臨床報告,直接認定為陰性就傳遞給醫生了。我們重新設計了這個panel保證了覆蓋率,發現覆蓋到的這個區域應該是陽性結果。這個是測序深度的問題。
剛才說到測序深度不夠的時候,一開始是純合突變,但是增加測序深度你會發現變成雜合突變了。這個數據可信度是指的均一性,當這個均一性不高的時候,我剛才做的一個比喻,它是像山峰一樣,當你剛好你關注的突變點位于這個山峰的谷底的時候,這可能就是一個錯誤的結果,你去拿去驗證,跟它的結果剛好相反。這個均一性,如果一個panel在一層、四層、十層、二十層的時候平均覆蓋度分別是100%、100%、99%、99%這個下降程度,說明這個panel均一性很好,但如果覆蓋度分別是90%、80%、70%、60%這個下降程度時,一般達不到臨床級的應用,到不了95%以上的話可能都是要直接重做的。還有這個重復率的問題,這個結果重復率非常高,這個公司在做生物信息分析的時候的去重率標準放的特別寬,有了三條以上的重復它才去重。就會造成什么呢?他們真實的測序深度是假的,間接地造成了實際上因為重復率比較寬松,給你報告的達到100層了,但實際上才測了30層。30層就回到剛才那個問題,有的區域可能就不準吧,你測出來也是假陰性,這個機率非常大。所以最好還是在這些指標上要非常清晰的嚴格指控。
精準醫療基因檢測是否精準?在中國目前還是一個任重而道遠的問題。我們各個環節的從業者必須從技術創新、技術標準、技術質控,到后續的技術服務上用心去做,打造中國質造,才能達到真正的精準檢測的終極目標。
服務模式探討
我們提了一個概念叫“中國質造”,不光是能生產,最重要的是質量,在醫療應用場景中,我們技術指標可能達到了99.9%,但那0.01%到患者那兒,對他個體就是100%。這是我們的試劑盒及試劑盒里試劑的組成。過去一年我們和國內近80家機構訂制開發了近一百個panel。
目前相對于那些國際競品,我們現在的技術指標能夠做到跟他們基本上不分伯仲。我們的采購鏈、制造基本都在國內,訂制開發速度比較快,同時試劑盒交付時嚴格質控,同時交付實際捕獲和NGS測序的質控結果。送測檢測服務一般根據你的時間和不同成本的要求,從兩周到一個月都有相關的服務。第一種就是說試劑和采購,基因列表提出來,我們通過設計開發質控完了以后,把試劑盒交付給大家,然后通過標準的protocol在自己的實驗室進行操作。第二個合作模式是新技術的合作開發。就是因為有些產品比較新,確實我們標準服務里沒有,但是我們對任何的產品開發都是一種比較開放的合作態度,以技術開發的形式進行合作。第三就是服務,你也可以送樣服務,目前我們的測序通量還比較大,能夠協助大家把時間和測序的成本降下來,測序成本優勢比較明顯。
來源:貝殼社