APP下載

掃一掃,立即下載

醫(yī)學教育網APP下載

開發(fā)者:1

蘋果版本:1

安卓版本:1

應用涉及權限:查看權限 >

APP:隱私政策:查看政策 >

微 信
醫(yī)學教育網微信公號

官方微信Yishimed66

24小時客服電話:010-82311666
您的位置:醫(yī)學教育網 > 臨床醫(yī)學理論 > 學術動態(tài) > 正文

“干試驗”生物學的未來

2013-10-26 10:52 醫(yī)學教育網
|

熱點推薦

——●●●聚焦熱點●●●——
報名預約>> 有問必答>> 報考測評>>

爆炸式增長的測序數據、結構數據以及圖像數據讓從事生命科學研究的科研人員們未來有機會不用再做真實的試驗(即我們常說的“濕試驗”)。他們只需要通過對這些數據進行分析(即我們常說的“干試驗”)就可以開展科學研究,獲得最基礎的科研發(fā)現。

大部分從事生命科學研究的科研人員一輩子可能也就會關注某一個物種,或者某一種疾病,甚至可能只是其中的某一條信號通路。因為學會養(yǎng)一種細胞或者某項實驗技術至少都需要好幾個月的時間??葾tul Butte卻是一個例外,他不停地更換研究對象和方向,可是卻總有新發(fā)現。今年只有44歲的Butte已經是美國斯坦福大學(Stanford University's School of Medicine in Palo Alto, California)的一名終身教師了,因為他在糖尿病、肥胖癥、移植排斥反應以及新藥發(fā)現(主要是發(fā)現治療肺癌的新藥,以及治療其它一些疾病的新藥)等方面都頗有建樹。

Butte的實驗室也和他本人一樣與眾不同,在Butte的實驗室里看不到普通實驗室里那些瓶瓶罐罐,他的實驗室看起來更像是一間IT工作室或軟件開發(fā)工 作室。大部分時間他都在那臺索尼筆記本電腦上工作,有時他也會去斯坦福大學的大型計算機中心,或者其他機構的超級計算機房工作,那主要是因為他需要做大量 的數據運算工作。Butte和他實驗室的學生、博士后們既不養(yǎng)細胞,也不做DNA測序,他們所做的就是搜集、使用并分析各個公開數據庫里現有的信息,這些 數據庫包括人類基因組序列數據庫(human genome sequences)、腫瘤基因組序列數據庫(cancer genome readouts)、腦掃描成像數據庫(brain imaging scans)以及糖尿病、阿爾茨海默病等多種疾病相應的生物標志物數據庫(biomarkers)等。醫(yī)學教育網`搜集整理

這種研究方式就是我們常說的“干試驗(dry lab biology)”,因為傳統(tǒng)的試驗都是會用到各種試劑的“濕試驗”。雖然沒有人統(tǒng)計過這樣的干試驗科學家究竟有多少,但可以肯定他們只是一小部分人,不 過他們的人數也在不斷增長。而Butte就是其中的佼佼者。Butte等人在兩年前曾經使用這些公開的數據,對患有100多種不同疾病的人群體內的一些基 因,以及分別用市面上164種藥物處理過的培養(yǎng)細胞中的這些基因的活性進行過分析。然后他們發(fā)現了一些新的、存在于這些基因之間的相互聯絡方式。 Butte等人通過比較患病或用藥情況下基因表達的開啟情況,發(fā)現在這些基因之間有很多新的聯系渠道。比如他們就發(fā)現有一款用于治療潰瘍的藥物也許能夠用 來治療肺癌;還有一款抗癲癇的藥物也許能夠用來治療兩種炎癥性腸?。╥n?ammatory bowel disease)。而且這兩種觀點都已經被后續(xù)的動物試驗給證實了。就在上個月,Butte的團隊又在《腫瘤發(fā)現》(Cancer Discovery)雜志上發(fā)表了一篇論文,他們又用這一套發(fā)現用抗抑郁藥物丙咪嗪(imipramine)治療常規(guī)化療無效的小細胞肺癌(small- cell lung cancers)肯定會獲得很好的治療效果。已經有人根據這一發(fā)現啟動了相關的臨床試驗工作。“現在就是做‘干試驗’研究的黃金時期。” Butte總結道。

發(fā)現新藥。Atul Butte的課題組通過對與藥物和疾病相關的基因表達譜公共數據庫里的大數據進行分析,發(fā)現了一些能夠加重病情(圖中紫色所示)或緩解病情(圖中黃色所示)的藥物。之后的研究也確證抗癲癇藥物托吡酯的確能夠治療克羅恩病或潰瘍性結腸炎等疾病。

這不僅僅是Butte一個人的黃金期,基因組序列、基因表達活性、蛋白質結構以及蛋白間相互作用的公共數據庫越來越多,所以也為眾多的生物學家們提供了一 個新的研究領域。得益于計算機運算能力、數據存儲能力、軟件等IT產業(yè)的發(fā)展,干試驗也能夠在不需要用移液器、染細胞或解剖動物的情況下抽絲剝繭般地取得 最基礎的科研成果。比如美國科學基金會(National Science Foundation)就成立了一個iPlant項目(iPlant Collaborative),這就催生出了一大批從事數據分析工作的所謂“植物生物學家”,他們從來就沒有親自下過地,也沒有澆灌過植物的種子。美國國 立衛(wèi)生研究院(National Institutes of Health, NIH)最近也宣布,他們計劃投入9600萬美元支撐大數據分析工作。美國加州大學洛杉磯分校(University of California, Los Angeles)的神經遺傳學家Daniel Geschwind就認為,生物學界正在發(fā)生一場大變革。

數據發(fā)掘者。上圖展示的就是最新的iPlant項目??茖W家們通過該項目對植物和微生物的基因組進行深入的發(fā)掘,幫助全世界的植物學家們更好地認識最基礎的生物學問題,也能夠為植物育種工作提供幫助。

美國洛杉磯微軟研究院(Microsoft Research in Los Angeles)的計算機專家David Heckerman也贊同地指出,現在干生物學研究真的可以不需要傳統(tǒng)的‘濕式’實驗室了。不過沒有一位“干試驗”生物學家們認為他們的數據分析工作能夠 取代傳統(tǒng)的濕試驗工作。他們反而認為現在是干試驗與濕試驗最為融洽,結合得最緊密的一個時期,這兩個方向互相促進,共同發(fā)展。

“我就好像是一個進了糖果店的小孩子,好東西太多了,我完全看不過來。”——美國斯坦福大學醫(yī)學院Atul Butte

數據為王

大數據其實并不是一個新鮮的概念,《科學》(Science)雜志曾在2011年的2月11日做過專題報道。歐洲粒子物理研究所(CERN)的大型強子對撞機(Large Hadron Collider)每年都能夠產生15帕字節(jié)(petabytes)的數據。天文學界的斯隆數字巡天項目(Sloan Digital Sky Survey)每年也要產生好幾TB(terabytes)的數據。大數據對生物學家們也并不是一個新鮮的事務。比如截止今年的8月底,在NIH運行了31年的基因序列數據庫GenBank里已經收納了1.67億條基因序列,約合1540億bp的數據。

而且這也不是計算科學與生物學的第一次結合。生物學家們多年以來也一直在收集大規(guī)模的生物學數據,我們熟知的基因組學、蛋白質組學、代謝組學等各種毫無新 意的組學就是明證。生物學家們一直在對這些數據進行整理和梳理的工作,希望能夠從中找到一些復雜的生物學網絡,或者與疾病相關的信號通路等新成果。

不過之前開展的這一類工作都是由大批的科研人員共同參與來完成的,而且他們還都搶先了一步,在數據公布之前就開始了工作。不過現在這些數據已經全都公諸于 眾了,之前沒有資格參加這些項目的科研人員現在也能夠自由地獲取這些數據,開展自己感興趣的研究工作。美國康奈爾大學(Cornell University)的遺傳學家,為農業(yè)部下屬的農業(yè)調查研究項目(U.S. Department of Agriculture's Agricultural Research Service)工作的Ed Buckler是研究玉米的專家,他評價道:“現在這些數據全都公開了,也是我們這些人提出大數據問題的時候了。”

不過,要提出這些問題就需要專門的算法和軟件,要能夠處理大量的數據,而且這些軟件還必須與時俱進,隨著數據的增長不斷地加以改進。Heckerman和 他在微軟研究院的同事們最近就做出了一款軟件,利用該軟件就能夠方便地在遺傳數據庫里進行大規(guī)模的搜索,比如進行全基因組關聯研究(genome- wide association studies, GWAS)這樣的全基因組比對工作。通過對健康人群的基因組和患病人群的基因組進行比對就可以找出與疾病相關的遺傳指紋(genetic fingerprints)。這些遺傳指紋可以非常細小,因為大部分疾病都不像典型的孟德爾式遺傳疾病那樣具有典型的、單純的性狀(不像豆子顏色這種性狀 這么簡單),每一個性狀都不是與單個基因一一對應的。據Heckerman介紹,當人們第一次開始做GWAS分析時,他們會認為這項工作非常簡單。可問題 在于孟德爾的豆子只是一個例外,并不能代表大千世界里的萬物。

其實絕大部分性狀或糖尿病、前列腺癌等疾病背后的遺傳基礎都非常復雜,多個基因可能也只會帶來很小的一點影響,這些基因的作用彼此之間還具有疊加效應。 “如果要發(fā)現這種微弱的信號,那就必須利用大數據。需要對上萬,甚至是數十萬的人進行比較才有可能發(fā)現一點有價值的線索。不過這里也有一個小竅門。當你對 大量的數據進行分析時會有一些發(fā)現,比如發(fā)現每一個人都會有一些遺傳相似點。但是在很多情況下,這些相似點其實只是代表了這兩個人之間更加相似,而不是因 為他們都攜帶了某種疾病相關基因。這會給我們的數據分析帶來麻煩,我們會發(fā)現大量的可疑信號,可是當我們再仔細分析一番之后就會發(fā)現這些其實只是假陽性信 號。” Heckerman介紹說。

線性混合模型(linear mixed model)就是一種能夠有效解決上述問題的數據分析方法。該方法能夠有效去除假陽性信號,但是需要強大的運算能力,是被分析數據量的三次方,如果被分析 的數據增加10倍,那么運算能力需要增加1000倍。如果只需要分析幾十個人的數據還沒太大問題,但是如果要對上萬人的基因組數據進行梳理那可就麻煩了。 “在這種情況下你最好忘記這種方法。” Heckerman這樣說道。

Heckerman等人關注這個問題不久之后就想到了一個非常簡單的解決辦法,他們稱之為“代數妙計(algebraic tricks)”,通過這種方法可以將上述問題轉換成線性問題,這樣就能夠對大數據進行分析了。最終將這款軟件命名為FaST-LMM,它大大減少了不可 靠的結果,同時數據處理量也有所提高,從而增加了發(fā)現真實但微弱信號的機會。Heckerman的團隊去年在微軟的云計算機Azure上用這款FaST- LMM軟件對Wellcome基金會(Wellcome Trust)數據庫里數千人的基因組進行了比對。一共分析了63,524,915,020對遺傳標志物(genetic markers),結果又新發(fā)現了很多與雙相性精神障礙(bipolar disorder)、冠心病(coronary artery disease)、高血壓病(hypertension)、炎癥性腸?。╥n?ammatory bowel disease)、類風濕性關節(jié)炎(rheumatoid arthritis)、1、2型糖尿?。╰ype 1 and type 2 diabetes)等疾病強相關的分子標志物,詳見今年1月22日出版的《科學 報道》(Scienti?c Reports)雜志。Heckerman等人將這些新發(fā)現的標志物毫無保留地全都共享到Windows Azure Marketplace上,我們可以到網上找到這些信息,對自己感興趣的標志物進行更加深入的研究。

但是Butte也做出了提醒,很多時候,這些通過干試驗發(fā)現的關聯如果詳加研究就會發(fā)現其實并不是真實的關聯,但是他也非常歡迎軟件工程師們加入到生物學研究的行列當中,他說道:“我們一直都有這種期望。”

干試驗對生物醫(yī)藥行業(yè)的研究遠遠不止GWAS研究這一項工作。美國哥倫比亞大學(Columbia University)的Asa Abeliovich今年8月1日就在《自然》(Nature)雜志上發(fā)表了一篇文章,他們使用大數據分析的方法又發(fā)現了一個新的分子,該分子能夠部分決 定攜帶了APOE4這種常見基因的人是否會患上阿爾茨海默病。他們使用的也是公共數據庫里的數據,這個數據庫是一個基因表達數據庫,里面收錄的全都是遲發(fā) 型阿爾茨海默病患者和正常人腦組織的基因表達數據。他們一共發(fā)現了兩個基因,分別是SV2A和RNF219,這兩個基因在患者體內的表達活性都非常低。

再結合之前對這些基因進行功能研究所得到的數據,最后發(fā)現這些基因其實都是一個調控網絡的一份子,該調控網絡主要對胞內淀粉樣蛋白前體(amyloid precursor protein)的積聚進行調控。這些淀粉樣蛋白聚集在阿爾茨海默病患者大腦里的致密斑(dense plaques)處,可能與患者發(fā)病有關。Abeliovich團隊后來在實驗室里用小鼠動物實驗驗證了這個結果,然后又繼續(xù)對人進行了驗證,不過還是開 展干試驗研究。這一次他們選擇了公共的阿爾茨海默病患者腦掃描成像數據庫,結果發(fā)現RNF219突變基因與淀粉樣蛋白的積聚有關。

這一發(fā)現不僅為我們開發(fā)阿爾茨海默病新藥提供了新的靶點,同時也可以幫助臨床醫(yī)生們對阿爾茨海默病患者進行分類和有針對性的治療,就好像現在的腫瘤醫(yī)生們 那樣。這種將數據發(fā)掘、實驗室驗證以及腦掃描成像驗證相結合的工作也給Geschwind留下了極為深刻的印象,他評價道:“五年前根本就不敢想象開展這 樣的工作。”

除了生物醫(yī)藥領域之外的應用

隨著經過全基因組測序的植物數量快速的增長,以及相關數據的不斷公布,植物學家們也可以開展他們的干試驗工作了。比如Buckler等人就在多個玉米品種 間尋找抗病基因。他們最近發(fā)表了一篇論文,介紹了他們對103種不同的玉米進行全基因組比對的工作,他們一共對1000多個不同的DNA區(qū)域進行了比對, 這些區(qū)域有的是位于基因內部的,也有位于基因編碼區(qū)外的。然后將玉米的某些性狀,比如抗病性和開花時間等性狀與某些特殊的非編碼DNA聯系了起來?,F在他 們正在利用這些研究成果輔助育種工作,希望提高玉米的抗病性,或者添加一些其它性狀。“大數據已經對我們的育種工作帶來了切實可見的改變。” Buckler總結說。

這種工作還有助于回答一些與植物相關的更加神秘的問題。加拿大渥太華大學(University of Ottawa)的數學家David Sankoff已經對30多種開花植物的全基因組進行了分析,他試圖重建出1.2億年之前存在的,所有開花植物共同祖先的基因組結構,即找出所有開花植物 的共有基因組結構,而不是簡單的共有DNA序列。他們最近也取得了重大突破,該工作也已經被寫成論文進行了發(fā)表。他們對現代真雙子葉植物 (eudicots,這是一種非常重要的開花類植物)里是否存在基因的雙拷貝或三拷貝情況進行了分析和比較,最終推斷出開花植物的祖先共有7條染色體,大 約含有2萬至3萬個基因,這個基因組要比現在很多植物的基因組小得多。雖然這一發(fā)現可能不會對植物育種工作帶來太大的影響,也不具有很大的商業(yè)利益,但是 美國亞利桑那州立大學(University of Arizona)的植物遺傳學家Eric Lyons認為,這也是一項非常有意思的遺傳學研究工作。Sankoff等人使用的比對基因組數據庫和用來分析數據的軟件都是由Lyons開發(fā)的。

通力合作

干試驗生物學研究也面臨著很多的問題和困難。其中最大的挑戰(zhàn)就是如何獲得其他人的數據。很多時候,那些主要工作就是收集數據的科研人員是不愿意與其他人分 享數據的。他們更愿意在別人利用自己的數據有所收獲之前進行數據發(fā)掘的工作。另外這些數據也有可能非常粗糙,還需要進行進一步的分析或注釋。“這些真的是 很麻煩的問題。我們需要更好的方法來促進大家共享數據。” Butte這樣說道。

缺乏統(tǒng)一的標準也是一個問題。每一個科研團體用來儲存數據的軟件可能都不一樣,這些數據的格式也是千差萬別的,很多時候連試驗設計都不一樣,所以所能得到 的準確結果也有所差異。Butte等人認為處理這些不同格式的數據是最麻煩的,不過這也不是不能解決的問題。更大的困難在于如何對實驗設計不同的實驗所得 到的數據進行比較和分析。

據Butte介紹,經過多年的標準化工作,對實驗設計、數據分析,使用包括DNA或RNA芯片、以及蛋白質組質譜實驗所得到的實驗結果的解讀所進行的標準化工作終于帶來了回報。對此觀點Heckerman也表示了贊同,他認為生物學數據正在走向標準化。

“進行生物學研究其實真的不需要傳統(tǒng)意義上的生物學實驗室。” ——美國微軟研究院David Heckerman

隨著公共數據庫的規(guī)模的不斷擴大,大家對遺傳隱私(genetic privacy)的關注度也變得越來越高。遺傳學家們已經證實了所謂的匿名數據是完全不可靠的,很容易就能夠找出這些數據的來源,而且任何一點紕漏都會泄 漏個體的隱私,比如他的健康狀況,是否易患某種疾病以及家族史信息等。不過我們目前至少已經想出了一個解決方案。我們在開展GWAS研究,或者開發(fā)分子診 斷芯片時往往都要將基因型與表型對應起來,這就需要進入美國國家生物技術信息中心的基因型及表型數據庫(National Center for Biotechnology Information?s database of genotypes and phenotypes, dbGaP),但是要使用這個數據庫就必須先登記,獲得批準之后才可以使用這些數據。另外,所有這些使用申請都會被公布,誰出于什么目的使用了哪些數據全 都會大白于天下。

為了解決這些問題,同時也為了能夠更好地利用大數據與生物醫(yī)藥研究結合這個難得一見的科研良機,NIH在今年夏天宣布將啟動一項名為“Big Data to Knowledge (BD2K)”的新項目。該項目主要有兩個目的,在最初的4年里將共計投入約9600萬美元,建立多個研究中心推動新算法、以及其他數據分析方法的開發(fā)。 也會推動在NIH的各個研究所里建立多個課題組,攻克與數據標準化、數據庫準入和遺傳信息隱私等領域相關的難題。針對這些問題國際上也有所動作,比如有 40個國家的70多家科研機構在今年的6月共同參與組成了一個國際聯盟,旨在推動數據盡早公開。

干試驗生物學研究未來還會迎來一次大發(fā)展,因為美國已經要求所有的數據庫全都像科研界公開。今年的2月22日,美國科技政策局(U.S. Of?ce of Science and Technology Policy, OSTP)局長John Holdren提交了一份備忘錄,要求美國聯邦政府各執(zhí)行部門盡快拿出方案,鼓勵并幫助大家使用由美國政府資助開展的科研工作所取得的成果和數據。該備忘 錄推出之后因為重點強調要免費獲取科研論文而備受關注。但是大家都沒有注意到,在這份備忘錄里也同時提出,要促進由美國政府資助開展的科研工作所取得數據 (非保密數據)早日進入公共數據庫里。OSTP的官員們表示,他們已經拿出了初步的方案,正在進行修改。

Butte認為,雖然這對于從事生物數據發(fā)掘工作的科研人員們無疑是一個重大利好消息,但是這也會進一步加重數據標準化以及數據隱私等方面的問題。同時也 會讓數據持有者比較頭疼。因為他們需要自己,或者讓助手來管理這些數據,準備好錄入數據庫,這就增加了很大的工作量。同時也會占用他們一定的精力和科研經 費,有可能會影響他們本來的研究工作。美國國立醫(yī)學研究所生物醫(yī)藥技術生物信息學及計算生物學中心(Division of Biomedical Technology, Bioinformatics, and Computational Biology at the National Institute of General Medical Sciences in Bethesda, Maryland)的項目負責人Peter Lyster認為這對于小型實驗室的影響更大,他說道:“從某些角度來看,這就是一場零和游戲(zero-sum game)。”

不過這場游戲里的輸家只可能是從事傳統(tǒng)生物學研究的“濕”實驗室。對于“干”實驗室而言,這些新工具、新政策和新的數據只是他們的新機遇,而不會是新負擔。“我們已經準備好大干一場了。” Heckerman說道。

醫(yī)師資格考試公眾號

編輯推薦
    • 免費試聽
    • 免費直播
    湯以恒 臨床執(zhí)業(yè)醫(yī)師 《消化系統(tǒng)》 免費試聽
    免費資料
    醫(yī)師資格考試 備考資料包
    歷年考點
    應試指導
    仿真試卷
    思維導圖
    立即領取
    回到頂部
    折疊