自2005年,二代測(cè)序開始改變遺傳學(xué)領(lǐng)域的研究。獲得個(gè)人的全基因組測(cè)序變得快速且相對(duì)廉價(jià)。遺傳信息數(shù)據(jù)庫(kù)正在以TB字節(jié)的速度增長(zhǎng),醫(yī)生和研究人員迫切需要一種有效的信息篩選方法,以尋找某種異常的原因或者為評(píng)估患者對(duì)治療措施的反應(yīng)提供線索。
在過去的五年,研發(fā)DNA搜索引擎的公司如雨后春筍般涌現(xiàn),爭(zhēng)相成為研發(fā)DNA搜索引擎的第一人。他們都有不同的戰(zhàn)術(shù)——有些甚至擁有自己私有的遺傳信息數(shù)據(jù)庫(kù),但是大多數(shù)正致力于鏈接足夠多的遺傳數(shù)據(jù)庫(kù),以便用戶可以快速識(shí)別大量的各種各樣的突變。大多數(shù)公司也研究應(yīng)用生物學(xué)文獻(xiàn)補(bǔ)充遺傳學(xué)信息的搜索算法。但在早期網(wǎng)絡(luò)的日子里,在谷歌稱雄之前,沒有哪個(gè)公司成為明顯的贏家。
創(chuàng)造一個(gè)有效的搜索引擎是典型的大數(shù)據(jù)問題, ViaGenetics公司的副總裁邁克爾•岡薩雷斯說,預(yù)計(jì)本月將重啟他們的搜索平臺(tái)。在醫(yī)生或研究人員可以使用數(shù)據(jù)之前,基因組數(shù)據(jù)必須按照可讀取和可搜索的模式來組織。邁向目標(biāo)的第一步是,按照一種稱之為“變體識(shí)別格式”或“VCF”的標(biāo)準(zhǔn)格式存儲(chǔ),一個(gè)人的完整基因組測(cè)序數(shù)據(jù)約100千兆字節(jié),直接采用原始的數(shù)據(jù)格式入庫(kù),即使每天只有10個(gè)病人的基因組數(shù)據(jù),數(shù)據(jù)庫(kù)也會(huì)很快失控。但VCF文件更緊湊,每個(gè)基因只有幾百兆字節(jié),有助于研究人員在更短的時(shí)間內(nèi)搜索到他們想要找的特定變異。與全基因組測(cè)序不同,VCF文件只給出一個(gè)人的基因數(shù)據(jù)在哪里偏離了2001年的人類基因組計(jì)劃最初編制的基因組標(biāo)準(zhǔn)。
有了VCF,從基因組數(shù)據(jù)中篩選出精準(zhǔn)的突變基因不是搜索引擎公司面臨的挑戰(zhàn)。大多數(shù)這類公司都集中資源致力于無縫編譯從其他網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中補(bǔ)充特定的突變信息,如生物醫(yī)學(xué)研究檔案PubMed或各種搜集來的電子醫(yī)療記錄。許多這些工具都用精細(xì)的算法來優(yōu)化結(jié)果的可信度和相關(guān)性?!澳阆M軌?qū)⒛硞€(gè)位點(diǎn)的突變信息匯集到一起,并迅速作出評(píng)估,” 總部位于猶他州的另一家研發(fā)基因--搜索引擎的公司Tute Genomics的首席科學(xué)官David Mittelman說。
為了拓展信息關(guān)聯(lián)到一個(gè)尚無定論的基因組,位于佛羅里達(dá)州邁阿密海灘的ViaGenetics公司,正在更新他們提供給想進(jìn)行跨機(jī)構(gòu)協(xié)作的研究人員使用的信息平臺(tái)?!坝辛薞iaGenetics的工具,研究人員可以將他們的數(shù)據(jù)提供給其他用戶,其他用戶可以看到這些項(xiàng)目,請(qǐng)求訪問,并形成合作,”岡薩雷斯說,“它幫助人們?cè)诓煌难芯咳藛T和機(jī)構(gòu)間建立連接點(diǎn)。這對(duì)于沒有很廣泛的基因組數(shù)據(jù)庫(kù)的小型實(shí)驗(yàn)室或致力于解碼相同的突變的不同大學(xué)的研究人員都特別有用。
盡管基因組—搜索行業(yè)現(xiàn)在專注于服務(wù)科學(xué)家,但并會(huì)不一直如此。Mittelman設(shè)想TuteGenomics公司最終可能直接服務(wù)于消費(fèi)者。Mittelman說,人們已經(jīng)要求了解他們的基因組信息,只是為了能更好的了解自己,但大多數(shù)公司還不認(rèn)為普通人是他們的主要客戶。為了實(shí)現(xiàn)這樣的轉(zhuǎn)變,搜素工具將會(huì)更加直觀和友好?!笆褂貌蝗菀捉忉尩臄?shù)據(jù)或不標(biāo)準(zhǔn)術(shù)語的搜索工具存在讓人們困惑的可能?!彼f。隱私也是普通用戶主要關(guān)心的一個(gè)方面,Tute用戶上傳的信息并不是永久保存的,Mittelman說,但是如果平臺(tái)提供給大眾群體使用,就需要有其他的保證。
另外,行業(yè)也在向縱深發(fā)展,ViaGenetics和Tute都希望能夠自己運(yùn)營(yíng)整個(gè)過程,從最初的DNA測(cè)序到展示給用戶最終可搜索的結(jié)果。 “目前分析和解釋基因組數(shù)據(jù)的市場(chǎng)很分散,就像計(jì)算機(jī)行業(yè)在1990年代一樣,當(dāng)時(shí)你不得不去找單獨(dú)的供應(yīng)商購(gòu)買顯卡或主板,然后試著把它組裝在一起,“Mittelman說?!昂芸爝@個(gè)領(lǐng)域?qū)?huì)整合,就象計(jì)算機(jī)行業(yè)曾經(jīng)的那樣。