針對第三代基因測序儀硬件錯誤率高達15%—40%的現(xiàn)實,該團隊研發(fā)出了一套“線性復(fù)雜度”(復(fù)雜性最低)的算法,Sparc軟件即基于該新算法完成。
綜合測試顯示:采用測序深度僅為30x的三代基因測序數(shù)據(jù),Sparc取得組裝共識(Consensus)時錯誤率低于0.5%;同時與目前最優(yōu)秀的同類軟件比,Sparc可節(jié)省計算時間和內(nèi)存達80%。這一重要突破為推進基因測序技術(shù)邁向三代技術(shù)的產(chǎn)業(yè)升級提供了又一關(guān)鍵軟件技術(shù)。
Sparc是馬占山研究員2011年回國后該團隊在基因測序領(lǐng)域所研發(fā)公布的第三款重要軟件。2011-2012年發(fā)布的SparseAssembler-I和II系為第二代測序技術(shù)所設(shè)計。2014年發(fā)布的DBG2OLC為新興的三代測序技術(shù)(單分子測序)設(shè)計。此兩款軟件目前在各自所處的二代和三代測序技術(shù)領(lǐng)域其性能仍處于國際先進水平。此次發(fā)布的Sparc軟件旨在解決三代測序超高錯誤率的硬件技術(shù)難題。
事實上,三代測序的錯誤率在15%-40%,而已經(jīng)占領(lǐng)測序市場主流近10年的二代測序技術(shù)其錯誤率則低于1%。正是由于這一測序錯誤率的巨大差異,以及二代測序儀制造商的市場份額優(yōu)勢,使得三代測序技術(shù)目前遠未發(fā)揮出其獨特的科學(xué)和技術(shù)優(yōu)勢。Sparc軟件能夠有效彌補三代測序技術(shù)硬件超高錯誤率這一“硬傷”,應(yīng)該能夠大幅度提高三代技術(shù)的市場競爭能力,為迎接基因測序產(chǎn)業(yè)升級奠定優(yōu)良的技術(shù)基礎(chǔ)。
另外,Sparc算法應(yīng)用范圍不止于基因組裝技術(shù);事實上,基因組學(xué)中諸多涉及糾錯(Error-correction)和變異檢測(Variant discovery)的技術(shù)都可受益于Sparc算法的線性復(fù)雜度優(yōu)勢。
基因測序技術(shù)使得人類在本世紀初完成了對自身遺傳密碼藍本的解讀,其劃時代意義可能不亞于阿波羅登月計劃。而測序技術(shù)在人類基因組計劃中的地位則類似于運載火箭技術(shù)在探月工程中所起的作用。測序技術(shù)在經(jīng)過30余年的研發(fā)后目前處于第二代與第三代交替的前夜。
Sparc團隊歷經(jīng)五年的努力,所研發(fā)的三款軟件SparseAssembler, DBG2OLC, Sparc的性能目前均處于國際先進或領(lǐng)先行列。而DBG2OLC和Sparc所開發(fā)的算法解決了最新三代技術(shù)最為復(fù)雜的關(guān)鍵技術(shù)難題;在測序硬件技術(shù)出現(xiàn)更新一代技術(shù)之前,這一領(lǐng)域軟件的發(fā)展已經(jīng)超越了硬件技術(shù)的需求。
特別是最新Sparc算法的“線性復(fù)雜度”意味著該問題最高效率級別的算法已經(jīng)找到,未來要想取得類似DBG2OLC或SparseAssembler所取得的千倍、或數(shù)十倍計算效率的改進已經(jīng)不太可能。
為此,Sparc合作團隊已經(jīng)將軟件研發(fā)轉(zhuǎn)向人體微生物菌群(包括腸道菌群)分析、以及人工智能技術(shù)(特別是“深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)”)。其中“菌群宏基因醫(yī)學(xué)生態(tài)與網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)”包含了昆明動物研究所“計算生物與醫(yī)學(xué)生態(tài)學(xué)實驗室”自主研發(fā)的近20項分析技術(shù),諸多技術(shù)的專利申請正在進行中;軟件系統(tǒng)預(yù)計2017-2018年間能夠正式對外公布。
Sparc研發(fā)獲得了中科院、遺傳資源與進化國家重點實驗室、國家自然科學(xué)基金、以及云南省高端科技人才、海外高層次人才、云嶺產(chǎn)業(yè)領(lǐng)軍人才以及創(chuàng)新團隊等項目的支持。由于該研究屬于計算機科學(xué)、數(shù)學(xué)和生物學(xué)的交叉領(lǐng)域,因此創(chuàng)新團隊成員間的跨界合作自然起到了關(guān)鍵作用。