中國科學(xué)院青藏高原研究所(簡稱青藏高原所)研究員張國慶看著電腦屏幕,手移動著鼠標(biāo),光標(biāo)在Landsat影像(陸地衛(wèi)星影像)上以毫米計的距離移動,定位于中國范圍內(nèi)每一個湖泊,之后將有關(guān)遙感影像和數(shù)據(jù)下載。
在數(shù)以千萬次地拖動點擊鼠標(biāo),初步了完成數(shù)據(jù)集。隨后,張國慶再次緊盯每一個湖泊,比對、檢查、修正。遇到看著很像湖泊的水體單元,張國慶要耗費更多的精力和時間,確保湖泊邊界的準(zhǔn)確性。
這樣的動作,張國慶和他的學(xué)生持續(xù)了3年多,他的目標(biāo)是了解過去50年全國大于1平方公里的湖泊數(shù)量與面積變化及其驅(qū)動因素。
最終在2019年,張國慶利用超過3831景遙感衛(wèi)星影像獲得長時間序列全國湖泊編目數(shù)據(jù)集,較現(xiàn)有數(shù)據(jù)更新、更完整。
在數(shù)據(jù)集完成的第一時間,張國慶將其上傳到了“國家青藏高原科學(xué)數(shù)據(jù)中心”(以下簡稱數(shù)據(jù)中心),并開放給所有需要者免費獲取使用。很快,這一數(shù)據(jù)集被國家水利部門、湖泊水文研究學(xué)者等用于完善我國水資源管理戰(zhàn)略,研究生態(tài)資源與環(huán)境變化趨勢,開展鄉(xiāng)村調(diào)查等。
“做出來高質(zhì)量的數(shù)據(jù),本應(yīng)該開放共享。”張國慶告訴《中國科學(xué)報》。他從事的是冰凍圈和環(huán)境遙感研究,其大部分科研工作與數(shù)據(jù)有關(guān),他還共享了青藏高原湖泊水位、水量變化等數(shù)據(jù)集。
國家青藏高原科學(xué)數(shù)據(jù)中心自2019年成立以來,迄今已3年,像張國慶這樣愿意開放共享的科研人員越來越多。在數(shù)據(jù)中心主任、青藏高原所研究員李新看來,在中國實現(xiàn)科學(xué)數(shù)據(jù)的公開共享不僅需要自上而下的授權(quán),還需要激勵機(jī)制,以提高研究人員對數(shù)據(jù)共享實踐的信心和意愿。
數(shù)據(jù)開放難在哪兒?
2020年,一項對我國超過2000名科研人員的調(diào)查顯示,我國研究人員雖有分享研究數(shù)據(jù)的意愿,但他們也擔(dān)心數(shù)據(jù)的誤用及版權(quán)和許可受到侵犯。在我國,與同事和合作者私下共享數(shù)據(jù)的情況更為普遍,而不是更廣泛的公開共享。
李新也發(fā)現(xiàn),當(dāng)數(shù)據(jù)與論文關(guān)聯(lián)起來時,科研人員共享數(shù)據(jù)的意愿相對高一些。
“科研人員發(fā)論文,誰也沒有猶豫,都很樂意公開發(fā)表,科學(xué)數(shù)據(jù)其實也應(yīng)該是同樣道理。”李新笑稱,“與十幾年前相比,總體上我國數(shù)據(jù)開放共享的狀態(tài)是樂觀積極的。但在我國研究人員中更為廣泛地樹立數(shù)據(jù)共享的信心,仍需大量工作。”
比如,科學(xué)數(shù)據(jù)哪些該保密,哪些不該保密,邊界仍是困惑;科研人員采集的數(shù)據(jù)還需要整理、描述、質(zhì)量控制和中英文編輯等,這些“額外”的勞動成果難以被認(rèn)定;科研人員的辛苦付出,其知識產(chǎn)權(quán)有時沒有被保護(hù)好。
此外,如今已是“數(shù)據(jù)洪流”時代,然而由于一些技術(shù)問題,諸多質(zhì)量高、描述好的數(shù)據(jù)在互聯(lián)網(wǎng)搜索引擎上難以檢索到,或是可以被檢索到,但卻難以獲取和應(yīng)用;數(shù)據(jù)質(zhì)量和規(guī)范化水平不高,有調(diào)查顯示,估計只有不到10%的中國地球科學(xué)元數(shù)據(jù)有英文版本,這阻礙了廣泛的國際交流和影響。
促進(jìn)數(shù)據(jù)開放共享,從政策、管理,到技術(shù)等方面都存在一定壁壘,需要有更具體的行動。更重要的,是科研人員的主觀意愿和動力。
不少人在網(wǎng)絡(luò)平臺上“吐槽”不愿共享的原因:“工作量大,科技含量低”“又累又苦,有時還有危險”“沒有回報”……
的確,數(shù)據(jù)不論收集難度還是時間跨度非一朝一夕所能完成。清華大學(xué)陽坤教授團(tuán)隊用了10余年時間開發(fā)一套中國區(qū)域地面氣象要素驅(qū)動數(shù)據(jù)集(1979-2018),為中國區(qū)陸面過程模擬提供驅(qū)動數(shù)據(jù)。
陽坤的學(xué)生何杰博士是這套數(shù)據(jù)的主要開發(fā)人員之一,從2008年作為研究生時便開始采集整理數(shù)據(jù),“盡管不需要有技術(shù)突破,但很多時候依賴‘上游’數(shù)據(jù),需要用各種各樣的辦法排除可能存在疑問的數(shù)據(jù),然后做出高質(zhì)量的數(shù)據(jù)產(chǎn)品,這個過程是繁瑣、耗時的。”
談及愿意共享的原因時,何杰告訴《中國科學(xué)報》,氣象要素驅(qū)動數(shù)據(jù)集地學(xué)研究中不可或缺,以氣象為例,只有給模型輸入高質(zhì)量的數(shù)據(jù),才能獲得科學(xué)的氣候環(huán)境模擬結(jié)果。“做數(shù)據(jù)集的初衷,就是因為之前使用的數(shù)據(jù)模擬效果‘不理想’,想為我國地學(xué)學(xué)者提供一套可靠數(shù)據(jù)。有人用,才能夠體現(xiàn)我們研究的價值。”
10余年來,何杰與導(dǎo)師開發(fā)的這套數(shù)據(jù)集的精度高于國際上已有再分析數(shù)據(jù)的精度,成為國內(nèi)研究廣泛使用的氣象數(shù)據(jù)集之一。如今,何杰是青藏高原所的工程師,“沒有更多論文考核的壓力,可以更充分地完善數(shù)據(jù)集。”
激勵機(jī)制是關(guān)鍵
自身研究驅(qū)動,是數(shù)據(jù)采集者開放、共享的初衷。但要廣泛提高動力,在李新看來,“數(shù)據(jù)貢獻(xiàn)者的認(rèn)同感和工作的價值感需要被體現(xiàn)。”
李新先后承擔(dān)了國家自然基金委“中國西部環(huán)境與生態(tài)科學(xué)研究”和“黑河流域生態(tài)-水文過程集成研究”兩個重大研究計劃的項目,這兩項計劃均要求,受資助課題得到的科學(xué)數(shù)據(jù)都必須公開共享。在項目的年度評估、中期考核及最終評估環(huán)節(jié),數(shù)據(jù)提交共享和數(shù)據(jù)質(zhì)量都是被評定的內(nèi)容。
這兩項先導(dǎo)性計劃的成功讓李新感觸頗深,“這種自上到下對公開數(shù)據(jù)共享予以支持的政策和自下到上對數(shù)據(jù)貢獻(xiàn)者予以激勵的機(jī)制,是能夠?qū)崿F(xiàn)中國更為廣泛數(shù)據(jù)共享的關(guān)鍵。”
前不久,在青藏高原所組織的國際評估中,不少國際專家對張國慶的科研能力以及他的數(shù)據(jù)工作給予了認(rèn)可和肯定。
數(shù)據(jù)中心也努力讓數(shù)據(jù)貢獻(xiàn)者有“價值感”,為每個自有產(chǎn)權(quán)的數(shù)據(jù)賦予唯一的數(shù)字對象標(biāo)識符,體現(xiàn)數(shù)據(jù)的跟蹤價值、引用價值、集成價值和互聯(lián)價值。
但這還不夠,李新建議,研究成果或項目資助中除了考察其高質(zhì)量論文的發(fā)表情況,還可增加其所貢獻(xiàn)科學(xué)數(shù)據(jù)質(zhì)量等相關(guān)的條款。此外,數(shù)據(jù)出版也是促進(jìn)科學(xué)數(shù)據(jù)開放共享的重要手段,主要參考學(xué)術(shù)論文的出版方式,規(guī)范地描述科學(xué)數(shù)據(jù)本身,并接受嚴(yán)格的同行評審,遵從學(xué)術(shù)出版規(guī)范。比如,國內(nèi)一流綜合期刊可率先嘗試要求在論文投稿時,同步提交論文相關(guān)數(shù)據(jù),并且優(yōu)先選擇國內(nèi)數(shù)據(jù)中心作為數(shù)據(jù)倉儲。
“數(shù)據(jù)計量和規(guī)范化數(shù)據(jù)引用方面,還缺乏統(tǒng)一的規(guī)范,影響了對科學(xué)數(shù)據(jù)貢獻(xiàn)者的激勵和科學(xué)數(shù)據(jù)的開放。”李新表示,加強(qiáng)數(shù)據(jù)引用,科學(xué)論文應(yīng)按照標(biāo)準(zhǔn)的數(shù)據(jù)引用格式,引用支持論文成果的關(guān)鍵數(shù)據(jù)集;同時,加強(qiáng)數(shù)據(jù)引用計量,體現(xiàn)數(shù)據(jù)作者的知識產(chǎn)權(quán)和貢獻(xiàn),激勵數(shù)據(jù)共享。
“只有通過對數(shù)據(jù)貢獻(xiàn)者進(jìn)行適當(dāng)?shù)脑u估、肯定和鼓勵,數(shù)據(jù)共享才能成為一項自愿的機(jī)制,當(dāng)大家都愿意共享時,一種良好的氛圍也就形成了。”李新說。
開放的“FAIR”原則
在數(shù)據(jù)開放中,不少科研人員有著“開放數(shù)據(jù)可能會給自己的科研工作帶來風(fēng)險”的顧慮,也一定程度上影響了他們自下而上開放科學(xué)數(shù)據(jù)的意愿。
一方面希望應(yīng)該開放的數(shù)據(jù)“不設(shè)任何邊界的”開放,而另一方面需要保密的數(shù)據(jù)又要“非常保守”的保密,這對矛盾體依然是擺在數(shù)據(jù)開放共享面前的問題。
李新說,科學(xué)數(shù)據(jù)已經(jīng)從“全面開放”原則過渡到目前普遍遵循的“FAIR”原則,即可發(fā)現(xiàn)性、可獲取、可互操作、可重用。我國2018年頒布的《科學(xué)數(shù)據(jù)管理辦法》“照開放為常態(tài)、不開放為例外的原則”的要求,也為這個矛盾的解決提供了一個“指引”。
不過,政策上還需更細(xì)化,李新表示,為了最大程度地實踐數(shù)據(jù)共享,對敏感數(shù)據(jù)有清晰的定義及制定具體的共享限制政策顯得尤為重要,比如那些涉及到國家安全、商業(yè)機(jī)密和個人隱私的數(shù)據(jù)當(dāng)然可以保密,而其他數(shù)據(jù)應(yīng)該充分開放共享。開放科學(xué)的知識產(chǎn)權(quán)協(xié)議,如知識共享協(xié)議,可作為一種通用協(xié)議被引入科學(xué)數(shù)據(jù)共享。
數(shù)據(jù)中心采取行動試圖打消科研人員的顧慮,保護(hù)數(shù)據(jù)貢獻(xiàn)者的知識產(chǎn)權(quán)。保留數(shù)據(jù)貢獻(xiàn)者的版權(quán),授權(quán)他人在協(xié)議限定范圍內(nèi)的轉(zhuǎn)載、使用和二次演繹等;兼顧數(shù)據(jù)作者對特殊數(shù)據(jù)保護(hù)的訴求,比如可以設(shè)置不超過兩年的數(shù)據(jù)保護(hù)期,或根據(jù)數(shù)據(jù)作者對數(shù)據(jù)共享需要附加額外條件的要求,設(shè)置數(shù)據(jù)申請審批流程等。
“數(shù)據(jù)中心不定期地就會進(jìn)行安全自查,有可能涉密的數(shù)據(jù)就進(jìn)行下線處理。”李新說。
數(shù)據(jù)中心不斷開發(fā)新技術(shù)實踐“FAIR”原則,采用國際標(biāo)準(zhǔn)提供數(shù)據(jù)引用方式和數(shù)據(jù)關(guān)聯(lián)文獻(xiàn)引用方式,支持?jǐn)?shù)據(jù)出版,開發(fā)在線大數(shù)據(jù)分析、模型應(yīng)用等功能。
在數(shù)據(jù)集描述頁面添加相關(guān)元數(shù)據(jù)信息,使得數(shù)據(jù)中心的數(shù)據(jù)能夠在谷歌數(shù)據(jù)搜索引擎中被查詢到;盡量采用地學(xué)數(shù)據(jù)領(lǐng)域廣泛認(rèn)可的標(biāo)準(zhǔn)和規(guī)范來減少互操作性障礙;免登陸下載,降低數(shù)據(jù)下載門檻,開發(fā)中英文雙語數(shù)據(jù)管理與共享平臺,由專業(yè)編輯和公司“雙重把關(guān)”英文數(shù)據(jù)質(zhì)量......
這些,都促進(jìn)了青藏高原及其周邊相關(guān)科學(xué)數(shù)據(jù)的開放共享。
今年1月底,李新在總結(jié)會上公布,目前已收集并發(fā)布青藏高原及周邊地區(qū)的科學(xué)數(shù)據(jù)集4600多個,累計頁面訪問量超過1.5億,月均下載量達(dá)50TB,為青藏高原區(qū)域科技創(chuàng)新發(fā)展和地球系統(tǒng)科學(xué)研究提供了重要的數(shù)據(jù)支持。國家青藏高原科學(xué)數(shù)據(jù)中心也成為國內(nèi)首個通過Nature數(shù)據(jù)期刊Scientific Data認(rèn)證的數(shù)據(jù)倉儲中心,大大提高了數(shù)據(jù)中心的影響力和權(quán)威性。
李新對于數(shù)據(jù)中心有著更“開放”的愿景:通過整合來自大數(shù)據(jù)和機(jī)器學(xué)習(xí)的技術(shù),數(shù)據(jù)中心可以將大數(shù)據(jù)轉(zhuǎn)化為信息和知識,更為有效地為數(shù)據(jù)用戶服務(wù),研發(fā)更多青藏高原及周邊的高質(zhì)量再分析數(shù)據(jù)產(chǎn)品;此外,建立一個平臺,使用者無需下載便可在線使用數(shù)據(jù)集,就像“谷歌地球引擎”一樣,使得數(shù)據(jù)檢索更容易,數(shù)據(jù)訪問更為廣泛等。
“要實現(xiàn)數(shù)據(jù)共享的范式轉(zhuǎn)變,仍需要政府、研究人員和數(shù)據(jù)中心的積極努力。數(shù)據(jù)和數(shù)據(jù)貢獻(xiàn)者越受到激勵,就越有利于科學(xué)和社會的發(fā)展。”李新說,他充滿期待。