圣裘德兒童研究醫(yī)院將基因組數(shù)據(jù)庫移至云端,為世界各地的科學(xué)家提供了一個合作平臺。
當(dāng)你處理大量的科學(xué)數(shù)據(jù)時,將其全部放入云中可能需要一些時間。但是一旦這些數(shù)據(jù)存在于云端,在世界上任何地方對你的數(shù)據(jù)進(jìn)行實驗都很簡單——你只要下載結(jié)果就可以了。然而,讓研究人員接受這種范式轉(zhuǎn)變就可以得到組織內(nèi)或組織外的合作伙伴的支持,正如田納西州孟菲斯市圣裘德兒童研究醫(yī)院的高級副總裁兼首席信息官Keith Perry所了解的那樣。
圣裘德正致力于繪制兒童期癌癥的基因圖譜,以此作為尋求治療方法的一部分。圣裘德使用基因測序(大體上所有的DNA)來確定患者的健康細(xì)胞和腫瘤的全基因組序列。對兩者進(jìn)行比較(以及對其他患有類似癌癥的患者的基因組進(jìn)行比較)可以為治療方法帶來重要線索。
這是一個很重要的數(shù)據(jù)問題。圣裘德記錄了5,000多名患者的全基因組序列,每個序列大約占100千兆字節(jié)。研究人員可能只在其中的幾個字節(jié)內(nèi)尋找突變或其它遺傳標(biāo)記。
由于這些兒童期癌癥十分罕見,世界各地的研究人員希望能比較數(shù)據(jù)——但由于數(shù)據(jù)太多,很難比較。Perry舉了一位研究人員的例子,他花了六個月的時間下載了一個龐大的數(shù)據(jù)集并檢查了它的質(zhì)量,然后又花了幾天的時間來進(jìn)行分析。
Perry說:“醫(yī)療行業(yè)仍在奮力下載數(shù)據(jù)。但還沒有達(dá)到必須到云端做計算的臨界點,‘我必須下載數(shù)據(jù)’的心態(tài)還是存在的,盡管我們正在慢慢消除這種看法。”
這就是圣裘德創(chuàng)建St. Jude Cloud的一個原因,在這個平臺里,研究人員和其他人可對數(shù)據(jù)進(jìn)行托管并進(jìn)行實驗。
創(chuàng)建St. Jude Cloud的另一個原因是圣裘德的集資模式。Perry說:“我們是一個慈善機(jī)構(gòu),我們的工作重點是找到治療方法并救助這些兒童,我們非常重視這一點。......我們無法將自己正在生產(chǎn)的這一數(shù)據(jù)或正在塑造的概念視作是自己的東西。我們只是對正在生成的知識進(jìn)行管理?!?/p>
跨部門合作
圣裘德選擇與專門從事基因領(lǐng)域的DNAnexus合作,而不是從零開始創(chuàng)建數(shù)據(jù)共享平臺。然后,它開始尋找云提供商,終選擇了微軟的Azure平臺。
Perry說:“就云技術(shù)的使用而言,我們的任務(wù)就是創(chuàng)建一個共享的生態(tài)系統(tǒng),該系統(tǒng)不僅僅是以文件共享機(jī)制為基礎(chǔ),我們已經(jīng)發(fā)現(xiàn),研究行業(yè)就使用這樣的機(jī)制。在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上創(chuàng)建工具和計算能力,這才更接近該系統(tǒng)的本質(zhì)?!?/p>
Perry說,如果圣裘德的計算微生物學(xué)系主任Jinghui Zhang和她的團(tuán)隊沒有參與的話,圣裘德的這個云項目本來是不可能贏得2019年的Digital Edge 50數(shù)字創(chuàng)新獎的。
Zhang的部門編寫的軟件從基因組測序儀中獲取數(shù)據(jù)并對其進(jìn)行處理,以幫助研究人員了解基因組的特征及其所包含的所有突變。他說:“她所開發(fā)的工具以及她的研究團(tuán)隊所開發(fā)的工具確實在全球范圍內(nèi)得到了應(yīng)用?!?/p>
IT和計算微生物學(xué)部門合作創(chuàng)建了St. Jude Cloud。
Perry說:“他們本可以離開并開發(fā)一個沒有IT的云框架,我們本該對此感到沮喪”,但是,IT部門能夠證明合作的價值。“我們能幫他們將所有數(shù)據(jù)移植到Azure的云端中;這將花費(fèi)他們相當(dāng)長的時間。“盡管如此,Perry的網(wǎng)絡(luò)團(tuán)隊花了幾個月的時間來上傳數(shù)據(jù)并對其進(jìn)行質(zhì)量檢測。
接下來就是代碼優(yōu)化:一旦計算生物學(xué)團(tuán)隊開發(fā)出一個工具,IT人員就可以加快速度。對于這些崗位,Perry通常會尋找有計算科學(xué)博士學(xué)位并專注于高性能計算的候選人。
Perry說:“他們是這樣一群人——真正致力于了解高性能計算機(jī)的工作原理并致力于理解在其中一臺計算機(jī)中優(yōu)化代碼的佳方法,這樣的人也很難找到?!?/p>
程序員初將目標(biāo)鎖定在圣裘德的內(nèi)部研究集群中,該集群擁有6400個計算核心。一旦該集群準(zhǔn)備好投入生產(chǎn),或即將與其他人共享,那么它就會被移植到云端。
鑒于一開始從事高性能計算(HPC)的博士非常稀缺,內(nèi)部培訓(xùn)一直是向云端遷移的關(guān)鍵組成部分。Perry說:“當(dāng)我們設(shè)置職位時,我們從外部引進(jìn)了一批人,但我們主要還是希望用首先參與我們的使命的人,然后我們可以教他們?nèi)绾卧谠朴嬎阈袠I(yè)做出轉(zhuǎn)變。這是一種不同的思維?!?/p>
圣裘德所做的其他IT貢獻(xiàn)包括在早期階段將信息安全工作納入項目,從而保護(hù)患者的數(shù)據(jù),并讓互聯(lián)網(wǎng)設(shè)計團(tuán)隊幫忙設(shè)計St. Jude Cloud門戶。
Perry說:“我們已將云計算范式(如果你不介意這么稱呼的話)整合到正常的信息安全計劃中。我們讓一家外面的公司為我們做滲透測試,我們已經(jīng)放寬對他們的限制,他們可以隨心所欲地測試云基礎(chǔ)設(shè)施?!?/p>
你如何處理這些測試的結(jié)果,這一點很重要,Perry說:“這不是一種懲罰性演練。而是,“無論這是我們需要加強(qiáng)的流程還是技術(shù),問題在于我們能否有所發(fā)現(xiàn),發(fā)現(xiàn)信息范圍的缺口?”所以這對我們來說是一個非常有用的演練。
傳播愿景
在設(shè)計方面,圣裘德所做的有趣的事情就是其與自身的營銷和溝通團(tuán)隊所展開的合作。
Perry說:“我在職業(yè)生涯中已經(jīng)了解到,IS或IT確實不太擅長對他們所做的事情進(jìn)行推廣”,但是,為了讓St. Jude Cloud取得成功,該團(tuán)隊不僅要說服內(nèi)部用戶,還要讓其它研究機(jī)構(gòu)的用戶相信他們所提供的數(shù)據(jù)。
Perry試圖確保營銷團(tuán)隊一早就參與該項目。他說:“營銷團(tuán)隊幫我們提供簡明有力的信息,并使人們在團(tuán)隊參加的各種會議中更加積極主動。他們還有機(jī)會就一些設(shè)計特點和流程發(fā)表高見。我們的營銷傳播小組非常棒,因為他們也了解研發(fā)團(tuán)體?!?/p>
Perry說,St. Jude Cloud贏得外部用戶的一種方式是專注于實現(xiàn)價值,而不僅僅是傳遞信息?!拔覀冊谌ツ觊_放該平臺時,它已經(jīng)有非常豐富的數(shù)據(jù),這是一個與兒科相關(guān)的非常龐大的測序數(shù)據(jù)集,我們計劃增加它的規(guī)模。我們沒有做這樣的事情——站出來說我們要創(chuàng)建這個平臺。相反,我們站出來說,嘿,我們已經(jīng)創(chuàng)建了該平臺,它已經(jīng)就緒?!?/p>
雖然Perry想認(rèn)可IT團(tuán)隊所創(chuàng)造的價值,但他也看到了不利的一面:“我們必須承認(rèn),作為一個行業(yè),并非所有的價值都由IT內(nèi)部創(chuàng)造,IT以外的部門也在創(chuàng)造價值,這就是合作關(guān)系。”