材料、育種、天文、制藥、基因……這些科學領域有著大量前沿空白等待填補,又與我們生活息息相關。當它們與智能計算強強聯合,是怎樣一個場景?
近日,之江實驗室啟動建設智能計算數字反應堆科學裝置,并在上述領域啟動首批重大應用項目,發布智能計算數字反應堆計算育種、計算天文、計算制藥、計算材料等系列白皮書,加速促進智能計算與材料、制藥、基因、育種、天文等領域的深度耦合,支撐我國重大戰略領域的科學研究,助力浙江三大科創高地建設。
中國科學院院士、上海大學材料基因組工程研究院院長張統一,中國工程院院士、中國水稻研究所所長胡培松,中國科學院國家天文臺研究員、FAST首席科學家李菂,長三角綠色制藥協同創新中心執行主任蘇為科,之江實驗室特聘專家黃行許教授分別受聘智能計算數字反應堆計算材料、育種、天文、制藥和基因領域首席科學家。
記者走進之江實驗室,探訪智能計算數字反應堆的前世今生,與科學家們共同暢想智能計算的未來。
智能計算
構建數字反應堆基底
智能計算應用于科學研究的威力有多強?
今年7月,谷歌AI模型AlphaFold2在生命科學界引起震動——它精準預測了人類98.5%的蛋白質結構。而在此之前科學家們數十年的努力,只覆蓋了人類蛋白質序列的17%。
傳統上,蛋白質結構預測可以分成基于模板和從頭預測,但是AlphaFold2只用機器學習一種方法,對幾乎所有的蛋白質都預測出了正確的拓撲學的結構,其中有大約2/3的蛋白質預測精度達到了結構生物學實驗的測量精度。作為智能計算案例之一的AlphaFold2,即便只暫露了能量與潛力的“冰山一角”,仍讓科學家對它的未來心馳神往。
由此看來,智能計算是根據任務所需,以最佳方式利用既有計算資源和最恰當的計算方法,解決實際問題的一種計算形態。既不是超級計算、云計算的替代品,也不是現有計算的簡單集成品。
以智能計算為基底,之江實驗室精心謀劃,一款全新科學裝置呱呱落地。在智能化數字反應堆引擎推動下,為不同計算任務調度最優計算資源,適配最佳計算方法和模型,形成最優結果。
“數字反應堆最重要的‘燃料’是數字,最重要的‘引擎’是人工智能,人工智能很重要的基礎是知識。之江實驗室智能計算數字反應堆,把數字和知識以最快的速度聚集起來,促進跨學科多行業多模態數據產生聚變式與裂變式應用,將成為新一代人工智能的重要基礎設施?!敝袊こ淘涸菏?、之江實驗室人工智能領域首席科學家潘云鶴指出了數字反應堆的本質。
潘云鶴院士
為支撐智能計算數字反應堆,之江實驗室規劃了充足的算力設施。位于之江實驗室南湖總部的計算數據中心是目前國內科研機構中規模最大、等級最高的算力中心之一。數字反應堆還將聚合智能超算、智算集群,類腦計算、圖計算等算力資源,協同廣域協同算力平臺和超算互聯網算力平臺。
數字反應堆首席架構師潘愛民研究員介紹,數字反應堆本身是個極其復雜的系統,必須用系統思維的方法論進行建設?!八懔Y源是強異構的,我們通過一個智能軟件操作系統來有效調度和管理這些資源,并且抽象出多個引擎為領域應用,特別是人工智能應用,提供計算賦能。我們可以把所有這些算力看成一臺計算機,反應堆操作系統就是這臺計算機的系統軟件,通過構建計算引擎,形成泛在可取的計算服務,為各領域開發應用提供計算賦能?!?/p>
能量裂變
多領域創新發展
如同核反應堆能夠以聚、裂變等形式,并通過一系列轉換產生可利用能量,數字反應堆也能夠通過數字“聚、裂變”,實現智能計算在交叉領域的創新發展。
自從2011年美國啟動“材料基因組計劃”以來,材料學與計算機學的交叉研究逐步成為一片熱土。2016年我國將材料基因組工程與技術列入國家重點研發計劃,將傳統計算材料學方法與數據驅動的人工智能方法深度結合,正衍生為新興的“智能計算材料”研究方向。
既然被稱之為“材料基因組”,難道材料內部也有類似于人類基因的東西?
材料與人類基因還是有相似之處的。人類基因中的DNA和RNA的排列決定人體的主要性能,而材料中原子的性質和排列(包括晶體結構和缺陷)決定了材料的內在性能。
在傳統的材料設計方法中,需要材料設計者通過不斷調整設計參數,在不同條件設置下分別進行實驗,來尋找滿足需求的材料設計參數。利用以深度學習為代表的人工智能技術,它能夠將材料制備工藝、組分、結構和性能等大量數據匯成一塊,細嚼慢咽,并高效準確地從中品出規律、價值。
“打個比方,制作一份可口的食物,調料和手法需要不斷調整。數字反應堆的加入,能夠根據已有菜譜,計算出我們想要的菜譜?!敝瓕嶒炇铱蒲邪l展部部長趙志峰說。
趙志峰告訴記者,在計算材料數字反應堆中,科學家可以根據已知實驗數據,構建機器學習模型,預測某個特定設計參數下的目標“回答”。這樣在面對新的材料設計需求時,便可以借助模型預測值來搜索最優的材料設計參數,從而大大減少實際實驗次數,加快材料研發速度、降低材料研發成本、提高材料設計的成功率和效率。
數字反應堆不僅是計算材料的“菜譜”,在邁入計算育種方向后,它將成為糧食種子的來源之一。
以水稻為例,水稻有4萬多個基因,幾乎是人類基因總數的2倍,面對海量的基因數據,如何破解水稻的“基因”密碼?生物技術、大數據與人工智能缺一不可?!坝N工作就像跳高,到達一定的高度后,需要顛覆性的技術推動領域發展?!敝袊狙芯克L、中國工程院院士胡培松說。
數字反應堆將以育種大數據為“燃料”,將大數據挖掘與分析、人工智能、高性能計算等先進技術方法高效融合,通過現有的基因、分子、環境和表型等多模態多尺度海量數據集,建立高精度分子育種模型,以期加速育種的全流程智能化研發。
“數字反應堆的研發,將推動作物育種從‘試驗選優’向‘計算選優’的根本轉變,促進育種科學范式變革,全面提高育種數量、速度、質量和產量,推進分子精準育種技術在我國農作物育種領域的規?;瘧??!焙嗨烧f。
觀天制藥
走出交叉新路
“宇宙從來不是寂靜無聲的,隨著現代天文學,特別是射電天文的發展,我們通過射電望遠鏡捕捉到了巨量且豐富的宇宙信號?!敝袊茖W院國家天文臺研究員、FAST(500米口徑球面射電望遠鏡)首席科學家李菂說。
射電天文數據量大、復雜度高,并且在觀測過程中隨時伴有人類活動對信號捕捉的影響,如何從獲取的海量數據中篩選提取有效信息,已逐漸成為制約天文學發展、探索宇宙奧秘的難題。
將人工智能技術引入天文領域,讓天文學者看到了解決天文數據處理難題的曙光。據了解,中國科學院國家天文臺的青年科學家,在全球率先利用深度學習神經網絡算法,在海量宇宙信號數據中,篩選出想要的內容,并找到新脈沖星。FAST建成后,我國自研的多科學目標同時掃描巡天技術,結合深度學習方法,成功捕獲并研究了快速射電暴等重要現象。
之江實驗室不斷探索科技前沿。浙江新聞客戶端拍友 周立超 攝
一個基于FAST的計算天文智能計算平臺已在規劃之中。在李菂的暢想中,數字反應堆將在快速射電暴、脈沖星單脈沖、密近雙星系統脈沖星信號篩選等研究方向中承擔重要角色。它將以“管家”的身份,實時處理100TB每天的脈沖星巡天數據,建立國際領先脈沖星搜尋數據流程,并深入探索宇宙“時間”前沿、恒星演化機制等科學問題,同時建立協同開放的天文大數據服務平臺。
“研發成本高、周期長、自然流失率高”是掣肘藥物研發的三座大山,從藥物發現到臨床試驗的成本高昂且失敗率高。如同神農嘗百草,傳統制藥總是以年為單位計數,在不斷的試錯中發展。
“尋找有效、合適的藥物靶點是新藥研發的首要任務?!遍L三角綠色制藥協同創新中心執行主任蘇為科說,沒有好的靶點,就好比找不到敵人的位置,有再先進的武器都難以擊中目標。
數字反應堆介入后,借助挖掘藥物數據資源,科學家可以先在計算機上縮小靶點范圍,簡化繁瑣的實驗流程。此外,藥廠可以將經過實踐驗證的數據模型應用于制藥流程中,實現藥物全自動智能化生產,藥物更快、更安全地走進市場。
未來,之江實驗室將搭建智能計算數字反應堆藥物大數據智能計算平臺,并在此基礎上集成機器學習算法、PB級藥物大數據的挖掘分析處理、以知識為基礎的智能計算等技術,以海量數據集建立精準模型,為制藥行業的創新發展做出浙江貢獻。