人工智能在氣候預(yù)測領(lǐng)域應(yīng)用初探(一)
劉冠州,唐偉
引言
根據(jù)國家標(biāo)準(zhǔn)化管理委員會發(fā)布的《人工智能標(biāo)準(zhǔn)化白皮書(2018年)》,人工智能(Artificial Intelligence,AI)是指利用數(shù)字計算機(jī)或者由數(shù)字計算機(jī)控制的機(jī)器,模擬、延伸和擴(kuò)展人類的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)和應(yīng)用系統(tǒng),F(xiàn)階段,隨著計算機(jī)硬件設(shè)施性能的顯著提升、研究數(shù)據(jù)的大量增長且存儲成本的大幅降低以及算法的明顯改進(jìn),人工智能技術(shù)飛速發(fā)展,呈現(xiàn)出深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同、自主操控等發(fā)展趨勢。
在人工智能領(lǐng)域,一般包括機(jī)器學(xué)習(xí)、知識圖譜、自然語言處理、人機(jī)交互、計算機(jī)視覺、生物識別、增強(qiáng)現(xiàn)實(Augmented Reality,AR)/虛擬現(xiàn)實(Virtual Reality,VR)七大關(guān)鍵技術(shù)。機(jī)器學(xué)習(xí)(Machine Learning,ML)是一門交叉學(xué)科,涉及統(tǒng)計學(xué)、系統(tǒng)辨識、逼近論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化論、計算機(jī)科學(xué)、腦科學(xué)等諸多領(lǐng)域。它研究計算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為。獲取新知識或技能,重組現(xiàn)有知識結(jié)構(gòu),不斷提高自身性能,是人工智能技術(shù)的核心。常使用并且表現(xiàn)突出的主流機(jī)器學(xué)習(xí)方法包括兩大類:(1)傳統(tǒng)機(jī)器學(xué)習(xí),如決策樹、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯、梯度提升樹、極端梯度提升樹等;(2)深度學(xué)習(xí),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、深度玻爾茲曼機(jī)、深度置信網(wǎng)絡(luò)等。
隨著氣候變化及其負(fù)面影響的日益加劇,干旱、洪澇等氣象災(zāi)害頻發(fā)且破壞加劇對人類的生活造成很大影響,提高氣候預(yù)測的能力也變得愈加重要和急迫,對氣候預(yù)測的需求越來越大。將人工智能應(yīng)用于月-季尺度上的氣候預(yù)測以及更長時間尺度的氣候預(yù)估,是一項巨大的挑戰(zhàn)。人工智氣候預(yù)測需要海量的優(yōu)質(zhì)數(shù)據(jù),數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,是AI發(fā)展的瓶頸,數(shù)據(jù)決定模型質(zhì)量的上限。隨著對氣候系統(tǒng)變化機(jī)制的日益深入理解,地球系統(tǒng)的觀測數(shù)據(jù)、再分析資料以及數(shù)值模擬數(shù)據(jù)在過去40年里飛速增長,氣候變化科學(xué)數(shù)據(jù)存量越來越大,存儲類型越來越豐富。尤其是第五階段國際耦合模式比較計劃(Coupled Model Intercomparison Project-Phase 5,CMIP5)和第六階段國際耦合模式比較計劃(Coupled Model Intercomparison Project-Phase 6,CMIP6),為氣候變化、氣候預(yù)測和氣候預(yù)估研究提供了數(shù)千萬億字節(jié)量級的數(shù)據(jù)資源。同時在高性能計算機(jī)、“大數(shù)據(jù)”和先進(jìn)算法的支持下,機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展,為提高氣候預(yù)測的技巧提供了新的思路和契機(jī),氣候預(yù)測領(lǐng)域的人工智能應(yīng)用也在逐漸展開。在模式改進(jìn)等特定領(lǐng)域,人們已經(jīng)認(rèn)識到人工智能技術(shù)的巨大潛在利益。傳統(tǒng)模式中的不同要素顯示出被人工智能技術(shù)取代或增強(qiáng)的潛力。許多氣候研究人員已經(jīng)采用人工智能方法來加深對特定地球系統(tǒng)組成部分的理解,相關(guān)領(lǐng)域涌現(xiàn)了一大批創(chuàng)新性的研究成果,下文將分類詳述。
1.氣候模式參數(shù)化改進(jìn)
Krasnopolsky等人2005年提出了一種基于統(tǒng)計/機(jī)器學(xué)習(xí)和大氣模型中確定性建模的協(xié)同組合的方法。該方法使用神經(jīng)網(wǎng)絡(luò)作為統(tǒng)計或機(jī)器學(xué)習(xí)技術(shù),用于模型物理參數(shù)化的精確和快速仿真或統(tǒng)計近似。它被用于為美國國家大氣研究中心(National Center for Atmospheric Research,NCAR)社區(qū)大氣模型開發(fā)一個大氣長波輻射參數(shù)化的精確和快速近似,這是模型物理中最耗時的部分。開發(fā)的神經(jīng)網(wǎng)絡(luò)仿真比原始參數(shù)化快兩個數(shù)量級到50-80倍。用原始參數(shù)化及其神經(jīng)網(wǎng)絡(luò)模擬進(jìn)行的并行10年氣候模擬的比較證實,這些模擬產(chǎn)生幾乎相同的結(jié)果。Gentine等人2018年提出了一種基于機(jī)器學(xué)習(xí)的對流參數(shù)化的新方法,使用一個具有指定海面溫度的水行星作為概念證明。用氣候模型的超參數(shù)化版本來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),其中對流由數(shù)千個嵌入的二維云解析模型來解析,對流的機(jī)器學(xué)習(xí)表示可以巧妙地預(yù)測對氣候模擬最重要的超參數(shù)化的對流加熱、潤濕和輻射特征。
氣溶膠-云的相互作用效應(yīng)是氣候模式中不確定性的主要來源,因此量化不確定性的來源從而指導(dǎo)研究工作是很重要的。然而,全球氣溶膠模型的計算費用阻礙了對其輸出進(jìn)行全面的統(tǒng)計分析。Lee等人2013年對一個全球三維氣溶膠微物理學(xué)模型進(jìn)行了基于方差的分析,以量化模型估計的云凝結(jié)核當(dāng)前濃度中參數(shù)不確定性的大小和主要原因。根據(jù)專家的啟發(fā),確定了28個模型參數(shù),基本上涵蓋了所有重要的氣溶膠過程、排放和氣溶膠大小分布的表示。然后,基于為每個模型網(wǎng)格單元構(gòu)建的仿真器的蒙特卡羅型采樣,進(jìn)行不確定性分析,在全球范圍內(nèi)改進(jìn)云活性氣溶膠的建模。
2.集合預(yù)報
Luo等人2007年使用機(jī)器學(xué)習(xí)的貝葉斯方法來融合由多個氣候模型生成的集合季節(jié)性氣候預(yù)報,以獲得更好的概率性和確定性預(yù)報。研究給出了兩個實例:赤道太平洋海表溫度的季節(jié)預(yù)報和俄亥俄河流域的降水預(yù)報。這些預(yù)報的交叉驗證顯示,與來自氣候模型和氣候預(yù)報的原始預(yù)報相比,合并預(yù)報的均方根誤差和排序概率得分更小,表明確定性和概率性預(yù)報技能都有所提高。因此,這種方法在季節(jié)性水文預(yù)報中有很大的應(yīng)用潛力。
氣候模型是復(fù)雜的數(shù)學(xué)模型,由氣象學(xué)家、地球物理學(xué)家和氣候科學(xué)家設(shè)計,并作為計算機(jī)模擬運行,以預(yù)測氣候。來自世界各地不同實驗室的20個全球氣候模型的預(yù)測差異很大,這些模型為政府間氣候變化專門委員會(Intergovernmental Panel on Climate Change,IPCC)提供信息。給定來自20個IPCC全球氣候模型的溫度預(yù)測,以及超過100年的歷史溫度數(shù)據(jù),Monteleoni等人2011年用深度學(xué)習(xí)算法對觀測序列進(jìn)行建模,其中當(dāng)前最佳氣候模型作為隱變量。
在歷史全球平均溫度數(shù)據(jù)上,在線學(xué)習(xí)算法的平均預(yù)測損失幾乎與事后表現(xiàn)最好的氣候模型相匹配。此外,它的性能超過了平均模型預(yù)測,這是氣候科學(xué)的默認(rèn)做法,中值預(yù)測和最小二乘線性回歸。通過對2098年的氣候模型預(yù)測進(jìn)行實驗。使用任何一個氣候模型的預(yù)測來模擬標(biāo)簽,發(fā)現(xiàn)在線學(xué)習(xí)算法相對于其他氣候模型和技術(shù)顯著提高了性能。同時針對非洲、歐洲和北美的特定地理區(qū)域進(jìn)行了IPCC全球氣候模型溫度預(yù)測實驗。在年度和月度時間尺度的歷史數(shù)據(jù)上,以及在未來的模擬中,學(xué)習(xí)算法通常優(yōu)于每個地區(qū)的最佳氣候模型和線性回歸。值得注意的是,學(xué)習(xí)算法始終優(yōu)于當(dāng)前基準(zhǔn)模型的平均預(yù)測。
3.氣候變化影響評估
準(zhǔn)確估計珍稀瀕危物種的地上生物量(Aboveground Biomass,AGB)對于保護(hù)森林生態(tài)系統(tǒng)和瀕危物種以及為分析過去和未來氣候變化對森林生物量的影響提供有用信息尤為重要。Wu等人2019年使用三個已開發(fā)和兩個廣泛使用的模型,包括廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)、成組數(shù)據(jù)處理方法(Group Method of Data Handling,GMDH)、自適應(yīng)神經(jīng)模糊推理系統(tǒng)(Adaptive Neuro-Fuzzy Inference System,ANFIS)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和支持向量機(jī)(Support Vector Machine,SVM),來估計中國天然林中刺桐AGB的可行性。結(jié)果表明,這些模型可以利用有限的氣象數(shù)據(jù)解釋AGB的變化,建議使用這些先進(jìn)的模型來估計森林的AGB。
目前,地表吸收的太陽能有一半以上用于蒸發(fā)水分。氣候變化預(yù)計會加劇水文循環(huán)并改變蒸散量,對生態(tài)系統(tǒng)、區(qū)域和全球氣候的反饋產(chǎn)生影響。蒸散量的變化在全球范圍內(nèi)缺乏直接的觀測約束,陸地水循環(huán)的變化、氣候變化和可變性影響的關(guān)鍵診斷標(biāo)準(zhǔn)仍然不確定。Jung等人2010年提供了一個從1982年到2008年全球陸地蒸散的數(shù)據(jù)驅(qū)動的估計,整合使用了全球監(jiān)測網(wǎng)絡(luò)、氣象和遙感觀測以及機(jī)器學(xué)習(xí)算法。此外,使用基于過程的陸面模式集合評估了同一時期的蒸散變化。
大氣環(huán)流模型(General Circulation Models,GCMs)是經(jīng)常用于評估氣候變化影響的氣候模型,它的分辨率較粗,因此從GCMs獲得的模擬結(jié)果在相對較小的流域尺度水文過程中可用性不高。Ghosh和Mujumdar2008年提出了一種基于稀疏貝葉斯學(xué)習(xí)和相關(guān)向量機(jī)(Relevance Vector Machine,RVM)的統(tǒng)計降尺度方法,以使用GCM模擬的氣候變量模擬季風(fēng)期(6月、7月、8月、9月)流域尺度的徑流。由美國氣象環(huán)境預(yù)報中心(National Centers For Environmental Prediction,NCEP)和美國國家大氣研究中心(NCAR)聯(lián)合制作的再分析數(shù)據(jù)被用于訓(xùn)練模型,以建立徑流和氣候變量之間的統(tǒng)計關(guān)系。由此獲得的關(guān)系用于預(yù)測GCM模擬的未來徑流。統(tǒng)計方法包括主成分分析、模糊聚類和RVM。不同的核函數(shù)用于比較目的。該模型被應(yīng)用于印度的馬哈納迪河流域。將使用RVM獲得的結(jié)果與最先進(jìn)的支持向量機(jī)(SVM)的結(jié)果進(jìn)行比較,以展示RVMs相對于SVMs的優(yōu)勢。
Goyal等人2014年研究了人工神經(jīng)網(wǎng)絡(luò)(ANN)、最小二乘支持向量回歸(Least Squares – Support Vector Regression,LS-SVR)、模糊邏輯和自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)技術(shù)在提高亞熱帶氣候下日蒸發(fā)量估計準(zhǔn)確性方面的能力。通過比較發(fā)現(xiàn),模糊邏輯和最小二乘支持向量回歸方法可以成功地應(yīng)用于從現(xiàn)有氣候資料模擬日蒸發(fā)過程,機(jī)器學(xué)習(xí)模型優(yōu)于傳統(tǒng)的經(jīng)驗方法。
干旱是水循環(huán)的間歇性干擾,深刻影響著陸地碳循環(huán)。然而,耦合的水循環(huán)和碳循環(huán)對干旱的響應(yīng)和潛在的機(jī)制仍然不清楚。Yang等人2016年提供了第一個全球綜合的干旱對生態(tài)系統(tǒng)水分利用效率影響的數(shù)據(jù)WUE(Water Use Efficiency)。使用數(shù)據(jù)自適應(yīng)機(jī)器學(xué)習(xí)方法構(gòu)建兩個觀測WUE數(shù)據(jù)集,發(fā)現(xiàn)WUE對干旱的反應(yīng)在干旱(WUE隨著干旱而增加)和半干旱/半濕潤生態(tài)系統(tǒng)(WUE隨著干旱而減少)之間形成對比,這歸因于生態(tài)系統(tǒng)過程對水文氣候條件變化的不同敏感性。干旱生態(tài)系統(tǒng)的WUE變率主要受物理過程(即蒸發(fā))控制,而半干旱/半濕潤地區(qū)的WUE變率主要受生物過程(即同化)調(diào)節(jié)。同時多年來水文氣候條件的變化會加劇干旱對WUE的影響。結(jié)果表明,未來的干旱事件,加上氣候變率的增加,將進(jìn)一步威脅半干旱/半濕潤生態(tài)系統(tǒng),并可能導(dǎo)致生物群落重組,首先是低生產(chǎn)力和高水分敏感性的草地。
發(fā)展中國家農(nóng)業(yè)生產(chǎn)率的提高被認(rèn)為在減貧中發(fā)揮了關(guān)鍵作用。但在世界大部分地區(qū),這種生產(chǎn)率仍然沒有得到很好的衡量,這阻礙了評估和瞄準(zhǔn)提高生產(chǎn)率干預(yù)措施的努力。Burke和Lobell在2017年使用高分辨率衛(wèi)星圖像,結(jié)合從肯尼亞數(shù)千塊小農(nóng)土地上收集的田間數(shù)據(jù),運用隨機(jī)森林等方法估計了非洲小農(nóng)的田間產(chǎn)量變化。結(jié)果表明該方法對衡量具體干預(yù)措施的影響、描述收益差距的來源和規(guī)模以及開發(fā)針對非洲小農(nóng)戶的金融產(chǎn)品都有潛在能力。
旱地環(huán)境中的土地退化和沉積物再活化被認(rèn)為是一個重大的全球環(huán)境問題。鑒于目前穩(wěn)定的沙丘系統(tǒng)在氣候變化和人類活動壓力增加的情況下有可能重新激活,確定外部擾動在驅(qū)動地貌響應(yīng)中的作用至關(guān)重要。Buckland等人2019年開發(fā)了一種新的方法,使用人工神經(jīng)網(wǎng)絡(luò)(ANN)應(yīng)用于內(nèi)布拉斯加州沙丘歷史再活化-沉積事件的時間序列,以確定半干旱草原上歷史時期的沙沉積與外部氣候條件、土地利用和野火發(fā)生之間的關(guān)系。結(jié)果表明,植被生長和沉積物再沉積事件都可以準(zhǔn)確估計。單個因素的敏感性測試表明,當(dāng)氣候保持在目前的條件下時,局部強(qiáng)迫(過度放牧和野火)具有統(tǒng)計上的顯著影響。然而,主要的影響是氣候引起的干旱。此方法有很大的潛力,可以估計未來景觀對各種潛在脆弱旱地環(huán)境的氣候和土地利用情景的敏感性。
4.氣候數(shù)據(jù)集改進(jìn)
淡水資源具有很高的社會相關(guān)性,在當(dāng)前氣候變化的背景下,了解其過去的可變性對于水資源管理至關(guān)重要。Ghiggi等人2019年進(jìn)行了1902年至2014年期間全球網(wǎng)格月徑流的重建。徑流觀測用于訓(xùn)練機(jī)器學(xué)習(xí)算法,該算法基于來自大氣再分析的前期降水和溫度來預(yù)測月徑流率。這種重建的準(zhǔn)確性通過交叉驗證進(jìn)行評估,并與大型河流流域的獨立流量觀測值進(jìn)行比較。與13個最先進(jìn)的全球水文模型徑流模擬的集合相比,所提供的數(shù)據(jù)集與徑流觀測值的一致性更好,使其成為大規(guī)模水文氣候過程研究、水資源評估以及評估和完善現(xiàn)有水文模型的理想候選。
在過去的20年里,大量的研究采用了基于人工神經(jīng)網(wǎng)絡(luò)的遙感信息降水量估算的產(chǎn)品(Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks ,PERSIANN)。目前,PERSIANN提供了幾種基于不同空間和時間尺度的不同算法的降水產(chǎn)品。Nguyen等人2018年概述了可用的PERSIANN降水反演算法及其差異,使用氣候預(yù)測中心基于統(tǒng)一規(guī)范的分析作為基準(zhǔn),在不同的空間和時間尺度上對美國可用的業(yè)務(wù)產(chǎn)品進(jìn)行了評估,挖掘PERSIANN產(chǎn)品的優(yōu)勢和局限性,并提出了未來將通過進(jìn)一步整合深度學(xué)習(xí)算法改進(jìn)該數(shù)據(jù)集。
全球歷史氣候網(wǎng)絡(luò)每日數(shù)據(jù)庫包含全球各地氣象站的每日最高和最低溫度等變量。如果不考慮由于收集觀測值的時間造成的偏差,基于每日最低和最高溫度的氣候匯總統(tǒng)計數(shù)據(jù)將是不準(zhǔn)確的。Rischard等人2018年提出了一種新的方法來解決這個問題:通過從附近記錄每小時溫度的站點信息來估算測量位置的每小時溫度,然后可以使用這些信息來創(chuàng)建溫度極值的準(zhǔn)確匯總。關(guān)鍵的困難是溫度曲線的這些插補必須滿足落在觀察到的每日最小值和最大值之間的限制,并且在24小時內(nèi)至少達(dá)到一次這些值,通過開發(fā)一個時空高斯過程模型,用于輸入來自附近站點的每小時測量值,然后開發(fā)一種新穎且易于實現(xiàn)的馬爾可夫鏈蒙特卡羅算法,用于從滿足上述約束的后驗分布中進(jìn)行采樣。結(jié)果顯示,插補的溫度很好地恢復(fù)了隱藏的溫度而且該模型可以利用數(shù)據(jù)中包含的信息來推斷每天測量的時間。
過去一個世紀(jì),特別是最近二十年,降水特征發(fā)生了前所未有的變化,這給社會帶來了嚴(yán)重的社會經(jīng)濟(jì)問題,如水文氣象極端事件,特別是洪水和干旱。這些變化的根源在于不斷變化的氣候條件;然而,它的威脅性影響只能通過十年降水預(yù)測(Decadal Precipitation Predictions ,DPPs)的規(guī)劃來處理。由于降水預(yù)測的復(fù)雜性,DPP代表了一個非常具有挑戰(zhàn)性的前景。由于有限的技術(shù)和粗糙的空間分辨率,由大氣環(huán)流模式(GCMs)提供的DPPs不能直接用于影響評估。Salvi等人2017年基于九個GCM量化美國大陸DPPs的季節(jié)性和區(qū)域性平均技能,通過應(yīng)用基于線性和核回歸的統(tǒng)計降尺度方法來解決與有限技能和分辨率相關(guān)的問題。這兩種統(tǒng)計方法都顯示出相對于原始GCM數(shù)據(jù)的改進(jìn),特別是在長期統(tǒng)計特性和不確定性方面。
(本文推送前略有修改,未完待續(xù))END
——————————————————————————————————
來源 |中國信息化,2023,(10):29-35
作者單位 | 中國氣象局氣象發(fā)展與規(guī)劃院
編輯 | 馮裕健
- 上一篇:沒有啦
- 下一篇:JAMES:用深度學(xué)習(xí)應(yīng)對深度不確定性 2024/2/4