近日,中國科學院工程熱物理研究所無人飛行器實驗室團隊利用深度強化學習技術,開展了基于能量優(yōu)化的太陽能無人機軌跡規(guī)劃研究。該研究為增強高空長航時太陽能無人機自主飛行、智能規(guī)劃能力提供了新的解決思路。
高空長航時(HALE)太陽能無人機依靠取之不盡的太陽能可在臨近空間停留數(shù)周或更長時間,以執(zhí)行通信中繼、空中偵察和災害監(jiān)控等任務。然而,受儲能電池和光伏電池效率的限制,HALE無人機平臺的尺寸正在不斷增加以滿足更多有效載荷的需求。因此,科研人員正在尋找有效方法幫助無人機充分利用可獲取的能量,軌跡優(yōu)化作為重點方向之一,是涉及大氣環(huán)境、飛行姿態(tài)和飛行任務約束的綜合問題。當前,使用離線優(yōu)化算法解決該類問題雖能保證解序列趨于最優(yōu)化,但無法對飛行過程中的不確定性進行實時糾正以調(diào)整飛行狀態(tài);而模型預測控制、動態(tài)規(guī)劃等在線算法通常采用滾動方法在有限的視界內(nèi)進行優(yōu)化,同時結合迭代算法進行求解,有限的算力將導致計算效率下降。
研究團隊利用強化學習算法,借助神經(jīng)網(wǎng)絡實現(xiàn)將動態(tài)軌跡生成向端到端控制的轉(zhuǎn)換,設計并建立完整的高空長航時太陽能飛機數(shù)值仿真環(huán)境以及強化學習框架(圖1)。研究以能量最大化為目標,引入勢能/電能優(yōu)先策略下的不同獎勵函數(shù),經(jīng)訓練的神經(jīng)網(wǎng)絡控制器可自主學習充電、爬升、高空巡航、下降、低空盤旋五個階段(圖2),并針對未經(jīng)重復優(yōu)化的控制器開展60*24h久航仿真分析(圖3)。結果表明,采用強化學習控制器的無人機經(jīng)過完整晝夜飛行后,電池剩余能量得到不同程度的提高,同時控制器可以根據(jù)當前飛行和輻照信息重新預測未來的軌跡,平均單步推理僅用時1ms,進一步提升了高空長航時太陽能無人機的自主飛行能力。目前,實驗室正在進行基于高空多種能量的綜合航跡優(yōu)化進行可行性分析,下一階段將開展相關框架的平臺部署及驗證工作。
相關研究成果發(fā)表在Chinese Journal of Aeronautics上。研究工作得到中科院特別研究助理項目的支持。
圖1.基于Soft Actor-Critic算法的控制器框架
圖2.勢能/電量優(yōu)先策略下的不同飛行剖面。(a)勢能優(yōu)先,(b)電能優(yōu)先
圖3.久航仿真信息分析
(來源:工程熱物理研究所)