基于浸沒邊界LB方法和深度強化學(xué)習(xí)的魚類自主游動行為模擬
本文是一篇決策模擬論文,本文通過高精度、高運算效率的浸沒邊界-格子Boltzmann方法以及柔性演員-評論家深度強化學(xué)習(xí)算法搭建計算平臺,分別通過數(shù)值手段構(gòu)建魚類肉體、魚類大腦以及流場生境,同時,提出一種用于平臺數(shù)據(jù)交換的智能接口,保證了整個平臺模擬的一體化、智能化和連續(xù)性,通過典型的魚類游泳行為從多方面驗證了計算平臺的可靠性以及魯棒性。
第一章 緒論
1.1 研究背景與意義
自然界中的生物經(jīng)過上千萬年的進化,已經(jīng)在各自的生存領(lǐng)域積累了豐富的運動經(jīng)驗和卓越的運動技能,比如:候鳥能夠精準感知大氣中的環(huán)流而完成遷徙,獵豹能夠以極為優(yōu)異的生物運動學(xué)和動力學(xué)完成捕食狩獵過程,劍魚在水中的游泳速度能夠達到驚人的130 Km/h等,在漫長的進化中,各種魚類也已經(jīng)進化出了極為優(yōu)秀的游泳性能[1],由于魚類身體兩側(cè)的側(cè)線感受器官對水流的刺激尤為敏感,所以能幫助魚確定水流的速度和識別方向,從而使其在復(fù)雜的流場環(huán)境下完成捕食、洄游產(chǎn)卵等游泳動作[2]。上述樣本均為人類認識自然提高人類社會生產(chǎn)力提供了寶貴的經(jīng)驗。魚類作為熟練掌握并運用流體動力學(xué)原理的高手之一,在過去的幾十年里一直受到研究者的廣泛關(guān)注,魚類靈活、敏捷的運動方式和極高的游泳效率是任何人工載具都無法媲美的,因此,國內(nèi)外研究人員致力于揭示魚類游動的流體力學(xué)機制,以便為智能水下裝備的研究、魚類水生生物的保護等提供理論依據(jù)和實驗參考。
對魚類游泳的研究一般通過物理實驗和數(shù)值模擬方法進行,傳統(tǒng)物理實驗可以客觀反應(yīng)真實自然界的魚類行為,但存在著諸多限制,如無法表征魚體受力、非接觸式測量手段受限、實驗成本高等。數(shù)值模擬方法因其模擬環(huán)境可控性、獲取信息的豐富性等優(yōu)勢廣受研究人員青睞,然而,傳統(tǒng)數(shù)值模擬方法只能模擬魚體的被動運動,魚體行為都是預(yù)先通過計算機程式設(shè)定的,模擬的魚尚無主動感知、主動決策以及與環(huán)境交互的能力,對魚類游動問題的工具和方法有待進一步更新。
...................
1.2 國內(nèi)外魚類游泳運動的研究方法的研究進展
1.2.1 傳統(tǒng)流體力學(xué)實驗
對魚類的游泳運動研究在早期一般通過實驗的方式進行。對于實驗研究,一般討論以下主題:1、湍流對魚類游泳的影響;2、魚類在具有復(fù)雜漩渦的流場中的游泳運動學(xué)和節(jié)能游泳行為;3、量化魚類在湍流中的游泳成本;4、魚群的游泳行為學(xué)與動力學(xué)機制,研究手段往往通過魚類游泳運動學(xué)分析、魚體流場可視化、肌電圖、運動呼吸計量法和感知屏蔽手術(shù)等來從多方面研究魚類游泳的物理機制和生物學(xué)代價。學(xué)者們利用先進的實驗方法,取得了一系列豐富的、具有實踐意義的成果,為大壩生態(tài)調(diào)度、漁業(yè)管理、水下航行機器人研究和生物學(xué)領(lǐng)域中種群層次等問題作出了重要的貢獻。
① 湍流對魚類游泳的影響
關(guān)于湍流對魚類游泳的影響的結(jié)論,目前仍然存在較大的爭議,根據(jù)研究中特有的水動力條件,魚可能會被湍流吸引或排斥。有研究表明,魚類不喜歡湍動強度過大、混亂程度過高的水流,而更偏好湍動強度較低、具有較好可預(yù)測性的水流。當(dāng)湍流強度較大時,湍流作為一種極為混亂與無序的流動,已經(jīng)被證明會增加魚類游泳運動的成本[3–5]。當(dāng)湍流強度較小時,湍流具有類較高的穩(wěn)定和可預(yù)測性從而能夠被游動的魚類感知和利用。大量的野外和實驗室研究表明,魚類可以通過利用水中的漩渦或其他魚類的游泳產(chǎn)生的漩渦來降低移動成本[6–10]。在上述情況下,湍流對魚類游泳的行為學(xué)和動力學(xué)是有一定益處的。
河道中往往存在各種各樣的障礙物,當(dāng)水流達到一定流速時,將在障礙物后方產(chǎn)生同樣的渦街。對于魚類的在卡門渦街中的游泳,Liao等[11]發(fā)現(xiàn)魚類將以一定體長的距離作為標準,在非定??ㄩT渦街中進行穩(wěn)定的卡門步態(tài),當(dāng)魚在D形柱后面游泳時,魚能感知流場中的能量變化,這使得它們能夠在不同Strouhal數(shù)的渦街中同步它們的身體運動擺動頻率與障礙物后的渦脫落頻率,以達到節(jié)省游泳能量的目的。
...........................
第二章 基本理論與方法總結(jié)
2.3 強化學(xué)習(xí)理論
馬爾科夫鏈(Markov Decision Process, MDP)是強化學(xué)習(xí)的基礎(chǔ),它可以用(S,A,P,R,?)五元組來描述。其中 S表示狀態(tài)矩陣,A表示動作矩陣,P為狀態(tài)遷移概率,R為獎勵函數(shù),?表示計算累計獎勵時的折扣因子。對于無模型(Model-free)類問題,一般無法得到狀態(tài)轉(zhuǎn)移概率P,所以用轉(zhuǎn)移過程四元組()s,a,r,s'來表示每次訓(xùn)練的基本單元,其中:s'表示經(jīng)過動作a從狀態(tài)s轉(zhuǎn)移到新的狀態(tài),并在這個過程中得到獎勵r。
傳統(tǒng)強化學(xué)習(xí)大致可以分為基于值、基于策略和二者結(jié)合三大類方法。接下來本文將介紹前兩種基本分類及其對應(yīng)的代表性算法。
......................
2.4 深度學(xué)習(xí)理論
2006年,深度學(xué)習(xí)作為機器學(xué)習(xí)的一個分支被首次提出。深度學(xué)習(xí)的模型開發(fā)受到了人類大腦中數(shù)億個神經(jīng)元的相互交感的啟發(fā)。研究者們通過創(chuàng)建多層隱藏層和多層感知器的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來從技術(shù)上實現(xiàn)這一模型。相較于淺層神經(jīng)網(wǎng)絡(luò)(Shallow Neural Network,SNN),深度神經(jīng)網(wǎng)絡(luò)的性能得到全面增強,能夠從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到更多特征表示。自從Krizhevsky等[59]在ImageNet圖像分類比賽中獲勝后,深度學(xué)習(xí)也開始快速發(fā)展并廣泛應(yīng)用于多個領(lǐng)域。多層感知機(Multilayer Perceptron,MLP)是深度學(xué)習(xí)的核心,相對于單層感知機,它具有更多的隱藏層和輸出層,能夠?qū)W習(xí)更復(fù)雜的特征信息,輸出多個值解決例如分類、回歸、降維和聚類等各類問題,MLP結(jié)合不同的激活函數(shù)能夠進一步增強模型的表達能力。
決策模擬論文怎么寫
...........................
第三章 智慧魚體自主行為決策模擬平臺設(shè)計 .................... 19
3.1 引言 ........................................ 19
3.2 智慧魚體流場生境流固耦合模塊設(shè)計 ......................... 19
第四章 魚類捕食游泳行為模擬 ............................ 32
4.1 引言 .......................................... 32
4.2 實驗環(huán)境及參數(shù)配置 ................................. 32
第五章 復(fù)雜渦流場中魚類游泳行為模擬 ........................... 44
5.1 引言 ...................................... 44
5.2 結(jié)合側(cè)線感知機的智能仿生魚計算平臺搭建 ............................ 44
第五章 復(fù)雜渦流場中魚類游泳行為模擬
5.1 引言
本文第四章搭建的智慧魚體自主行為決策模擬平臺對于深度強化學(xué)習(xí)這一類的智能算法應(yīng)用還處于較為初級的階段。但是,由于僅僅通過將流場的一些特征參數(shù)輸入智慧魚的狀態(tài)空間來進行端到端學(xué)習(xí),無法使上文初級計算平臺所模擬的智能魚擁有對當(dāng)前所處的流場環(huán)境進行定性識別和分類的能力,而且可能造成算法難以收斂,訓(xùn)練好的游泳策略也無法多個游泳環(huán)境之間順利遷移,從而造成已有計算成果的浪費,這與真實自然界魚類的行為模式也仍然是存在一定出入的。本章參考魚類的側(cè)線功能,設(shè)計了一種智能仿生魚的流場識別與記憶移植方法,通過側(cè)線感知機對當(dāng)前流場的參數(shù)進行初步感知、識別,結(jié)合宏動作系統(tǒng),可使已有的游泳策略在陌生的流場環(huán)境下適用,將其引入智慧魚體自主行為決策模擬平臺,得到了一個更加魯棒的、泛化能力更強、模擬行為更接近自然界真實魚類的智能魚體游動控制器。在具有復(fù)雜漩渦的紊流場中進行了魚類復(fù)雜游泳行為模擬,流場中的非線性漩渦會對魚體的運動造成強干擾,這非??简炛腔埕~的游泳決策能力,在三種不同來流流速的卡門渦街下進行了游動模擬,分別對比了屏蔽所述系統(tǒng)和不屏蔽所述系統(tǒng)的情況下,對魚體的控制效果,結(jié)果表明:激活所述系統(tǒng)的魚,維持自身在紊流場中運動的能力顯著增加,運動穩(wěn)定性顯著增強,魚體在三種工況下的所有回合的運動時間均達到了設(shè)置回合上限時間100 T。
決策模擬論文參考
..........................
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.1.1 主要內(nèi)容與結(jié)論
對于魚類游動的行為學(xué)和動力學(xué)研究,傳統(tǒng)物理實驗存在著實驗成本高、可采集信息與非接觸式測量手段有限等不足,傳統(tǒng)計算流體力學(xué)數(shù)值模擬方法存在著無法實現(xiàn)魚體主動感知和決策、智能模擬魚體被動運動等不足。本文目標在于針對以上問題,結(jié)合更加先進的人工智能算法搭建與傳統(tǒng)流固耦合算法相結(jié)合的計算平臺,并以具體的應(yīng)用實例佐證計算平臺的優(yōu)越性。為此,本文通過高精度、高運算效率的浸沒邊界-格子Boltzmann方法以及柔性演員-評論家深度強化學(xué)習(xí)算法搭建計算平臺,分別通過數(shù)值手段構(gòu)建魚類肉體、魚類大腦以及流場生境,同時,提出一種用于平臺數(shù)據(jù)交換的智能接口,保證了整個平臺模擬的一體化、智能化和連續(xù)性,通過典型的魚類游泳行為從多方面驗證了計算平臺的可靠性以及魯棒性?,F(xiàn)將主要工作內(nèi)容總結(jié)如下:
(1)為了解決傳統(tǒng)CFD方法只能模擬魚體被動運動等問題,通過自編程手段構(gòu)建了智慧魚體自主行為決策模擬平臺。首先,通過高精度、高運算效率的浸沒邊界-格子Boltzmann方法實現(xiàn)魚體游動流固耦合數(shù)值模擬模塊,模擬魚類肉體運動和魚類流場生境的相互作用,提供訓(xùn)練數(shù)據(jù)和執(zhí)行游動指令,該模塊采用C++語言編譯;然后,通過基于柔性演員-評論家的深度強化學(xué)習(xí)算法實現(xiàn)魚腦高效訓(xùn)練學(xué)習(xí)和決策任務(wù),該模塊采用基于Python語言的Pytorch開源庫編譯;同時,針對跨平臺、跨語言編程間通信的通信問題,提出一種用于智慧魚體自主行為決策模擬平臺數(shù)據(jù)交換的智能接口,保證了整個平臺的一體化以及訓(xùn)練過程的智能化與連續(xù)性;
(2)通過水箱里兩小球下沉算例以及柔性體靜水前游算例驗證流固耦合求解器可靠性,通過一級牛頓擺、一級倒立擺兩個控制工程領(lǐng)域的經(jīng)典非線性控制算例驗證深度強化學(xué)習(xí)決策模塊的可靠性,為后續(xù)模擬奠定基礎(chǔ);
參考文獻(略)
下一篇:面向節(jié)水的工業(yè)企業(yè)生產(chǎn)用水決策模擬及調(diào)控政策優(yōu)化思考