摘要:針對傳統(tǒng)Q-learning算法在復雜環(huán)境下移動機器人路徑規(guī)劃問題中容易產(chǎn)生維數(shù)災(zāi)難的問題,提出一種改進方法。該方法將深度學習融于Q-learming框架中,以網(wǎng)絡(luò)輸出代替Q值表,解決維數(shù)災(zāi)難問題。通過構(gòu)建記憶回放矩陣和雙層網(wǎng)絡(luò)結(jié)構(gòu)打斷數(shù)據(jù)相關(guān)性,提高算法收斂性。最后,通過柵格法建立仿真環(huán)境建模,在不同復雜程度上的地圖上進行仿真實驗,對比實驗驗證了傳統(tǒng)Q-learming難以在大狀態(tài)空間下進行路徑規(guī)劃,深度強化學習能夠在復雜狀態(tài)環(huán)境下進行良好的路徑規(guī)劃。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
測控技術(shù)雜志, 月刊,本刊重視學術(shù)導向,堅持科學性、學術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述、試驗與測試、機器人技術(shù)與應(yīng)用、智能感知與儀器儀表、數(shù)據(jù)采集與處理、計算機與控制系統(tǒng)、科技動態(tài)等。于1982年經(jīng)新聞總署批準的正規(guī)刊物。