摘要:深度Q神經網絡算法的值函數迭代算法大多為Q學習算法,這種算法使用貪婪值函數作逼近目標,不利于深度Q神經網絡算法獲得長期來看更好的策略。通過以期望思想求解的期望值函數取代貪婪值函數作為更新目標,提出了基于期望值函數的離策略深度Q神經網絡算法,并結合DQN算法神經網絡更新方法,給出期望值函數能夠作用于DQN算法的解釋。通過使用該算法能夠快速獲得長期回報較高的動作和穩定的策略。最后分別在CarPole-v1和Acrobot仿真環境中對期望值函數的離策略深度Q神經網絡算法和深度Q神經網絡算法進行獲取策略的穩定性對比實驗,結果表明,基于期望值函數的離策略深度Q神經網絡算法能夠快速獲得長期回報較高的動作,并且該算法表現更為穩定。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社