shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

強化學習介紹-1

介紹#

文件#

表格#

下面的表格基本不能看,因為是 AIGC,網頁都是錯亂的。

類別名稱作者描述連結
算法SARSARichard S. Sutton & Andrew G. Barto使用時間差分(TD)更新其策略的 Q 學習算法。1
算法Q-LearningChristopher J. C. H. Watkins & Peter Dayan一種無模型的強化學習算法,學習預測在特定狀態下執行特定動作的預期回報。2
算法深度 Q 網絡(DQN)Volodymyr Mnih & Geoffrey Hinton一種基於神經網絡的算法,將 Q 學習應用於使用高級控制玩 Atari 遊戲。3
算法深度確定性策略梯度(DDPG)John Schulman & Philip Mirowski一種離策略算法,用於連續控制,使用評論家和策略網絡。7
算法近端策略優化(PPO)John Schulman & Philip Mirowski一種無模型算法,使用信任區域優化來更新其策略。8
算法優勢演員 - 評論家(A2C)John Schulman & Philip Mirowski一種結合了策略梯度方法和基於值的方法優點的算法。9
框架GymUniversity of Alberta & Uber一個用於強化學習的 Python 庫,為該領域的各個方面的實現提供了一個共同的接口。4
框架RayRaphaël Sellem & Eric Jang一個用於開發和訓練強化學習模型的高級框架。5
書籍強化學習Richard S. Sutton & Andrew G. Barto一本全面介紹強化學習基礎和應用的書籍。6
書籍深度學習Ian Goodfellow, Yoshua Bengio & Aaron Courville一本關於深度學習的綜合性書籍,包括一章關於強化學習。10
期刊機器學習研究期刊Various Authors一本領先的機器學習研究期刊,包括強化學習主題。11
載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。