介紹#
文件#
表格#
下面的表格基本不能看,因為是 AIGC,網頁都是錯亂的。
類別 | 名稱 | 作者 | 描述 | 連結 |
---|---|---|---|---|
算法 | SARSA | Richard S. Sutton & Andrew G. Barto | 使用時間差分(TD)更新其策略的 Q 學習算法。 | 1 |
算法 | Q-Learning | Christopher J. C. H. Watkins & Peter Dayan | 一種無模型的強化學習算法,學習預測在特定狀態下執行特定動作的預期回報。 | 2 |
算法 | 深度 Q 網絡(DQN) | Volodymyr Mnih & Geoffrey Hinton | 一種基於神經網絡的算法,將 Q 學習應用於使用高級控制玩 Atari 遊戲。 | 3 |
算法 | 深度確定性策略梯度(DDPG) | John Schulman & Philip Mirowski | 一種離策略算法,用於連續控制,使用評論家和策略網絡。 | 7 |
算法 | 近端策略優化(PPO) | John Schulman & Philip Mirowski | 一種無模型算法,使用信任區域優化來更新其策略。 | 8 |
算法 | 優勢演員 - 評論家(A2C) | John Schulman & Philip Mirowski | 一種結合了策略梯度方法和基於值的方法優點的算法。 | 9 |
框架 | Gym | University of Alberta & Uber | 一個用於強化學習的 Python 庫,為該領域的各個方面的實現提供了一個共同的接口。 | 4 |
框架 | Ray | Raphaël Sellem & Eric Jang | 一個用於開發和訓練強化學習模型的高級框架。 | 5 |
書籍 | 強化學習 | Richard S. Sutton & Andrew G. Barto | 一本全面介紹強化學習基礎和應用的書籍。 | 6 |
書籍 | 深度學習 | Ian Goodfellow, Yoshua Bengio & Aaron Courville | 一本關於深度學習的綜合性書籍,包括一章關於強化學習。 | 10 |
期刊 | 機器學習研究期刊 | Various Authors | 一本領先的機器學習研究期刊,包括強化學習主題。 | 11 |