イントロダクション#
ドキュメント#
テーブル#
以下のテーブルは基本的に見ることができません。AIGC であり、ウェブページが乱れています。
カテゴリー | 名前 | 著者 | 説明 | リンク |
---|---|---|---|---|
アルゴリズム | SARSA | Richard S. Sutton & Andrew G. Barto | 方策を更新するために時間差法(TD)を使用する Q 学習アルゴリズムです。 | 1 |
アルゴリズム | Q 学習 | Christopher J. C. H. Watkins & Peter Dayan | 特定の状態で特定のアクションを取ることの期待リターンを予測することを学習するモデルフリー強化学習アルゴリズムです。 | 2 |
アルゴリズム | Deep Q-Networks(DQN) | Volodymyr Mnih & Geoffrey Hinton | Atari ゲームを高レベルの制御でプレイするために Q 学習を適用するニューラルネットワークベースのアルゴリズムです。 | 3 |
アルゴリズム | Deep Deterministic Policy Gradients(DDPG) | John Schulman & Philip Mirowski | クリティックとポリシーネットワークを使用したオフポリシーアルゴリズムで、連続制御に使用されます。 | 7 |
アルゴリズム | Proximal Policy Optimization(PPO) | John Schulman & Philip Mirowski | トラストリージョン最適化を使用してポリシーを更新するモデルフリーアルゴリズムです。 | 8 |
アルゴリズム | Advantage Actor-Critic(A2C) | John Schulman & Philip Mirowski | ポリシーグラデーション法と価値ベースの手法の利点を組み合わせたアルゴリズムです。 | 9 |
フレームワーク | Gym | University of Alberta & Uber | 強化学習のための Python ライブラリで、フィールドのさまざまな側面の実装に共通のインターフェースを提供します。 | 4 |
フレームワーク | Ray | Raphaël Sellem & Eric Jang | 強化学習モデルの開発とトレーニングのための高レベルフレームワークです。 | 5 |
書籍 | 強化学習 | Richard S. Sutton & Andrew G. Barto | 強化学習の基礎と応用をカバーした包括的な書籍です。 | 6 |
書籍 | 深層学習 | Ian Goodfellow, Yoshua Bengio & Aaron Courville | 強化学習に関する章を含む深層学習についての包括的な書籍です。 | 10 |
ジャーナル | Journal of Machine Learning Research | Various Authors | 機械学習研究の主要なジャーナルで、強化学習のトピックも含まれています。 | 11 |