shiqi

shiqi

Study GIS, apply to world
twitter
github
bento
jike

強化学習イントロ-1

イントロダクション#

ドキュメント#

テーブル#

以下のテーブルは基本的に見ることができません。AIGC であり、ウェブページが乱れています。

カテゴリー名前著者説明リンク
アルゴリズムSARSARichard S. Sutton & Andrew G. Barto方策を更新するために時間差法(TD)を使用する Q 学習アルゴリズムです。1
アルゴリズムQ 学習Christopher J. C. H. Watkins & Peter Dayan特定の状態で特定のアクションを取ることの期待リターンを予測することを学習するモデルフリー強化学習アルゴリズムです。2
アルゴリズムDeep Q-Networks(DQN)Volodymyr Mnih & Geoffrey HintonAtari ゲームを高レベルの制御でプレイするために Q 学習を適用するニューラルネットワークベースのアルゴリズムです。3
アルゴリズムDeep Deterministic Policy Gradients(DDPG)John Schulman & Philip Mirowskiクリティックとポリシーネットワークを使用したオフポリシーアルゴリズムで、連続制御に使用されます。7
アルゴリズムProximal Policy Optimization(PPO)John Schulman & Philip Mirowskiトラストリージョン最適化を使用してポリシーを更新するモデルフリーアルゴリズムです。8
アルゴリズムAdvantage Actor-Critic(A2C)John Schulman & Philip Mirowskiポリシーグラデーション法と価値ベースの手法の利点を組み合わせたアルゴリズムです。9
フレームワークGymUniversity of Alberta & Uber強化学習のための Python ライブラリで、フィールドのさまざまな側面の実装に共通のインターフェースを提供します。4
フレームワークRayRaphaël Sellem & Eric Jang強化学習モデルの開発とトレーニングのための高レベルフレームワークです。5
書籍強化学習Richard S. Sutton & Andrew G. Barto強化学習の基礎と応用をカバーした包括的な書籍です。6
書籍深層学習Ian Goodfellow, Yoshua Bengio & Aaron Courville強化学習に関する章を含む深層学習についての包括的な書籍です。10
ジャーナルJournal of Machine Learning ResearchVarious Authors機械学習研究の主要なジャーナルで、強化学習のトピックも含まれています。11
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。