- 深層強化学習で 連続行動 と 視覚入力 を使ったものをまとめる
- 特に重要なテクニックが書かれていればそれも書き出す
- マルチモーダルな強化学習もあれば書いておく
- SAC のような形で、完全に actor と critic でネットワークを分けて CNN を2つ利用する
- actor と critic で CNN は共有するが、CNNの更新はcriticでのみしてactorはそれを利用する
- actor と critic で CNN を利用するが、CNNの更新はAuto encoderなど別のLossをつかう
Cimurs, Reinis, Jin Han Lee, and Il Hong Suh. "Goal-oriented obstacle avoidance with deep reinforcement learning in continuous action space." Electronics 9.3 (2020): 411.
Depth 画像の時系列を入れて、2輪車をゴールまでナビゲーション
※ 2次元とかのアクションなら割と適当でも学習するのか?