強化学習によるアクロボットの行動学習



■ 価値関数近似器としてSDNNを用いたQ学習

2つのリンクから構成されるシンプルなロボットが鉄棒を行うようなアクロボット課題において,強化学習を行って適切な行動を獲得するデモ動画です.関数近似器として選択的不感化法を適用した層状ニューラルネット(SDNN)を用いています.



■ 価値観数近似器としてRBFNを用いたQ学習

また,比較のために,関数近似器として放射状基底関数ネットワーク(RBFN)を用いた学習過程も示します.



SDNNを用いる方では,第一リンクが早く振りあがる過程が1試行目から見られます.10試行程度学習を重ねると1試行当たり15秒程度でゴールに到達するようになります.このように,関数近似器としてSDNNを用いると学習効率が上がります.この結果は,SDNNの高い関数近似能力と関係があるのですが,詳しい解析はこれからです.

各種デモンストレーションのページへ