逆強化学習を用いたパーソナルモビリティの走行経路生成(Robomech2025)

-- Views

September 18, 25

スライド概要

萱場涼太, 田村雄介, 平田泰久, "逆強化学習を用いたパーソナルモビリティの走行経路生成", 日本機械学会ロボティクス・メカトロニクス講演会2025, 2A1-L11, 2025.

profile-image

東北大学大学院工学研究科ロボティクス専攻 田村研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

逆強化学習を用いた パーソナルモビリティの走行経路生成 Path Generation for Personal Mobility Using Inverse Reinforcement Learning ○萱場 涼太(東北大) 〇Kayaba Ryota(Tohoku Univ.) 田村 雄介(東北大) Yusuke Tamura(Tohoku Univ.) 平田 泰久(東北大) Yasuhisa Hirata(Tohoku Univ.) Abstract - Personal mobility devices, such as electric wheelchairs, play a crucial role in assisting individuals with mobility difficulties. However, joystickbased manual operation can be challenging, especially in crowded spaces and narrow pathways, highlighting the need for improved safety and comfort. This study proposes a path generation method using Inverse Reinforcement Learning (IRL) and Q-learning. By analyzing expert driving trajectories, we estimate a reward function that reflects the expert’s intentions during navigation. Based on the estimated reward function, optimal paths are generated. Verification experiments using subject trajectory data confirmed the effectiveness of the proposed method. Additionally, we demonstrated that the learned parameters can be applied to unknown environments where training data is unavailable. It is expected that the proposed method will enable adaptive path planning in large-scale commercial facilities and airports and provide more comfortable mobility assistance for users by granting autonomous driving in the future. 1. 背景 ➢ 複雑な環境下 ⚫ 熟練者が走行するような走行経路の生成および提示 ⚫ 搭乗者が安心できる自律走行の実現 ➢ 自律した移動に不自由が伴う人が増加 自律走行支援実現に向けて 複雑な環境で熟練者が選択する経路を生成したい ⚫ 高齢者・障がい者人口の増加 ⚫ 生産年齢人口の減少による被介護者の負担増 搭乗者にとっての安心な操作支援の実現 パーソナルモビリティの性能はユーザの生活の質に直結 本研究では電動車いすに着目 ◆ジョイスティック操作に関する課題 ➢ 応答が敏感 × 習熟度が求められる ➢ 人混みや狭隘空間での操作が困難 ➢ 熟練者でも長時間の操作はミスを招く ◆実験結果 ◆目的 ➢ 得られた報酬関数 1. 生成された経路について評価し、提案手法における 報酬関数の推定の有効性について検証する 2. 新しい環境に対して求めたパラメータを適用する 応用実験を行い、教師データのない環境における 本手法の適用可能性を確認する ◆実験用機体および実験環境 ➢ 経路の生成結果 実験用機体:WHILL model CR 被験者の軌跡 ➢ HOKUYO社製の2D LiDAR ➢ 軌跡の取得 ➢ 自己位置推定 生成した経路軌跡 実験環境 ➢ 現実の環境に障害物を配置 ◆目指す操作支援のイメージ ◆パーソナルモビリティへの需要の増大 4.検証実験 ◆逆強化学習 ➢ 熟練者の行動履歴から最適化指標を学習、報酬関数を推定 ◆実験方法 ➢ 生成経路の評価 ➢ ユークリッド距離の総和𝐷を生成経路のstep数で割っ た1stepあたりの類似度で評価 ➢ 被験者の走行軌跡の取得 ➢ 被験者は成人男性5名(いずれも健常者) ➢ 実環境において3回の走行軌跡を取得 ➢ 2D-LiDARの自己位置推定を利用 𝑫 step ➢ 被験者の走行軌跡 ➢ 教師データに使用 ➢ A~Dは最短路 ➢ Eは迂回路 ・搭乗者の負担減 ・複雑な空間でも 安心して乗れる ◆応用実験:他環境への適用 実験環境:障害物の配置、サイズを変更 ⚫ 逆強化学習 ➢ 計算回数100回 ➢ 勾配が最小となった時の𝜃を用いて報酬関数を推定 ⚫ 強化学習 ➢ 𝑄値の総和が収束するまで計算 実験結果 学習率:α 割引率:γ 逆強化学習 0.0001 0.8 探索率:ε ー 強化学習 0.7 0.9 0.9 ➢ 生成した経路の評価手法 逆強化学習の計算フロー 提案手法 ➢ 最大エントロピー逆強化学習 ➢ 報酬関数に線形性を仮定することで 報酬関数が効率的に推定できる[1] E 7.64 ⚫ 計算に用いる各種パラメータ 3.経路生成手法 ◆逆強化学習:報酬関数 D 4.44 ➢ 考察 ➢ 被験者Eの類似度が低下した ➢ マップのグリッド化および行動の限定により、 2度の曲がりに対する影響が大きくなっているため ➢ 計算条件 電動車いすの搭乗者が安心できる操作支援を実現に向けて、熟練者の走行中の意図を 反映した報酬関数の推定および報酬関数を基にした最適な走行経路を生成する C 4.71 報酬関数に関しても有効性が認められる ➢ 計算に用いる環境 ➢ 現実環境をグリッド化 ➢ 自由空間と障害物の二値化処理 ➢ 行動は上下左右4方向に限定 2. 目的 B 5.09 マップのサイズ(170×160ピクセル)を考慮すると 概ね良好な経路を生成できている start goal 支援の必要性 A 3.86 ⚫ ユークリッド距離を用いた2軌跡間の類似度検索法[2] ⚫ 軌跡中の全ての点のペアをユークリッド距離の総和𝐷が 最小になるように決定 得られた報酬関数 経路の生成結果 教師データが存在しない環境でも経路生成が可能 販促物や特設コーナーの配置などフロアマップの 変化が激しい施設における活用可能性 [2]石塚淳, 鈴木優, 川越恭二, “移動軌跡データを対象とした効率的な 類似検索手法”, IEICE Conferences Archives, The Institute of Electronics, Information and Communication Engineers, 2005. ◆逆強化学習:特徴量の選定 ➢ 4つの特徴量を用いる ⚫ 最も近い障害物までの距離:𝑑𝑜𝑏𝑠 ⚫ 最も近い障害物の方向: 𝑎𝑜𝑏𝑠 ⚫ ゴールまでの距離: 𝑑𝑔𝑜𝑎𝑙 ⚫ ゴールの方向: 𝑎𝑔𝑜𝑎𝑙 最適化する指標 ◆強化学習:最適経路の生成 ➢ Q学習 𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾 max 𝑄 𝑠 ′ , 𝑎′ − 𝑄(𝑠, 𝑎)) ′ ある状態における各行動に対する価値を表す Q値は探索により更新される ◆熟練者の操作をサンプルとした逆強化学習による報酬関数の推定および強化学習による経路生成手法を 提案し、検証実験によりその有効性を確認 マップ内の状態を満遍なく探索する必要 ◆逆強化学習により求められたパラメータ𝜽は他のマップ に対しても適用が可能である.新しい環境にお いても少数のサンプルデータから,熟練者が選択するような経路を生成でき,変化が目まぐるしい商業 施設などにおいて目的地までの経路生成に期待 ➢ ε-greedy法:探索率の向上 ➢ 報酬関数は各特徴量の線形和 5.結言 𝑎 探索率εを導入し,現時点でのQ値から決まる 最適行動以外の経路を探索 [1] Brian D Ziebart, Andrew L Maas, J Andrew Bagnell, Anind K Dey, et al., “Maximum entropy inverse reinforcement learning.”, Aaai, Vol. 8, Chicago, IL, USA, pp. 1433–1438, 2008. ◆今後は現実に近い状態行動空間を連続化した環境を採用し、カメラやLiDARのセンサ情報に基づく動的障 害物を考慮した手法の構築と自律走行による走行性能の評価を行っていきたい。