3.7K Views
May 24, 23
スライド概要
圧縮センシング(スパース信号復元)は劣決定系の線形逆問題においてスパースな解を一意に決定するという数学的な枠組みのことである.圧縮センシングアルゴリズムに機械学習を取り入れてパラメータ学習を行う深層展開という手法がある.本研究では教師あり学習と教師なし学習によってどのような学習結果の違いがあるかについて比較を行う.
大阪大学大学院 基礎工学研究科 システム創成専攻 飯國研究室所属 修士2年 主に機械学習・深層学習に興味あり
スパース信号復元に対する 深層展開における教師あり学習 と教師なし学習の比較 大阪大学大学院基礎工学研究科 ○長久紘士, 早川諒, 飯國洋二 Nagahisa Koshi, Ryo Hayakawa, Iiguni Youji Graduate School of Engineering Science, Osaka University
研究背景|圧縮センシング[1] 2/13 スパースな(ほとんどの成分が0の)信号𝒙∗ ∈ ℝ𝑛 を 少ない観測データ 𝒚 = 𝑨𝒙∗ + 𝒘 ∈ ℝ𝑚 (𝑚 < 𝑛)から推定 応用例: MRI画像再構成[2] (Magnetic Resonance Imaging) [1] D. L. Donoho, "Compressed sensing," IEEE Transactions on Information Theory, vol. 52, no. 4, pp. 1289-1306, April 2006, doi: 10.1109/TIT.2006.871582. [2] M. Lustig, D. L. Donoho, J. M. Santos and J. M. Pauly, "Compressed Sensing MRI," IEEE Signal Processing Magazine, vol. 25, no. 2, pp. 72-82, March 2008, doi: 10.1109/MSP.2007.914728 .
研究背景|圧縮センシングの最適化問題 ෝ = argmin 𝒙 𝒙 ∈ ℝ𝑛 1 𝒚 − 𝑨𝒙 2 観測との誤差 𝟐 𝟐 𝒚∈ℝ𝑚 𝑨 ∈ ℝ 𝑚×𝑛 𝒙 ∈ℝ𝑛 𝑚<𝑛 + 𝜆𝑃 𝒙 正則化 : 𝒙に対する事前情報 𝜆 > 0:正則化係数 𝑃 𝒙 は解のスパース性が高いと小さくなるような関数が良い 例) 3/13 𝒙 1 (ℓ1 ノルム):成分の絶対値の総和 𝒙 0 (ℓ0 ノルム):非零成分の個数 など
研究背景 | 近接勾配法[3] 4/13 正則化項が微分可能ではなくなる→近接勾配法によって最適解を得る 初期値:𝒙(0) =𝟎 ステップサイズ:0 < 𝛼 ≤ 1 𝜆𝑚𝑎𝑥 (𝑨⊤ 𝑨) 𝒓(𝑡) = 𝒙(𝑡) − 𝛼𝑨⊤ 𝑨𝒙(𝑡) − 𝒚 𝒙(𝑡+1) = prox𝛼𝜆𝑃 𝒓 𝑡 , 𝑡 = 0,1, … 関数𝑓に対する近接写像: 1 prox𝑓 (𝒓) = argmin ቊ𝑓 𝒖 + 𝒖 − 𝒓 22 ቋ 2 𝒖∈ℝ𝑛 [3] G. B. Passty, “Ergodic convergence to a zero of the sum of monotone operators in Hilbert space,” Journal of Mathematical Analysis and Applications, 72, pp. 383–390, 1979.
研究背景 | 近接勾配法 5/13 どのノルムを正則化項に使うかでアルゴリズムが異なる 実験的にℓ0 ノルムを使う方が推定精度が良い場合がある [4] Daubechies, Ingrid, Michel Defrise, and Christine De Mol. “An iterative thresholding algorithm for linear inverse problems with a sparsity constraint.“ Communications on Pure and Applied Mathematics: A Journal Issued by the Courant Institute of Mathematical Sciences 57.11 (2004): 1413-1457. [5] Blumensath, Thomas, and Mike E. Davies. “Iterative hard thresholding for compressed sensing.” Applied and computational harmonic analysis 27.3 (2009): 265-274.
研究背景 | 深層展開[6] 6/13 パラメータの設定値はアルゴリズムの推定精度・収束速度に影響を与える 深層展開:反復アルゴリズムを展開して,深層学習技術を用いて 各反復のパラメータ𝛼 0 , 𝛼 1 , … を適切に学習 入力 ∶𝒚 出力 : 入力 : A B ෝ 𝒙 𝒚 A B C …A B C 損失関数 C ෝ 出力 : 𝒙 学習パラメータ:𝛼 (𝑡) [6]K. Gregor and Y. LeCun, “Learning fast approximations of sparse coding,” in Proc. the 27th International Conference on International Conference on Machine Learning, Jun. 2010, pp. 399–406.
研究目的 7/13 損失関数の設計次第で教師あり学習[7]と教師なし学習[8]を実行可能 ∗ ෝ 𝒙 −𝒙 2 2 推定値ෝ 𝒙を真値𝒙∗ に近く する 1 𝒚𝑖 − 𝑨ෝ 𝒙 2 2 2 + 𝜆𝑷(ෝ 𝒙) 目的関数に推定値ෝ 𝒙を代入 した値を小さくする 真値を用意できる場合に,それぞれの学習結果にどのような 傾向の違いがあるか明らかになっていない 教師あり・なし学習の学習結果を比較し,それぞれの特性を明らかにする [7] D. Ito, S. Takabe, and T. Wadayama, “Trainable ista for sparse signal recovery,” IEEE Transactions on Signal Processing, vol. 67, no. 12, pp.3113–3125, 2019 [8] Ablin, Pierre, et al. “Learning step sizes for unfolded sparse coding.” Advances in Neural Information Processing Systems 32 (2019).
実験|シミュレーション設定 8/13 原信号:𝒙∗ ∈ ℝ𝑛 の非零成分~𝑁 0,1 観測雑音:𝒘 ∈ ℝ𝑚 ~𝑁 0, 𝜎 2 (信号対雑音比 10dB) 観測行列:𝑨 ∈ ℝ𝑚×𝑛 ~𝑁 0,1 設定値:𝑚 = 75,𝑛 = 150,𝒙∗ の非零成分の割合:𝑝 = 0.08 学習パラメータ:ステップサイズ: 𝛼 (𝑡) (𝑡 = 0,1, … 𝑇 − 1) 初期値: 𝒙(0) = 𝟎,𝛼 (𝑡) = 0.0001 (𝑡 = 0,1, … 𝑇 − 1) 実験の流れ 1. ISTA(凸最適化)とIHT(非凸最適化)にそれぞれ深層展開を適用 2. 教師あり学習と教師なし学習を実行 3. 得られたパラメータを使ってスパース信号推定 ←評価
1 𝛼= 𝜆𝑚𝑎𝑥 (𝐴⊤ 𝐴) 目的関数の値 推定精度(平均二乗誤差) 結果|ISTA(凸最適化)における比較 (𝜆 = 10) 9/13 教師あり学習ISTAは最終的な精度は良いが, 目的関数を小さくすることを優先していない 教師なし学習ISTAはステップサイズ固定のISTAの解に高速に収束
結果|学習されたステップサイズ(ISTA) 10/13 緑の破線:実際の上限 1 𝛼 = 2.14 × 𝐿 黒の実線:収束条件の上限値 1 𝛼 = (𝐿 = 𝜆𝑚𝑎𝑥 (𝐴⊤ 𝐴)) 𝐿 教師あり学習ISTAのステップサイズは最初に大きい値をとって, 後はとても小さい値をとる 教師なし学習ISTAのステップサイズは実際の上限値を超えたり 引っ込んだりを繰り返す
𝛼= 1 𝜆𝑚𝑎𝑥 (𝐴⊤ 𝐴) 11/13 目的関数の値 推定精度(平均二乗誤差) 結果|IHT(非凸最適化)における比較 (𝜆 = 3) 教師あり学習IHTと教師なし学習IHTはステップサイズ固定のIHTより 精度の良い局所解へ収束しており,特性の違いはほとんど無い IHTでは教師なし学習でも良い特性を示す
付録|学習されたステップサイズ(IHT) 12/13 黒の実線:収束条件の上限値 1 𝛼 = (𝐿 = 𝜆𝑚𝑎𝑥 (𝐴⊤ 𝐴)) 𝐿 教師あり学習IHTと教師なし学習IHTのステップサイズは 似たような傾向がある
結論 13/13 まとめ 比較実験結果まとめ 教師あり学習 教師なし学習 推定精度 収束速度 推定精度 収束速度 ISTAベース 改善 変化なし ISTAの解 に収束 改善 IHTベース 改善 変化なし 改善 変化なし IHTの場合,教師なし学習でも教師あり学習と同程度の特性を示す 今後の課題 ℓ𝑝 ノルム(0 < 𝑝 < 1)を正則化項として用いた場合の比較実験
付録|ISTAによる信号推定(𝜆 = 10) 推定の結果:左図(原信号と教師あり学習ISTAによる推定) 右図(原信号と教師なし学習ISTAによる推定) 教師あり学習ISTAの方がわずかに精度が良い 14/13
付録|IHTによる信号推定(𝜆 = 3) 推定結果:左図(原信号と教師あり学習IHTによる推定) 右図(原信号と教師なし学習IHTによる推定) 両者の推定解にほとんど違いはない 15/13
付録 | ノルムによる最適解の違い 16/13 例)2次元で𝑙𝑝 正則化を行ったときの解の推定 𝑝=0 𝑝 = 0.5 𝑝=1 𝑝=2 𝑝 = 0, 0.5, 1は「尖っている」ので解は軸上にきやすい →よりスパースな解を得る 𝑝 = 0, 0.5は「窪んでいる」ので解が軸上にきやすい →ℓ𝑝 ノルム(0 ≤ 𝑝 < 1)はスパースな解を得やすいが, 非凸関数である