２０２２年度マテリアルズ・インフォマティクス連続セミナー：説明変数重要性、全探索を用いた説明変数重要性

8.2K Views

January 16, 23

#マテリアルズ・インフォマティクス #データ解析学 #セミナー #説明変数重要性 #回帰モデル #機械学習 #マテリアルズインフォマティクス #Permutation importance

スライド概要

マテリアルズ・インフォマティクス連続セミナー第五回
質問への回答：https://www.docswell.com/s/3465680103/Z1P1GK-2023-01-18-152055
ソースコード：https://bitbucket.org/kino_h/python_mi_seminar_2023/src/master/ .
動画：https://youtu.be/afg_2sIG3O8
右側の「ダウンロード」からpdfダウンロード可能。

木野日織

@3465680103

スライド一覧

マテリアルズインフォマティクスチュートリアル

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 75.9K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第三回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナープログラミング大規模言語モデル

木野日織 49.6K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：データ解析学基礎

マテリアルズ・インフォマティクスセミナーデータ解析学基礎機能分解木

木野日織 47.9K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第一回（2023/07/26版）

マテリアルズ・インフォマティクスデータ解析学セミナー回帰

木野日織 47.7K

２０２２年度マテリアルズ・インフォマティクス連続セミナー：ベイズ最適化、推薦システム

マテリアルズ・インフォマティクスデータ解析学ベイズ最適化推薦システム

木野日織 25.7K

（超初心者向け）Orange Data Miningによるマテリアルズ・インフォマティクスハンズオン第二回（仮）

マテリアルズ・インフォマティクスデータ解析学セミナー次元圧縮クラスタリング分類

木野日織 18.8K

各ページのテキスト

２０２２年度マテリアルズ・インフォマティクス連続セミナー第五回木野日織（きのひおり）

今回の内容 130.説明変数重要性 140.モデル全探索による説明変数重要性

130.説明変数重要性

[A]問題背景物理化学思考に慣れているとなぜ（原因）を考えたくなる。教師あり学習での説明変数の“重要性”を「なぜ」と同一視することが多くある。（ただし、相関を見ているので「なぜ」は因果関係としての原因ではない。） 130ではある回帰モデルの説明変数の“重要性”を定量評価する。

[B]説明変数“重要性”の定量評価ここでは回帰モデルとする。モデル生成時に定量評価 1. ランダムフォレスト回帰など決定木回帰モデルのfeature importance 決定木手法のみに存在する評価指標。 2. 線形回帰の係数線形回帰モデルのみで評価可能。回帰係数の大きさだけでなく符号も得られる。モデル学習後に定量評価 3. Permutation importance 回帰モデルによらない。乱数に依存するので複数回評価する。

[C]決定木のfeature importance 1. 決定木は目的変数分布をなるべく大きく分けるようにある説明変数のif文を逐次作成する。 2. 上位のif文に現れる変数の方が重要とする（決定木Aの場合に変数１＞変数２～変数３）ように訓練データから重要性を評価する。 3. 変数重要性の和が１になるよう規格化する。 … 決定木B 決定木A >値1 変数1 >値2 <=値3 変数3 変数2 <=値2 予測値１ <=値1 予測値２ >値3 予測値３予測値４ランダムフォレスト回帰は観測データから（重複する）複数の訓練データを得て（boot strapと呼ばれる）それぞれの決定木（決定木 A,B,C,…)をまず生成します。それら、複数の決定木をまとめて一つの回帰モデルとします。複数の決定木なのに、重要性が低いはずの変数を重要と評価することがあることが知られているので注意が必要です。私も経験したことがあり、極めて稀な場合では無い。

[D]Permutation importance 説明変数２の並びを変える場合。「教師」と直接関連付けた評価値 1. モデルを作成する。 2. 評価指標値(𝐸)を得る。 3. ある説明変数𝑖の並びを変えて（分布を変えずに変更する）評価指標値(𝐸𝑖 )を得る。 4. 評価指標値の減少値をその説明変数の重要性とする。 𝛥𝐸𝑖 = 𝐸 − 𝐸𝑖 （負になりうる。） 5. 乱数依存性を少なくするように3-4を何度も行う。説明変数１説明変数２説明変数３目的変数説明変数１説明変数２ A B B D C A D C 説明変数３目的変数

[E]観測データ希土類コバルト合金の実験磁気相転移温度組成はコバルトは共通で希土類と割合が変わる。 60データインスタンス説明変数周期律表から得られる説明変数 • Z : 希土類元素の原子番号構造に関する説明変数：AtomWorkから結晶構造を取得した後に加工している。 • C_R : 希土類元素の数密度 • C_T : Coの数密度 • vol_per_atom: 原子あたりの体積希土類原子説明変数 • f4, d5: 希土類元素の電子配置 • L4f, S4f, J4f,(g-1)J4f, (2-g)J4f , 元素の角運動量期待値とその射影量目的変数 Tc: Curie temperature （K) AtomWorkの数値では無く、論文から取得し直している。 Sm Gd

[F] 回帰モデルの説明変数の重要性を評価するモデル生成時に重要性を評価するモデル学習後に重要性を評価する決定木のfeature importance 線形回帰モデルの回帰係数 Permutation importrance ランダムフォレスト回帰モデルのfeature importance ランダムフォレスト回帰モデルのpermutation importance カーネル回帰モデルの permutation importance 線形回帰モデルのpermutation importance

10.

11.

12.

13.

[5]

14.

[6]

15.

[7]

16.

[8]

17.

[8]セルの出力

18.

[9]

19.

[10] Default動作のkNeighborsRegression は近傍データインスタンス数点の目的変数値の平均として予測する手法。 RBFカーネルのKernel法と似ているがより簡単な回帰モデル。マイナス！

20.

[11]

21.

[12]

22.

[13]

23.

[G]回帰モデルの簡単な特徴まず、使用した回帰モデルは • Random Forest回帰: 目的変数分布を用いた決定木回帰モデル • Ridge回帰、Lasso: 罰則項がある線型回帰モデル • RBFカーネルのKernel Ridge回帰, K-neightbours回帰: 類似度を用いた回帰モデルそれぞれ特徴がある（考え方が異なる）。

24.

[H]結果解釈（permutation importanceでは平均値のみであるが、）この観測データでは、 • Kernel Ridge回帰モデルは他の回帰モデルと比べて C_Tの重要性が特に低い。 • Ridge回帰モデルは他の回帰モデルと比べて重要性が低い各説明変数の差が小さい。という特徴を持つ。 [13]の出力

25.

[I]結果解釈重要性：構造由来の説明変数のC_R, C_T, vol_per_atomが重要である、のでしょう。回帰モデルにより説明変数の重要性は大きく変わりうるので、説明変数の重要性に関してはどの回帰モデルでの重要性なのかも留意する必要がある。線形回帰モデルでも{𝑥𝑖 }という形でしか評価されない。因果関係としては1/𝑥𝑖 やexp(𝑥𝑖 )かも知れない。説明変数に関数変換を行い、回帰関数の形を直接求める、という研究もある。

26.

[J]（物理的な）結果解釈このスクリプトの結果を解釈すると重要な説明変数は(C_R, C_T, vol_per_atom) --- しかし、希土類元素の違いによらない。 Sm Gd Z方向に大きく変化している構造polytype はあるが、例えば、Ridge回帰の重要性からすると重要性はかなり小さい。それらは、Z,S4f,(g-1)J4f,など

27.

140.モデル全探索による説明変数重要性

28.

[A]問題背景第四段階/“新機能法” 「説明変数から回帰モデルを学習する」過程もこの方式で求めている。例：ハイパーパラメタの最適化

29.

[B]回帰モデル？ ◻ 最良モデルの説明変数の重要性 ☑ モデル集合の説明変数の重要性

30.

[C]説明変数候補の組み合わせ説明変数１説明変数２説明変数３説明変数４説明変数５説明変数６目的変数観測データ説明変数：原理により説明変数が選ばれているわけでない。これらの説明変数は解析者の選択による。罰則項があるRidge回帰では重要性が低い回帰係数の大きさをなるべく同じ値にしようとする。「全ての説明変数を用いずに、幾つかの説明変数だけを用いて回帰モデルを作成する方が予測性能が高い回帰モデルが得られるのではないだろうか。また、回帰モデル全体の集合はどういう構造だろうか。」という問題を愚直に行ってみる。

31.

[D]モデルの組み合わせの数行うこと：多くの説明変数候補から可能な全ての説明変数の組み合わせ(1), (1,3), (1,2,5), … を選び回帰モデルを作成してどの程度妥当な回帰モデルが得られるのかを評価する。一つ選ぶ１２二つ選ぶ３４５１６２三つ選ぶ３４５６１２３４５６ … 𝑛−1 C + C +…+ C = 2 n 1 n 2 n n (1),(2),… n=6の場合 (1,2),(1,3),… (1,2,3,4,5,6)

32.

33.

34.

35.

[5]

36.

[5]セルの出力

37.

38.

[7]

39.

[8]

40.

[9]

41.

[10] マウスでhistgramのbinの値が分かる。

42.

43.

[12]

44.

[13] 説明変数の組み合わせと同時に係数の大きさのlog を可視化している。

45.

[14] （説明変数の組み合わせはよく見えないが、）係数の大きさをlinear scapeで可視化している。

46.

[15] DOS図が必要

47.

[16] DOS図が必要

48.

[17] 説明は後で

49.

[18]

50.

[19]

51.

[20]

52.

[E]結果解釈最も右側のR2のピーク内での(C_R,S_4f,C_T,vol_per_atom)を中心とした解釈 [17]出力 ②C_R, C_T, S4f, vol_per_atom ①C_R, C_T, S4f 説明変数間の（近似的な）共線性：ある説明変数は別の説明変数(s)で代替されうる。最良でなればその分𝑅2 が小さくなる。以下ではモデル集合に対して説明変数の「置換」という見方をする。 ③C_R, S4f , vol_per_atom 最も右側のピーク ①最良モデル集合は(C_R, C_T, S4f)を選択する。 ②vol_per_atomを説明変数に加えると𝑅2 が小さくなるのでvol_per_atomは最良モデル集合とは “矛盾”する。 ③C_Tの効果はvol_per_atom（と他の複数の説明変数）である程度置換できる。その意味でC_R より重要度は低い。

53.

[F]（物理的な）結果解釈このスクリプトの結果を解釈すると～(C_R, C_T) ：希土類によらない変化 Sm Gd この元図の実行スクリプトは 007.100 ～S4f：希土類元素に依存した方向

54.

[G]視点の整理階層クラスタリング（実行スクリプトは007.100）スピン方向角運動量 REに限ると～スピン方向角運動量と関係はある。軌道方向角運動量 Coの数密度マイナスCoの数密度 “磁気体積効果” 構造 Q.原因としてよいか？ A.回帰モデルそのままだと誤っていはいる。演繹的な物理モデルでは、スピン方向角運動量(g-1)J4fとCo の数密度(C_T)に主として依存して欲しいが、類似した説明変数が重要であるとしており、当たらずとも遠からず。（その判断は専門知識がある人にしかできない。）

55.

[H]観測データについて～(C_R, C_T) 1. 実験観測データはなぜZ方向にこんなにガタガタしているのだろうか。組成と構造は合っているのか？ 2. Smは特に研究が進んでTcが高いのでは？ 3. 観測データ数=60では解析には少ない？ C_R, C_T, S4fが重要であると選択されたのは学習されたモデルは偏ったデータ（データバイアス）、そして線形回帰モデルとしての結果かもしれない。 Sm Gd ～S4f 専門知識がある人にとっては、代替モデルを選択したらどうなるのかという整理された説明変数の簡易的な変換結果の参照方法を与えるほうが重要かもしれない・・・。

56.

[I]物理的な原因は求められるのか？ 130.一つの回帰モデルの解析：相対的な“重要性”は回帰モデルにより異なる。 140.回帰モデル集合の解析：交差検定の乱数によっては、異なる説明変数の組が最も妥当な回帰モデルとなりうる。モデル集合の“重要性”は考察の仕方により異なる。 →回帰モデルから物理的な「原因」を考えるのは難しい。

57.

回帰モデル集合の説明変数重要性を得る [J] 各回帰モデルの説明変数重要性と絡める各回帰モデルの使用説明変数を用いる並べて可視化する上位から使用説明変数重要性を並べてHeatmapで可視化する並べて可視化する上位から説明変数重要性を3Dで並べる DOSピーク毎の個々の使用説明変数を並べて可視化する全てのDOSピーク毎の個々の使用説明変数を並べて可視化する上位からヒストグラム毎に説明変数組み合わせを並べて可視化する。最も大きなのDOS ピーク毎の個々の使用説明変数を並べて可視化する定量評価する Relevance analysis で説明変数組み合わせを定量評価する。

58.

今回のセミナーは以上で終了します。