朝日高キャリア教育講演会_情報系企業研究者の頭の中_公開用

6.3K Views

December 15, 23

スライド概要

高校生向けにAIの概要と研究の話をしました

profile-image

機械学習の技術者/研究者です

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

岡山朝日高校キャリア教育講演会 情報系企業研究者の頭の中 ーなぜ研究が必要なのかー 2023/12/15 谷本 啓 © NEC Corporation 2023

2.

自己紹介: 谷本 啓(たにもと あきら) 人工知能(機械学習)研究者・技術者 at NEC ◆ ’05 朝日高入学 ■ 管弦楽部(Vn.)、ジャグリング同好会(初代会長)、物理オリンピック選手候補生(選抜落ち) ◆ ’08 東京大学 工学部航空宇宙工学工学科 ■ ジェットエンジンの研究、ロボコンサークル制御担当 ◆ ‘12 東京大学大学院 工学系研究科航空宇宙工学専攻 前期博士課程 ■ 小惑星探査機の自律化に向けた画像による航法の研究 ◆ ‘14 NEC入社、データサイエンス研究所 ◆ データ分析:鉄道、人工衛星、小売り、金融、等 ◆ 機械学習研究:学習高速化、転移学習、等 ◆ ’17—’21 京都大学大学院 情報学研究科知能情報学専攻 (社会人博士) ’17—’22 理化学研究所 革新知能統合研究センター 客員研究員 ◆ 意思決定のための機械学習:因果推論、強化学習、小データ学習 ◆ ’21— AI・アナリティクス統括部 ◆ 意思決定のための分析・最適化の事業化 ◆ 因果推論・機械学習に関する研究・執筆・講演 ◆ 一児の父(生後4ヶ月) 2 © NEC Corporation 2023 @tanimoto_akira

3.

最近のAI関係の話題

4.

(対話型)文章生成 ◆ 自然言語でのチャット 4 © NEC Corporation 2023

5.

(対話型)文章生成+α ◆ 自然言語でのチャット ◆ web検索に基づく回答 ◆ プログラミング・データ分析 ◆ (画像生成) 5 © NEC Corporation 2023

6.

画像/動画生成 ◆ 走るモナリザ 出典) MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model 6 © NEC Corporation 2023

7.

ロボティクス応用 7 © NEC Corporation 2023

8.

深層学習による画像認識力の向上 8 © NEC Corporation 2023

9.

深層学習による画像認識力の向上 → 深層学習以後 出典) Application of Deep Learning in Dentistry and Implantology 9 © NEC Corporation 2023

10.

囲碁でAI棋士に人間トップが完敗 (2016, 2017) ◆ 囲碁は可能な局面の数が膨大、人間の直観力が強く信じられていた ◆ しかし 2016年 Lee Sedol氏、2017年 人類最強の柯潔九段が敗北 ◆ 10 © NEC Corporation 2023

11.

⼀旦まとめ 様々な知的処理がAIでできる ようになりつつある 11 © NEC Corporation 2023

12.

人工知能(AI)とは

13.

人工知能(AI) 技術と機械学習技術 →第4次ブーム? (生成AI・ ⽣成 ⽂章、画像、⾳楽・・・ 言語モデル) 認識・理解 ⽂字認識 画像認識(顔認証など) テキスト含意認識など 予測・推論 出典: 松尾豊『人工知能は人間を超えるか』 将来予測 異常予兆検知など 機械学習 ⼈間の学習能⼒をコンピュータで実現する技術(AI技術のひとつ) 分類(カテゴリ予測)ルール発⾒ 回帰(数値予測)ルール発⾒ 将来予測 異常予兆 13 © NEC Corporation 2023 計画・最適化 ・・・ 機械学習技術は他の AI技術(認識・理解ほか) にも使われるように

14.

機械学習 ≒ 微分に基づく近似関数の推定 ◆ 機械「学習」 1. モデル f と、その良さを測る 損失関数 L を決める 2. データ D を入力 入力変数 x ⃗ と予測対象 y を含む 3. L を最小化するように 微分を使って w ⃗ を最適化 4. 最適化したパラメタ w を出力 ◆ ※ ベクトルの微分は要素ごとの微分 14 © NEC Corporation 2023 D ŷ = f(x;⃗ w )⃗ L(y, y)̂ dL dL dŷ = dŷ d w ⃗ dw⃗ dL ⃗ = w old ⃗ −λ w new dw⃗ くり返す

15.

最適化の例(wが1次元) L 15 © NEC Corporation 2023 w

16.

最適化の例(wが2次元) L w1 16 © NEC Corporation 2023 w2

17.

最適化の例(wが2次元)上から見た図 w2 17 © NEC Corporation 2023 w1

18.

モデル f(x; w) の例:多層パーセプトロン ◆ モデルの形は用途によって様々 ◆ いくつかの典型的な形がある ◆ 深層学習はベクトル入力ベクトル 出力の関数(”層”)を多数重ねた モデル ◆ 各要素は入力ベクトル u と、辺ごと x1 x2 ŷ x3 のパラメタ w の内積を計算し、 ◆ その後何らかの非線形関数 σ を通し て次の層へ出力 ■ σ(v) = max(0,v) など -5 18 © NEC Corporation 2023 0 5 u1 w1 w2 u2 w 3 u3 “層” v= ∑ i wiui σ(v) σ(v) σ(v)

19.

多層パーセプトロンの学習 A Neural Network Playground 19 © NEC Corporation 2023

20.

画像生成も予測(ある意味では・・・) 出典) Denoising Diffusion Probabilistic Models (Ho+ NeurIPS’20) ◆ 画像に正規分布ノイズを少しずつ乗せていく過程を xt → xt+1 とする ■ 多数回(1000回くらい)ノイズを乗せると完全なノイズ分布に ◆ xt+1 に乗っているノイズを予測して引くと xt になるはず ◆ ガウス分布からノイズをサンプリングし、ノイズを順次予測して引くと画 像になる ■ 出てくる画像を自然言語で指定するのはまた別の話 20 © NEC Corporation 2023

21.

文章生成も予測(ある意味では・・・) Transformer f(x; w) 今日 は いい 天気 な ので 数学 物理 音楽 遊び ・・・ 80% 10% 5% 3% ◆ 1単語ずつ逐次的に予測して文章を作っていく ◆ 単語列を入力し、次の単語を予測する Transformer というモデル ◆ web上の多数の文章で学習 ◆ (チャット応答としての望ましさを上げるための追加学習) 21 © NEC Corporation 2023 f(x; w)

22.

⼀旦まとめ AIは予測器。そのモデルの パラメタをいい感じにする のが機械学習 22 © NEC Corporation 2023

23.

谷本の仕事:品揃え最適化のケース

24.

小売り店舗(コンビニ/自販機)品揃え最適化 その店で売れる商品を品揃えしたい ◆ 目的:隠れた売れ筋商品の機会損失を最小化 ◆ 仮説:似ている店舗は売れ筋が似るはず ◆ 現状:①類似店舗をグループ化 みにくいアヒルの子の定理 ②グループ内の売れ筋を推薦 が売れてる! ロードサイド店 駅前店 マジか! 置こう → 売上UP ◆ 実際:グループが非自明で属人的 出典) AI・機械学習の用語辞典 - @IT ⼩売チェーン 分析部⾨ 24 © NEC Corporation 2023 何を基準にグルーピングすれば よい? 売上?場所?客層?

25.

小売り店舗(コンビニ/自販機)品揃え最適化 その店で売れる商品を品揃えしたい ◆ 目的:隠れた売れ筋商品の機会損失を最小化 ◆ 仮説:似ている店舗は売れ筋が似るはず ◆ 現状:①類似店舗をグループ化 ②グループ内の売れ筋を推薦 が売れてる! ロードサイド店 駅前店 マジか! 置こう 25 © NEC Corporation 2023 最大化したい量を直接モデル化 1. 売上 y ≃ f (̂ 店舗 x, 品揃え a) となる f ̂ を過去データから学習 2. 予測売上を最⼤化する品揃えを実⾏ 隠れ特性1 → 売上UP 隠れ特性2 学習 9 -4 3 8 7 2 -7 -2 2 ◆ 実際:グループが非自明で属人的 ⼩売チェーン 分析部⾨ ◆ 提案:売上自体から店舗/商品特性を分析 何を基準にグルーピングすれば よい? 売上?場所?客層? 3 12 -3 A 107 -3 8 B 49 10 -1 C 103 2 -3 D ‒ … 4 ‒ 77 48 ‒ 6 … 122 ‒ ‒ ‒ 102 47 ‒

26.

品揃えによる売上予測AI 商品・店舗の特性を低次元のベクトルとして、売上をその内積で表現 ◆ 店舗や商品の特性をベクトルで表現 a⃗ 梅おにぎり 隠れ特性1 隠れ特性2 b⃗ 朝日高校前店 9 -4 3 8 7 2 -7 -2 2 3 12 -3 A 107 -3 8 B 49 10 -1 C 103 2 -3 D ‒ … ‒ 4 77 48 ‒ 6 … 122 ‒ ‒ ‒ 102 47 b⃗ 朝日高校前店 ⋅ a ⃗ 梅おにぎり ‒ 予測売上 ◆ 店舗と商品の相性の良さを内積で表現 投影のみ ◆ かなり高精度な売上予測モデルができた 実績売上 26 © NEC Corporation 2023

27.

理論(机上評価)と実地評価の乖離 机上評価は非常に楽観的に出てしまう ◆ 実際のデータで机上評価(データを分割し、テスト用モデルで評価) 2. 約 均 平 !? 5倍 店舗売上 (評価モデルによる) ■ 品揃えを変えるだけで売上が2.5倍に増える!? 0 投影のみ 店舗 ID ◆ 自動販売機100台で実際にやってみた ■ 27 最大4商品の入れ替えで売上 © NEC Corporation 2023 15% 向上予想 → 実際は 2% 向上 😭 ・予測型最適化 (店舗-商品相性考慮) ・人気商品品揃え ・商品変更なし売上予測 ・実績売上

28.

何が起きているのか 予測値 f(x: 店舗情報, a: 品揃え) が良くなるように入力 a を最適化→分布がずれる ◆ 予測に基づいて良さそうな行動(品揃え)を選択している ̂ a) ̂ a = arg max f(x, ■ a (予測売上 ̂ a) を最大化するaを返す ) f(x, • x: 店舗情報, a: 品揃え行動 ◆ →入力変数の分布が変化している! ■ 過去のデータ分布上で精度が良くても ■ 最適化後の分布上で精度がよいとは限らない ◆ 例) おにぎりを多く品揃えするほど売れる ■ → おにぎりばかり品揃えしよう! ■ 実は大きい店舗だから置けてるだけかも? 28 © NEC Corporation 2023

29.

問い「後段の意思決定(最適化)に耐えうるモデルを学習するには?」 予測モデルと行動の最適化は鶏と卵? ◆ 直観:最適化した先に近いデータに重みを付けて学習すれば良いのでは ◆ しかし、最適化にはモデルが必要、モデルの学習には最適化先が必要? 分布重み モデル f 予測最適行動 a ̂ 予測評価 ◆ そもそも最適化した先の精度がよければいいのか? ◆ そもそも最適化に予測精度が必ず必要なのか? 29 © NEC Corporation 2023

30.

⼀旦まとめ 品揃えによる売上予測 しかし最適化すると分布外へ 最適化に資する学習とは? 30 © NEC Corporation 2023

31.

巨人の肩に乗る:因果推論と意思決定

32.

因果推論の動機:シンプソンのパラドックス 相関は因果を含意しない ◆ 「運動する人ほど健康でない」 代 0 2 ◆ 基本的対処:交絡因子で層別 “交絡因子” = 行動と結果の両方に 健康度 ⇏ 「運動すると健康でなくなる」 30 代 50 影響を与える変数(群) 運動 a ◆ x 代 代 0 6 年齢 y コレステ ロール p(a | x) が偏っているのが問題 ◆ 因果推論=全ての行動に対して 平均的に高精度な予測器学習法 32 代 0 4 © NEC Corporation 2023 運動習慣 [時間/週] Simpson's paradox - Wikipedia

33.

疑問 (全ての行動に対する)予測精度が必要なのか? ◆ 最適化先の分布で精度が良ければ良いのでは? ■ これはこれで鶏と卵 ◆ しかし、悪い行動は悪いと予測できる必要がある ■ 最適化で真に良い行動が正しく選ばれるためには、 ■ よくない行動が正しく「良くない」と予測される必要もあるのでは 33 © NEC Corporation 2023

34.

問題の定式化 モデルの性能を、それに基づく意思決定の良さで定義 ◆ 予測モデル ̂ a) が与えられたときの確率的意思決定法を定義 f(x, ■ 予測上位 k 個の行動をランダムに選ぶことを考える • p f (a ̂ | x) = 1 if a が予測上位 k 位以内のとき k 0 otherwise , 予測上位k位の行動を ak̂ と書く ■ 真のモデルを f, 真の上位k位の行動を a* k ◆ 意思決定結果の良さ(悪さ)を定義 1 ̂ Regretk( f ) = f(x, a* ) − f(x, aî )} { i ■ k∑ i≤k 真のi位の 真の良さ 34 © NEC Corporation 2023 予想i位の 真の良さ

35.

理論解析 観測できない「後悔」の量を観測できる量で上から抑える→損失関数に 1 ̂ Regretk( f ) = f(x, a* ) − f(x, aî )} { i ∑ ◆ k i≤k ◆ 以下の書き方を定義 ■ 1-hotベクトル 1⃗a = (⋯,0, 1 ⏟ ,0,⋯) a番目 ̂ = p*⃗ − p⃗̂ ⋅ f ⃗ と書ける Regret ( f ) k ◆ ( ) ̂ ⋅ ⃗ − p⃗) ◆ ところで定義から (p* ◆ ∴ ̂ ⋅ f ⃗ − (p*⃗ − p⃗) ̂ ⋅ f⃗ ̂ Regretk( f )̂ ≤ (p*⃗ − p⃗) ̂ ⋅ = (p*⃗ − p⃗) 1 ⃗ 1⃗aî , 選択確率ベクトル p̂ = ■ k∑ i≤k 1 ⃗ = 1⃗a*i 真の最善選択確率ベクトル p* ■ k∑ i≤k コーシー・ シュワルツ → の不等式 ̂ ≤ (p*⃗ − p⃗) ■ 出力ベクトル f ⃗ = ( f(x, a = 1), f(x, a = 2), ⋯) 35 © NEC Corporation 2023 f⃗ ̂ ≤ 0 → 判別誤差か予測精度のどちらかが良ければOK 判別精度 上位 k 位以内 かどうかの 判別誤差率 f ⃗− f⃗ ̂ ( ) f ⃗− f⃗ ̂ ( ) 予測精度 全ての a に対する 二乗誤差の二乗根

36.

実験 実際のデータで良さを検証 表 1 半人工データ実験における最終的な意思決定のパフォーマンス及び回帰予測精度,判別精度の結果.訓練/テストデータの分 割に関して 10 回試行した際の平均と標準誤差を示した.各設定及び指標において最高の結果を太字,次点を下線付きで示した. 意思決定の良さ 予測精度 判別精度 ! (π 正規化プラグインポリシー価値 V k=1 ) f |A| Method 36 ± 0.15 RMNet 0.68 ± 0.01 ± 0.08 ± 0.04 ± 0.13 ± 0.05 ± 0.09 ± 0.06 ± 0.07 −0.08 0.33 0.39 0.13 0.48 0.25 0.39 0.29 ± 0.20 0.61 ± 0.05 ± 0.07 ± 0.04 ± 0.13 ± 0.06 ± 0.10 ± 0.14 ± 0.09 −0.10 0.33 0.33 0.13 0.30 0.32 0.39 0.38 ± 0.13 0.61 ± 0.04 ± 0.05 ± 0.04 ± 0.10 ± 0.07 ± 0.07 ± 0.10 ± 0.06 −0.01 0.38 0.39 0.04 0.37 0.45 0.35 0.45 ± 0.10 0.51 ± 0.06 ± 0.05 ± 0.02 ± 0.09 ± 0.05 ± 0.05 ± 0.05 ± 0.05 8 1.12 1.03 0.59 1.06 0.78 0.75 0.78 6.08 1.89 0.87 0.64 1.05 0.83 0.64 0.80 10.13 1.70 0.93 0.64 1.15 0.82 0.74 0.87 8.47 0.76 0.81 0.85 64 8 16 32 64 5.86 1.07 0.63 1.63 0.84 0.74 0.86 2.42 0.221 0.214 0.211 0.222 0.211 0.212 0.210 0.210 0.116 0.114 0.113 0.116 0.113 0.114 0.113 0.113 0.061 0.059 0.059 0.060 0.059 0.059 0.058 0.058 0.031 0.030 0.030 0.031 0.030 0.029 0.030 0.029 0.204 0.109 0.055 0.029 0.75 → →→ ◆ −0.04 0.24 0.35 −0.05 0.40 0.28 0.50 0.35 64 → ◆ OLS RF kNN BART Multi-head DNN Single-head DNN CFRNet RankNet 32 ERuk=1 → 提案手法 16 → →→ 既存の 因果推論 手法 8 MSEu 16 32 Regret Minimization for Causal Inference on Large Treatment Space (Tanimoto+ AISTATS '21) ods, considerations, and applications in the journal of 表 2 アブレーション. thoracic and cardiovascular surgery. The Journal of f ! (π 正規化プラグインポリシー価値 V k=1 ) thoracic and cardiovascular surgery, Vol. 150, No. 1, Synthetic Semi-synthetic 良い予測精度と判別精度を組み合わせた損失関数を使って学習することで意思決定が改善 pp. 14–19, 2015. IPM MSE ER Bilinear |A| = 32 |A| = 64 [6] Cedric Nugteren and Valeriu Codreanu. Cltune: A †! ! ! 0.77 ± 0.04 0.61 ± 0.04 0.51 ± 0.06 特に、予測精度では既存手法の方が良くても意思決定の良さは判別精度との関連が強い generic auto-tuner for opencl kernels. In Embed! — ! 0.73 ± 0.03 0.61 ± 0.05 0.58 ± 0.05 ded Multicore/Many-core Systems-on-Chip (MCSoC), ! ! — 0.55 ± 0.10 0.55 ± 0.05 0.49 ± 0.05 — ! ! 0.72 ± 0.03 0.39 ± 0.07 0.49 ± 0.06 2015 IEEE 9th International Symposium on, pp. 195– 202. IEEE, 2015. [7] Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. Bpr: Bayesian person©5 NEC Corporation まとめ2023 alized ranking from implicit feedback. In Proceedings

37.

⼀旦まとめ 意思決定に資する学習として 因果推論は⼗分ではあるが 必要ではなかった⇒新⼿法 37 © NEC Corporation 2023

38.

まとめ AIと研究は面白い ◆ 大ざっぱには昨今のAI ≒ 機械学習 ≒ 予測 ◆ 意思決定には因果関係の考慮が重要 ◆ 意思決定の良さと因果推論的な予測精度を接続した ■ ついでに新しい因果推論手法ができた ◆ 応用も一寸先は研究領域 ■ 研究力 ⇔ 典型的な問題以外にも(時間をかければ)対応できる柔軟さ ◆ AIは確率論とベクトルとその先の線形代数がメチャ大事 38 © NEC Corporation 2023

39.

FAQ ◆ 博士をとるメリット ■ 仕事の幅が広がる • 書籍執筆や講演の依頼が来たり、転職の誘いも増えた • 大学教員になれる免許 ■ 専門性がつく • AIに代替されにくい替えのきかない人材になる(?) ■ 新しい専門性を身につける力と自信と覚悟がつく ◆ 博士は大変?→大変 ◆ AIに真似できない人間固有の(知的)能力とは?→無い(と思ってやってる) ◆ AI / 情報学は難しい? ■ → 難しいが、いろんな関わり方があるし、ニーズは高まり続けているのでおすすめ ◆ 女性は少ない?→海外では2割くらい女性(日本では1割くらい?) ■ 人材不足なので育休等取りやすくホワイトがち 39 © NEC Corporation 2023