【DL輪読会】AI for Social Good 実データの性質を設定にした研究

1.

DEEP LEARNING JP [DL Papers] 夏のICML読み会：AI for Social Good 実データの性質を設定にした研究 Makoto Kawano (@mkt_kwn), Matsuo Lab. http://deeplearning.jp/

2.

全体のアウトライン • テーマ「AI for Social Good」：ICMLの社会実運用想定のトピックを扱う 1. 河野「実データにおけるラベリングに関する研究」 ü データ周りの制約下に関して取り組む研究を紹介 ü データ効率学習まわり 2. 小川「LLM社会実装時における課題解決研究」 ü LLM自体ではなく，LLM利活用に関する研究を紹介 ü XAI(説明可能性)まわり 3. 謝「Position: On the Societal Impact of Open Foundation Models」 ü 基盤モデルのオープンソース化によって社会にもたされる影響について 2

3.

書誌情報 • 実データを想定した際の3種類の問題設定 § 「ラベルの付与状況に応じた問題設定」 1. 大量の教師ありデータが存在する世界 ü DSDM: Model-Aware Dataset Selection with Datamodels 2. 大量の弱教師ありデータが存在する世界(Partial Label Learning) ü Does Label Smoothing Help Deep Partial Label Learning? 3. 大量の教師なしデータしかない世界 ü Active Statistical Inference 3

4.

DSDM: Model-Aware Dataset Selection with Datamodels Logan Engstrom, Axel Feldmann, Aleksander Mądry MIT ICML2024 spotlight paper 4

5.

背景 • 良い大規模モデルを作るには，”高品質な”データを大量に学習すれば良い？ § 例：GPT-2やDALL-Eなど § ネット上にある大量のデータを収集，利用することで汎化もするし，良さそう 5

6.

背景 • 良い大規模モデルを作るには，”高品質な”データを大量に学習すれば良い？ § 例：GPT-2やDALL-Eなど § ネット上にある大量のデータを収集，利用することで汎化もするし，良さそう • 全てのデータが等しく使えるわけではない § スパムや偽情報，無意味なテキストなど”低品質な”データは取り除いた方が良い § Wikipediaや複数行にわたって書かれた文章だけ使えば良さそう 6

7.

背景 • 良い大規模モデルを作るには，”高品質な”データを大量に学習すれば良い？ § 例：GPT-2やDALL-Eなど § ネット上にある大量のデータを収集，利用することで汎化もするし，良さそう • 全てのデータが等しく使えるわけではない § スパムや偽情報，無意味なテキストなど”低品質な”データは取り除いた方が良い § Wikipediaや複数行にわたって書かれた文章だけ使えば良さそう良質なデータを使えば，性能改善するのだろうか？ 7

8.

DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い 8

9.

DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い目的のタスク，学習アルゴリズム，データプールがある時，モデルの性能を改善するようなデータの選び方を見つけたい 9

10.

DSDMの研究目的 • ”高品質な”データとの類似性にもとづいて選んだデータを使っても低下する § PaLMやGPT-4のような類似ベースのデータ選択はランダム選択よりも性能低い目的のタスク，学習アルゴリズム，データプールがある時，モデルの性能を改善するようなデータの選び方を見つけたいデータを選んで，モデルを学習，評価することは可能だが，全てのデータの組み合わせを検証することは不可能 10

11.

問題設定タスク最適なデータセット選択訓練セットをモデルに写像する学習アルゴリズム𝓐（例：NNのSGD）と，入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は，ただし，ℓ(𝒙; 𝒈)は，データ点𝒙におけるモデル𝒈の損失（クロスエントロピー） 11

12.

問題設定タスク最適なデータセット選択訓練セットをモデルに写像する学習アルゴリズム𝓐（例：NNのSGD）と，入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は，線形回帰やカーネル回帰なら解析的に求まるが，DNNとかは無理ただし，ℓ(𝒙; 𝒈)は，データ点𝒙におけるモデル𝒈の損失（クロスエントロピー） 12

13.

問題設定タスク最適なデータセット選択訓練セットをモデルに写像する学習アルゴリズム𝓐（例：NNのSGD）と，入手可能な集合𝓢の中から𝒌個のターゲットタスク最適なデータセット選択は，線形回帰やカーネル回帰なら Sがわかっていれば，モデル訓練, 𝒙における損失計算は可能解析的に求まるが，DNNとかは無理ただし，ℓ(𝒙; 𝒈)は，データ点𝒙におけるモデル𝒈の損失（クロスエントロピー） |𝓢| を全て扱うのは不可能 𝒌 13

14.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失： 14

15.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失： ü 候補データサブセット𝑆 ⊂ 𝒮が与えられたとき， such that 15

16.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する ü 訓練データのサブセット𝑆を学習したモデルによるデータ点𝑥の損失： ü 候補データサブセット𝑆 ⊂ 𝒮が与えられたとき， such that ü データ点𝑥におけるDatamodel 𝜏!! は， where 16

17.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する ü Datamodelの具体的な実装：線形回帰 17

18.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する ü Datamodelの具体的な実装：線形回帰線型結合のため， 𝜽𝒙 の次元𝒊の値=データ𝒙𝒊 の寄与 18

19.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § Datamodeling[Ilyas+, 2022]を用いて，訓練誤差を近似する線型結合のため， ü Datamodelの具体的な実装：線形回帰 𝜽𝒙 の次元𝒊の値=データ𝒙𝒊 の寄与 1. 全データ𝒟𝒮 から，候補サブセット𝑆" を𝑚個適当にサンプリングする 2. 候補サブセット𝑆" を使って𝑚個のDNN𝒜(𝑆" )を学習する 3. ターゲットタスクの𝑛個のデータ点𝑥# における損失ℒ$ (𝑆)を計算する 4. 教師データ(𝑆" , ℒ$ 𝑆" )を使って，𝜏%! を学習させる 19

20.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って，ターゲットタスクの平均損失を計算する 20

21.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って，ターゲットタスクの平均損失を計算する |𝒮|次元のベクトル 21

22.

提案手法：DSDM（Dataset Selection with Datamodels） • 「訓練モデルの損失を近似し，その近似結果を最小にする部分集合を選ぶ」 § 学習させたDatamodel 𝜏!! を使って，ターゲットタスクの平均損失を計算する 22

23.

実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び，GPT-2を学習させて評価 ü 𝑆 ≈ 217,000,000 ü ベースライン：ターゲットタスクの各データと類似したC4データを利用 23

24.

実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び，GPT-2を学習させて評価選択数が増えるにつれて， ü 𝑆 ≈ 217,000,000 DSDMの精度が下がる ü ベースライン：ターゲットタスクの各データと類似したC4データを利用 24

25.

実験 • 125MパラメータのGPT-2を使って4種類のターゲットタスクで評価 § Colossal Cleaned Common Crawlからデータを選び，GPT-2を学習させて評価選択数が増えるにつれて， ü 𝑆 ≈ 217,000,000 データ類似性で選択しても DSDMの精度が下がるランダムにほぼ勝てない ü ベースライン：ターゲットタスクの各データと類似したC4データを利用 25

26.

実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用 ü LAMBADA, SQuAD, Jeopardyを使って，訓練データを選択 26

27.

実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用ランダムで選ぶのが強い ü LAMBADA, SQuAD, Jeopardyを使って，訓練データを選択 27

28.

実験 • 未知のターゲットタスクでのDSDMの性能も評価 § 取り組むことになるであろう15種類のタスクに類似したターゲットタスクでDSDMを適用ランダムで２倍の学習ランダムで選ぶのが強い ü LAMBADA, SQuAD, Jeopardyを使って，訓練データを選択 =DSDM 28

29.

実験 • 代理のターゲットタスクの選び方による影響も検証 § しっかりと類似したタスクでデータを選べば，性能は改善される § 一方で，無関係のタスクでデータを選ぶと性能は悪化してしまう 29

30.

まとめ • DSDM：ターゲットタスクでの損失を近似することで，データを選択する手法 § 損失ではなく，様々なモデルの挙動を近似することが可能 ü モデルのアライメントや公平性など § 本番モデルより小さいモデルでDatamodelを実現したが，大きくすれば改善が期待できる § 計算コストは，本番モデルに比べれば，Datamodelの学習は安価 ü Appendixで，1回の順伝播・逆伝播の数を基準に計算してる ü 元のDataModel論文でも「40,000 models/day on an 8 × A100 GPU machine m=300,000 CIFAR models and m=150,000 FMoW models」とある 30

31.

Does Label Smoothing Help Deep Partial Label Learning? Xiuwen Gong Nitin Bisht Guandong Xu シドニー大学，香港理工大学 ICML2024 Oral paper 31

32.

背景 • 弱教師あり学習の一つである部分ラベル学習に取り組む § 部分ラベル学習：一つの例に対して複数のラベルが付与されている ü 「正しい」ラベルはその中の一つ § 線形回帰やカーネル回帰ではなく，深層学習での部分ラベル学習は最近のトレンド ü DNNは，一つのデータに対して過剰な確信度を持ってしまう特徴がある § ラベルノイズも一様なものから，非一様な写実的な設定に変わっている ü 真のラベルに高い相関があるノイズがのる 32

33.

背景 • 弱教師あり学習の一つである部分ラベル学習に取り組む § 部分ラベル学習：一つの例に対して複数のラベルが付与されている ü 「正しい」ラベルはその中の一つ § 線形回帰やカーネル回帰ではなく，深層学習での部分ラベル学習は最近のトレンド ü DNNは，一つのデータに対して過剰な確信度を持ってしまう特徴がある § ラベルノイズも一様なものから，非一様な写実的な設定に変わっている ü 真のラベルに高い相関があるノイズがのる写実的なノイズが乗った部分ラベルデータでDNNは学習可能なのか？ 33

34.

研究目的 • ノイズ除去と過剰確信を防ぐラベルスムージングに注目 § ラベルスムージングによって，deep PLL問題を解決することはできるのか？ § 解決できるならば，どういう状況で有効なのか？ 34

35.

研究目的 • ノイズ除去と過剰確信を防ぐラベルスムージングに注目 § ラベルスムージングによって，deep PLL問題を解決することはできるのか？ § 解決できるならば，どういう状況で有効なのか？ Deep PLLに対し，理論的・実験的にラベルスムージングの有効性を示す 1. DeepPLLのためのラベルスムージングを使った期待リスクを提案 2. ラベルノイズを定量化するgeneralized ambiguity degreeを定義 3. LS-PLLアルゴリズムを提案し，実験を実施 35

36.

前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定する 36

37.

前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定するこの研究はこっちのアプローチ 37

38.

前提知識 • PLLの基本的な戦略 § 候補ラベルを平均してそのまま利用 § 真のラベルを特定するこの研究はこっちのアプローチ • ラベルスムージング § 各データ点𝑥について，正解ラベル𝑦のone-hotベクトル𝒚に対するラベルスムージングは § ラベルスムージングレート： 𝑟 ∈ [0, 1]，クラス数: 𝐿 ü 例：𝑟 = 0.4で，𝒚 = 0, 1, 0, 0 "があるとき，𝑦 #$ = 0.1, 0.7, 0.1, 0.1 "となる 38

39.

[beta]

記法
• 部分ラベルデータセット：𝒮 =

𝑥& , 𝑌& ''() = { 𝑥& , 𝑦& ∪ 𝑍& '&()}

• 分布ℙから𝒏個i.i.dでサンプリング
• 各データ点(𝑥& , 𝑌& )：𝑥& ∈ ℝ* ,候補ラベル𝑌& ⊆ 𝒴, 𝒴 = 𝐿 = {1, … , 𝐿}
§ 𝑦% : 𝑥% の真の正解ラベル
§ Z% : false-positiveの候補ラベル

𝑌& = 𝑦& ∪ 𝑍& , 𝑦& ∈ 𝑌& , 𝑍& ⊂ 𝑌& , 𝑦& ∉ 𝑍&

• 𝐗, 𝐘, 𝐘 ∗ , 𝐙: 𝑥& , 𝑌& , 𝑦& , 𝑍& の確率変数
§ 𝐗, 𝐘 ∼ ℙ
§ 𝐗, 𝐘 ∗ ∼ 𝔻
39

40.

部分ラベルのためのスムージング定義：部分ラベルのスムージング (𝑥, 𝑌)を訓練データとし，𝑌は候補ラベル集合となっている．𝐘 ∈ 0, 1 , をL 次元ラベルベクトル，𝐘,- ∈ ℝ, を𝐘 にラベルスムージングをした結果，𝑌,-,/ を𝐘 01 の𝑗次元めの要素とする．𝑦をデータ𝑥の真のラベルだとすると，ラベルをスムージングしたものは，である．ただし，𝕀は指示関数，𝑟はラベルスムージングレート， |𝑌|は候補ラベルサイズである． 40

41.

部分ラベルのためのスムージング定義：部分ラベルのスムージング 𝑟 = 0.2, 𝑦 = 3であるとき， (𝑥, 𝑌)を訓練データとし，𝑌は候補ラベル集合となっている．𝐘 ∈ 0, 1 , をL 2 をスムージングすると， 𝒀 = 0, 1, 1, 0 次元ラベルベクトル，𝐘,- ∈ ℝ, を𝐘 にラベルスムージングをした結果，𝑌,-,/ 𝒀,- = 0, 0.1, 0.9, 0 2となるを𝐘 01 の𝑗次元めの要素とする．𝑦をデータ𝑥の真のラベルだとすると，ラベルをスムージングしたものは，である．ただし，𝕀は指示関数，𝑟はラベルスムージングレート， |𝑌|は候補ラベルサイズである． 41

42.

部分ラベルのためのスムージング定義：ソフトマックス-クロスエントロピー誤差関数任意の訓練データ(𝑥& , 𝑌& )におけるDNN𝑓の予測値を𝐟 𝑥& ∈ ℝ, とし，𝑗次元めの要素を𝑓 / (𝑥& )とすると，ソフトマックス-クロスエントロピー誤差関数は，と表される． 42

43.

部分ラベルのためのスムージング定義：ソフトマックス-クロスエントロピー誤差関数任意の訓練データ(𝑥& , 𝑌& )におけるDNN𝑓の予測値を𝐟 𝑥& ∈ ℝ, とし，𝑗次元めの要素を𝑓 / (𝑥& )とすると，ソフトマックス-クロスエントロピー誤差関数は，と表される． PLLでは，真のラベルは不明のため，直接SCEを利用できない 43

44.

部分ラベルのためのスムージング定義：部分ラベルスムージング損失関数任意の訓練データ(𝑥, 𝑌)において，ラベルスムージングされた部分ラベル学習のためのソフトマックス-クロスエントロピー誤差関数は，と表される． 44

45.

部分ラベルのためのスムージング定義：部分ラベルスムージング損失関数任意の訓練データ(𝑥, 𝑌)において，ラベルスムージングされた部分ラベル学習のためのソフトマックス-クロスエントロピー誤差関数は，と表される．期待リスクは，となる 45

46.

部分ラベルのためのスムージング定理：期待リスクの分解 PLLにおいてスムージングされた 𝒀,- における最小化期待リスクは，綺麗なデータ上の未観測な正解ラベルにおける期待リスクと観測された部分ラベルデータ上の候補ラベル𝐘における期待リスクに分解できる： 46

47.

部分ラベルのためのスムージング定理：期待リスクの分解 PLLにおいてスムージングされた 𝒀,- における最小化期待リスクは，綺麗 𝑟 → 0の時，綺麗なデータでの期待リスクに近似され，なデータ上の未観測な正解ラベルにおける期待リスクと観測された部分 𝑟 → 1の時，観測部分データでの期待リスクに近似されるラベルデータ上の候補ラベル𝐘における期待リスクに分解できる： 47

48.

部分ラベルのためのスムージング定義：PLLにおける⼀般化曖昧度(Generalized Ambiguity Degree) 分布ℙ(𝐗, 𝐘 ∗ , 𝐙)における一般化曖昧度𝜖はと表される． • 𝑍 = 𝑌 ∖ 𝑦, 𝑌 ⊆ 𝒴, 𝑍 ≥ 1とすると， § 𝜖 = 0の時，𝑍 = 𝜙となり，候補ラベル集合には正解クラスのみの多クラス分類になる § 𝜖 = 1の時，𝑍 = 𝒴 ∖ 𝑦となり，全てのクラスが候補ラベル集合に含まれる教師なし学習になる 48

49.

部分ラベルのためのスムージング定義：PLLにおける⼀般化曖昧度(Generalized Ambiguity Degree) 分布ℙ(𝐗, 𝐘 ∗ , 𝐙)における一般化曖昧度𝜖はと表される． • 𝑍 = 𝑌 ∖ 𝑦, 𝑌 ⊆ 𝒴, 𝑍 ≥正解クラスと同時に最も生じやすいクラス確率に一致 1とすると，確率が大きいほど，曖昧度が高い § 𝜖 = 0の時，𝑍 = 𝜙となり，候補ラベル集合には正解クラスのみの多クラス分類になる § 𝜖 = 1の時，𝑍 = 𝒴 ∖ 𝑦となり，全てのクラスが候補ラベル集合に含まれる教師なし学習になる 49

50.

LS-PLLアルゴリズム • モデルの学習と真のラベル推定を交互に行う § ソフトマックスで出力 § 移動平均で𝑞%' を更新 § 更新しても(0,1)に収まるように調整 50

51.

実験 • 擬似的に候補ラベルを付与して，ラベルスムージングの効果検証 § 各データセットでNNを学習させて，真のラベル以外の確率が上位K個のラベルを利用 ü 1個以上，L-1以下で，一つのデータセットでの平均(#CL)に等しくなるように付与 51

52.

実験 • 基本的にスムージングレートは高めの方がうまくいく § 多様体で綺麗に分離できている時が一番精度高い 52

53.

まとめ • DNNにおける部分ラベル学習に対してラベルスムージングを適用する手法 § 期待リスクと一般化曖昧度を導入し，理論的・実験的に有効性を検証 ü 期待リスクのバウンドや推定誤差，最適スムージングレートなどについては省略 § 比較的現実的な問題設定になっており，手法もシンプルで分かりやすい ü 理論面・実験面の両側からバランスよく構成されている ü 大規模化のトレンドに流されすぎず，堅実な印象 53

54.

Active Statistical Inference Tijana Zrnic Emmanuel J. Candès スタンフォード大学 ICML2024 Oral paper 54

55.

背景 • 統計的推論をする際に，機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで，高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい 55

56.

背景 • 統計的推論をする際に，機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで，高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい信頼していいのか？ 56

57.

背景 • 統計的推論をする際に，機械学習モデルをうまく取り入れたい § 予算の都合やデータ収集の手間などのせいで，高品質なデータ収集ができない § データが取れないと計算できない→機械学習モデルの予測結果を使えばいい信頼していいのか？ • 能動学習を参考にした能動推論を行えば良い § モデルが確信しているところはそのまま使って，不確実なところだけデータを集める § もし同じサンプル数ならば，従来の推論よりも小さな信頼区間と強力なp値が得られる 57

58.

問題設定 • 仮説検定や信頼区間形成を行いたい; § 未観測ラベルの分布に依存するパラメータ𝜃 ∗を推論 § 分布ℙ( からi.i.dでサンプルされた𝑋) , 𝑋* , … , 𝑋+ が観測されている ü 対応するラベル𝑌% は未観測 § パラメータ𝜃 ∗は，ℙ( ×ℙ,|( の関数と言える ü 例：サンプル平均(𝑋% に対応したラベル𝑌% の平均𝜃 ∗ = 𝔼[𝑌% ])の信頼区間の形成 § 予算𝑛. 内で一様ランダムな収集よりも推論を改善する𝑛/0. 個のラベル収集をする ü 𝔼 𝑛/0. ≤ 𝑛. ，通常𝑛. ≪ 𝑛 58

59.

問題設定 • 予測モデル𝑓を使って二種類の設定を考える 1. Batch設定：学習済みの𝑓を使って，複数のデータのラベル収集の有無を同時に決定 2. Sequential設定：１データずつラベル収集の有無を決定しつつ，モデルも学習可能 • 能動推論は，全ての凸M推定に適用することが可能 § 全ての推論対象𝜃 ∗は，𝜃に対して凸である損失関数ℓ! を使って，と書ける 59

60.

凸M推定問題の具体例具体例１：ラベル平均損失関数がℓ3 𝑥, 𝑦 = ) 4 𝑦 − 𝜃 4ならば，𝜃 ∗ = 𝔼[𝑌] 具体例2：線形回帰損失関数がℓ3 𝑥, 𝑦 ) = 4 𝑦 − 𝑥 2𝜃 4ならば，𝜃 ∗ は重みパラメータ（効果）具体例3：ラベル分位数 𝑞 ∈ (0,1)に対して損失関数がℓ3 𝑥, 𝑦 = 𝑞 𝑦 − 𝜃 1 𝑦 > 𝜃 + 1 − 𝑞 (𝜃 − 𝑦)1{𝑦 ≤ 𝜃}(ピンボール損失)ならば，𝜃 ∗ = inf{𝜃: ℙ 𝑌 ≤ 𝜃 ≥ 𝑞} 60

61.

統計的推論：ラベル平均 1. 古典的な方法：機械学習を一切使わない § 予算𝑛. が与えられた時，適当にラベル付けを行う 61

62.

統計的推論：ラベル平均 • 機械学習モデル𝒇(𝑿)を使って推論 § サンプリングルール 𝜋: 𝒳 → [0, 1]を設計し，𝑋% に確率𝜋(𝑋% )でラベル𝑌% を付与する ü 𝜋は，𝑓の不確実性を測って定める ü 𝜋(𝑥) ≈ 1：モデル𝑓は𝑥について全く確信がない ü 𝜋 𝑥 ≈ 0：モデル𝑓は𝑥について非常に確信がある § 𝜉% ∼ 𝐵𝑒𝑟𝑛(𝜋 𝑋% )：データ点𝑖のラベルを集めるかどうかのフラグ ü 𝑛/0. = ∑+%1) 𝜉% § 𝔼 𝑛/0. = 𝔼 𝜋 𝑋 ⋅ 𝑛 ≤ 𝑛. を必ず満たすようにルールは設定 62

63.

統計的推論：ラベル平均 • 拡張逆確率重み付け推定量)[Robins+, 1994] (Augmented Inverse Propensity Weighting ; AIPW Estimator § モデルが間違った予測をする傾向スコア(処置確率)の逆数で重みづけ ü もしモデル𝑓が完璧(𝑓 𝑋 ≈ 𝑌)ならば， 63

64.

統計的推論：ラベル平均 • 拡張逆確率重み付け推定量)[Robins+, 1994] (Augmented Inverse Propensity Weighting ; AIPW Estimator § モデルが間違った予測をする傾向スコア(処置確率)の逆数で重みづけ ü もしモデル𝑓が完璧(𝑓 𝑋 ≈ 𝑌)ならば， 𝑛= ≪ 𝑛のため，𝑉𝑎𝑟(𝜃h '>?, ) よりずっと小さい 64

65.

統計的推論：ラベル平均 • サンプリングルール：モデル不確実性𝒖(𝒙)を用いて表現される § 回帰における不確実性 ü 𝑋% から|𝑓 𝑋% − 𝑌% |を予測するように𝑢(𝑥)を学習させる ü Batch設定：すでに過去のデータ X, 𝑌 がたくさんある ü Sequential設定：都度学習させる § 分類における不確実性 ü ソフトマックス出力をそのまま使う 65

66.

実験 • アメリカ大統領選挙後の調査（バッチ設定） § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持：二値変数𝑌% ∈ {0, 1} ü 回答者：年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 66

67.

実験 • アメリカ大統領選挙後の調査（バッチ設定） § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持：二値変数𝑌% ∈ {0, 1} 大きく信頼区間を狭められている ü 回答者：年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 67

68.

実験 • アメリカ大統領選挙後の調査（バッチ設定） § 「バイデン(トランプ)の政治発言に対する人々の支持率」を測定 ü 支持：二値変数𝑌% ∈ {0, 1} 大きく信頼区間を狭められている 70-85%の予算を削っても結果変わらず ü 回答者：年齢/性別/教育/政治的所属などの属性情報をもつ成人国民 ü 属性情報から支持を予測するXGBoostを学習 68

69.

そのほかの実験 • 国勢調査 § 市民権，教育，収入，雇用に関する年次調査 § XGBoostで属性から収入を予測，収入と[年齢|性別]の線形回帰 • AlphaFoldを使ったプロテオミクス研究 § タンパク質の構造によって，リン酸化が変わるかオッズ比で分析 § AlphaFoldのタンパク質構造予測を100%信頼することができない • 選挙後/国勢調査のSequential設定 § データが溜まるたびに，XGBoostをfine-tuningする 69

70.

全体まとめ • データに対するラベルづけの状況に応じた三種類の問題設定を紹介 § 大量のデータから有益なデータを見つける ü DSDM：Datamodelを用いて判断基準を推定する § 一つのデータに(正解を含んだ)複数ラベルが付与された部分ラベル学習 ü LS-PPL：ラベルスムージングを取り入れて学習を可能にする § 大量の教師なしデータから，ラベル付けするデータを選ぶ ü 能動推論：能動学習を参考に，より強力な統計的推論を行う 70

71.

全体まとめ • Oral/Spotlightの中には，まだ他にもデータ周りの設定を扱う論文は多い § 半-弱教師あり学習での研究 § 実験計画法のような，そもそもデータ自体取れない研究 • 下記URLにまとめているので興味ある方はぜひ § https://arc.net/folder/20153736-9D81-4E01-8D5B-16AB14D7F2C9 • こういう実データの設定に興味ある方，是非お声掛けください！ 71

https://arc.net/folder/20153736-9D81-4E01-8D5B-16AB14D7F2C9

【DL輪読会】AI for Social Good 実データの性質を設定にした研究

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト