Confidence Learning

133 Views

September 25, 23

スライド概要

https://arxiv.org/abs/1911.00068
以上の論文からです。

野中賢也

@6031295630

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

voyager_presentation

野中賢也 1.2K

in-context-learn-from-baysian-point-of-view

野中賢也 1.1K

word_rotator's_distance

野中賢也 0.9K

Deep reinforcement learning from human feedback

野中賢也 463

active clean slide

野中賢也 196

ヘフティングの不等式からデータセットのサイズ算出

野中賢也 180

各ページのテキスト

教師あり学習で使用される現実のデータセット →多くの誤りが含まれることが報告されている。・ベンチマークデータの誤りラベル集・https://labelerrors.com/ ・AIの基盤となるデータに「ラベル付けの間違い」が蔓延、その影響の深刻度・https://wired.jp/2021/05/10/foundations-ai-riddled-errors/ ・アノテーションの作業が低賃金->アノテーターモチベーションも低い CIFAR-10 given label: cat Cleanlab guessed: frog MTurk consensus: frog ID: 2405

どの学習データセットが誤ってラベリングされているのか？・従来手法(model - centric) ・ラベル誤りが含まれるデータがある中で、どうやって上手くモデルを学習させるか？・本手法(data-centric) ・データセットから、ラベル誤りを検出して、修正し、綺麗なデータセットで学習

仮定：ラベル誤りは、真の教師ラベルに依存する。 (特徴量Xは無視することができる。) p(ỹ|X, y*) = p(ỹ|y*) y* 真のラベル「犬」 X ỹ 誤りラベル「オオカミ」 ⇒ p(ỹ|y*) 真のラベルがy*のとき、どの誤りラベルがどのくらい起こりうるのか。

要するに、真のラベルと誤りを含む観測ラベルの関係性を知りたい =行列として把握できる。 ⇒ p(ỹ|y*) 真のラベルがy*のとき、どの誤りラベルがどのくらい起こりうるのか。 y* 犬 ỹ オオカミ 0.3 真のラベルが「犬」のとき3割ぐらいオオカミになる

観察された(誤りを含む)ラベルと真のラベルの同時分布を推定し、どのデータが誤ってラベル付けされているかを検出することである。 m 予測結果 n 要素はクラスの所属確率 C 犬猫オオカミ Observed 犬 100 5 25 猫 10 200 1 オオカミ 30 2 50 true Q 犬猫オオカミ Observed 犬 0.23 0.01 0.05 猫 0.02 0.47 0.00 オオカミ 0.07 0.00 0.11 true 正規化

提案手法は、大きく3つのステップに分けられる。・Step1: 同時分布を推定・Step2: ラベル誤りを検出・Step3: 誤りラベルを削除し、学習

Step1: 同時分布の推定①Confident Jointの算出・予測結果及び観測ラベルから、Confident Jointを算出したい。・真のラベルがわからないため、これをどうやって推定するかが鍵 X Predict Observe True x1 0.5 0.3 0.2 犬犬 x2 0.1 0.4 0.5 猫猫 x3 0.2 0.7 0.1 オオカミ犬 : : : xn-1 0.5 0.4 0.1 犬オオカミ xn 0.3 0.3 0.3 猫猫 Count Observed 犬猫オオカミ犬 100 5 25 猫 10 200 1 オオカミ 30 2 50 true

Step1: 同時分布の推定①Confident Jointの算出・素朴な方法(従来手法)=予測確率が一番大きいものを「真のラベル」とみなし、カウントしていく。 ŷk = arg maxj∈[m] p(ỹ=j; xk, θ) X Predict Observe True x1 0.5 0.3 0.2 犬犬 x2 0.1 0.4 0.5 猫猫 x3 0.2 0.7 0.1 オオカミオオカミ : : : xn-1 0.5 0.4 0.1 犬犬 xn 0.3 0.3 0.3 猫オオカミ

Step1: 同時分布の推定①Confident Jointの算出・素朴な方法では、Over Confidenceの問題に対処できない・モデルの予測確率が「確率値」ではなく、正解を当てるためのスコアとしかみなせなくなっている状態・クラスごとにOver Confidenceしていることを仮定している？？

10.

Step1: 同時分布の推定①Confident Jointの算出・クラスごとに閾値を設けて、その中で予測確率が最も高いモノを「真のラベル」とする。 X Predict Observe x1 0.5 0.3 0.2 犬 x2 0.1 0.4 0.5 猫 x3 0.2 0.7 0.1 オオカミ : : : xn-1 0.5 0.4 0.1 犬 xn 0.3 0.3 0.3 猫平均th 0.7 0.4 0.3 犬オオカミ猫 th 0.7 0.4 0.5 xℓ 0.6 0.5 0.4 xℓ+1 0.8 0.2 0.6 xℓ+2 0.8 0.9 0.4

11.

Step1: 同時分布の推定②Confident Jointから同時分布を推定する。・Confident Jointが与えられれば、全体の和で各要素を割ることで正規化して同時分布を推定できる犬猫オオカミ犬 100 5 25 猫 10 200 1 オオカミ 30 2 50 Q Observed 犬猫オオカミ犬 0.23 0.01 0.05 猫 0.02 0.47 0.00 オオカミ 0.07 0.00 0.11 true ・論文では、各行の和が観察サンプル数に一致するように前処理をしてから正規化している。

12.

Step2: 誤りラベルの検出、アプローチ①Confident Joint非対角成分の使用・真のラベル(と推定されたモノ)と観察ラベルが異なるものを誤りのラベルとみなす方法 X Predict Observe True x1 0.5 0.3 0.2 犬犬 x2 0.1 0.4 0.5 猫猫 x3 0.2 0.7 0.1 オオカミオオカミ : : : xn-1 0.5 0.4 0.1 犬犬 xn 0.3 0.3 0.3 猫オオカミこれが誤り犬猫オオカミ犬 100 5 25 猫 10 200 1 オオカミ 30 2 50 tra

13.

Step2: 誤りラベルの検出、アプローチ②同時分布の使用・推定された同時分布に観察サンプル数をかけて、どのクラス(あるいは要素)がどれぐらい除外されれば良いのかをしる。 Observed 犬猫オオカミ犬 0.23 0.01 0.05 猫 0.02 0.47 0.00 オオカミ 0.07 0.00 0.11 ×n 犬猫オオカミ犬 70 10 20 猫 20 180 5 オオカミ 25 7 55 「犬」が真のラベルで観察されたのがオオカミの55で、25サンプル取り除かれるべき

14.

Step2: 誤りラベルの検出、アプローチ②同時分布の使用・予測結果を用いて、どのサンプルが取り除かれるべきかを知る。真=犬観察=オオカミのサンプル群犬オオカミ xℓ 0.7 0.3 xℓ+1 0.5 0.4 xℓ+2 0.8 0.1 : ランキング xℓ+1 0.1 xℓ 0.4 上位25個で切る。 xℓ+2 0.7

15.

Step3: 誤りラベルを削除し、学習させる。元のデータセット Step 1.2 model re-training