【DL輪読会】In-Context Unlearning: Language Models as Few Shot Unlearners

4.8K Views

August 01, 24

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.2K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.2K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.3K

各ページのテキスト

DEEP LEARNING JP In-Context Unlearning: Language Models as Few Shot Unlearners [DL Papers] 高城頌太（東京大学工学系研究科松尾研 D1） http://deeplearning.jp/ 1

http://deeplearning.jp/

自己紹介髙城頌太（東京⾨学⾨学院⾨学系研究科松尾研究室博士1年）経歴 2019年3⾔奈良⾔業⾔等専⾔学校情報⾔学科修了 2022年3⾔⾔阪⾔学基礎⾔学部システム化学科修了 2022年4⾔〜東京⾔学⾔学系研究科技術経営戦略学専攻インターン等 Sony ML R&D intern DeNA backend intern Recruit Data Specialist Intern SanSan Intern 専⾨分野⾔規模⾔語モデル，強化学習，ロボティックスその他の活動「Deep Learning基礎講座」「深層強化学習スプリングセミナー」「⾔規模⾔語モデルサマースクール」などの講師・TA担当 2

書誌情報タイトル： In-Context Unlearning: Language Models as Few Shot Unlearners https://icml.cc/virtual/2024/poster/34503 ICML 2024 Poster 著者： Martin Pawelczyk · Seth Neel · Himabindu Lakkaraju Harvard University, US 概要：ブラックボックスモデルにおけるアンラーニング手法 3

https://icml.cc/virtual/2024/poster/34503

大規模言語モデルにおけるアンラーニング • 大規模言語モデルにおいて学習データに意図せず個人情報などのプライバシーデータが含まれてしまう可能性がある • アンラーニングではプライバシーデータなどの特定の知識をモデル学習後に忘れさせることを目的にしている 4

既存のアンラーニング手法 : Gradient Ascent • 負の対数尤度の最大化を行うことでアンラーニングを行う Paris Madrid LLM LLM Where would you find the Eiffel Tower? Where would you find the Eiffel Tower? 5

ブラックボックスモデルにおけるアンラーニング • オープンモデルにおいては既存のアンラーニング手法を用いることができるが，API提供されているようなブラックボックスなモデルに対してはサービス提供者が対応しない限り不可能 6

提案手法 : In-Context Unlearning • モデルのアップデートなしでアンラーニングする手法を提案 • 忘れさせたデータの出力を反転させてコンテキストに追加 7

実験設定 Dataset: SST2, Amazon polarity, AG News LLM: Bloom(560M, 1.1B, 3B, 7.1B) Methods: - Baseline(not unlearning) - Gradient ascent(1 epoch, lr={5 · 10−5 , 3 · 10−5 , 1 · 10−5}) - ICUL 8

アンラーニングの有効性の検証方法 : LiRA(Likelihood Ratio Attack) • 機械学習におけるメンバーシップ推論攻撃(Membership Inference Attack)の一種で、モデルが特定のデータポイントについて学習したかどうかを推定するために用いられる • これをアンラーニング用に修正したものがLiRA-forgot • 方法 1. train dataをsubsetに分割 2. shadow modelの作成 3. 以下のLiRA-forgot statisticを用いて尤度比を計算 4. 閾値を設定し，あるデータが学習に使用されたかを判定 l: loss function, f: model, S: train set, Sf: forgot set, u: unlearning method 9

10.

実験結果 : モデルの大きさによる違い 10

11.

実験結果 : forget setのサイズによる違い 11

12.

実験結果 : クラス分類以外での評価 • QAデータセットのSQuAD datasetを用いて評価 12

13.

まとめ & 感想 • ブラックボックスモデルにおけるアンラーニング手法である，In-Context Unlearningを提案 • LiRA-forgetという評価指標を提案しアンラーニング手法の有効性を検証感想 • 実用上使用する場面はシステムプロンプトに追記していく形？ – その場合はプライバシーデータを毎回API経由で送信することになるのか • 忘れさせたいデータの限界値がコンテキストサイズ依存になりそう • 単一のデータポイントだけでなく概念レベルの削除はできるのか – 電話番号は全て忘れるなど • そもそもIn-Contextでのアンラーニングは忘れたと言えるのか – 内部挙動の分析が必要になる 13

14.

Thank you. 14