【DL輪読会】COLM・EMNLP Best paper紹介

16.5K Views

November 28, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

COLM・EMNLP Best paper紹介 内山史也, 坂本航太郎, 指田昌樹 Kim Yongmin. 髙城 頌太, 原田 憲旺 1

2.

目次 ● EMNLP レポート(内山) 15 min ● EMNLP 論文紹介(坂本、指田) 15min * 2 ○ ○ ○ ○ ○ An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance Towards Robust Speech Representation Learning for Thousands of Languages Backward Lens: Projecting Language Model Gradients into the Vocabulary Space Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method CoGen: Learning from Feedback with Coupled Comprehension and Generation ● COLMレポート(キムヨンミン) 15 min ● COLM 論文紹介(髙城、原田) 15 min * 2 ○ ○ ○ ○ Dated Data: Tracing Knowledge Cutoffs in Large Language Models Mamba: Linear-Time Sequence Modeling with Selective State Spaces AI-generated text boundary detection with RoFT Auxiliary task demands mask the capabilities of smaller language models 時間がタイトな関係で各発表の後に質疑1問の時間を設けます 個別に詳細な議論を希望される方は輪読会後にお願い致します 簡易紹介5本、詳細紹介4本の合計9本論文を紹介します COLM: https://colmweb.org/AcceptedPapers.html EMNLP: https://2024.emnlp.org/program/best_papers/ 2

3.

EMNLP2024@Miami 参加レポート 東京⼤学 内⼭史也 3

4.

Index 概要 研究宣伝 実際に参加してみた感想 Best Papers簡易紹介 4

5.

概要 The 2024 Conference on Empirical Methods in Natural Language Processing November 12 ‒16 / Miami, Florida - - 1996年から毎年開催 ACL, NAACLと並び 計算⾔語学‧⾃然⾔語処理の ⼤きな国際会議 今年度は4000⼈以上の参加者 5

6.

概要 - Theme⼀覧 [1/2] Human-centered NLP Generation and Summarization Interpretability and Analysis of Models for NLP Resources and Evaluation Language Modeling Spoken & Audio Conversational Agents for All Low-resource Methods for NLP Ethics, Bias, and Fairness Machine Translation Information Retrieval and Text Mining LLMs for Embodied Agents Linguistic Theories, Cognitive Modeling and Psycholinguistics Computational Social Science and Cultural Analytics Dialogue and Interactive Systems Multimodality and Language Grounding to Vision, Robotics and Beyond 6

7.

概要 - Theme⼀覧 [2/2] NLP for Structured Data Machine Learning for NLP Southeast Asian NLP NLP Applications Discourse + Phonology + Syntax Multilinguality and Language Diversity Fostering Native and Cultural Inclusivity in LLMs Sentiment and Semantics NLP Tools for Community-Owned Religious Texts in low-resourced Languages Question Answering Information Extraction Embeddings, Reranker, Small LM for Better Search Generation Speech Processing and Spoken Language Understanding 7

8.

概要 - 統計情報 総提出数 6105 (290のwithdrawn/desk reject除く) Outstanding Papers 20 採択論⽂数 (採択率) Best Papers Main: 5 1271 (20.8%) Findings: 1029 (16.86%) 8

9.

研究宣伝 [1/2] Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance? [Uchiyama+, 2024] いくつかのCodeLM(CodeLLaMA, StarCoder)は論理推論や数学のベンチマークで⾼いスコアを報告して いるが、学習条件がモデルによって異なる上、コードデータと推論能⼒の関係は不明だった 各プログラミング⾔語データや⾃然⾔語データについて、それぞれGPT2(125M)×200Mトークンで訓練 (画像はHugging Faceレポジトリより) 9

10.

研究宣伝 [2/2] Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance? [Uchiyama+, 2024] ほぼすべてのプログラミング⾔語において、 ⾃然⾔語データと⽐較してFew-shot In-Context Learningにおける論理推論能⼒が向上 Few-shot examplesから⼊出⼒の形式を学習できるところに⼤きな違い。 プログラムの識別⼦に付けられている⾃然⾔語の名前とプログラムの意味論(e.g.変数の依存関係)が要因 10

11.

実際に参加してみた感想 ※個⼈の偏⾒を多く含みます - - ⾔語そのものに対する知識 Panel Sessionにて “数学と⾔語そのものに対する知識は必要不可⽋” Interpretability? これまでCV分野にてオンラインコミュニティで盛んに議論されてきた (Mechanistic) Interpretabilityも、国際会議で発表されるようになってきた [Saphra & Wiegreffe, 2024] Interpretabilityの研究において、so what?を意識せよ e.g. [Merullo+, ICLR2024] ⼤規模⾔語モデルの限界に光を当てる 構成性[Oba+, 2024] / 低リソース⾔語[Nayak+, 2024] / 事後学習での知識獲得[Gekhman, 2024]... 11

12.

Best Papers簡易紹介 [1/2] An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance Simran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, Graham Neubig 画像を異なる⽂化に翻訳(変換)するタスクの提案、SOTAレベルの⽣成モデルを使ったパイプライン設計 Towards Robust Speech Representation Learning for Thousands of Languages William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe 4057⾔語/100万時間以上のデータで訓練されたクロスリンガル⾳声エンコーダ Backward Lens: Projecting Language Model Gradients into the Vocabulary Space Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf ⾔語モデルの解釈可能性に関する⼿法として語彙空間への写像を⾏うLogit Lens[nostalgebraist, 2020]を 勾配情報に拡張 12

13.

Best Papers簡易紹介 [2/2] Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng トークンに対する⾔語モデルの予測分布とコーパスの頻度分布のdivergenceから学習データを特定する CoGen: Learning from Feedback with Coupled Comprehension and Generation Mustafa Omer Gul, Yoav Artzi ⾔語理解と⽣成を組み合わせた継続事前学習 Cohereのアメニティ 13

14.

参考⽂献 [Uchiyama+,2024] Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance? (Uchiyama et al., EMNLP 2024) [Saphra & Wiegreffe, 2024] Mechanistic? (Saphra & Wiegreffe, BlackboxNLP 2024) [Merullo+, ICLR2024] Circuit Component Reuse Across Tasks in Transformer Language Models (Merullo et al., ICLR 2024 spotlight) [Oba+, 2024] Can Language Models Induce Grammatical Knowledge from Indirect Evidence? (Oba et al., EMNLP 2024) [Nayak+, 2024] Benchmarking Vision Language Models for Cultural Understanding (Nayak et al., EMNLP 2024) [Gekhman, 2024] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? (Gekhman et al., EMNLP 2024) [nostalgebraist, 2020] interpreting GPT: the logit lens (nostalgebraist, AI Alignment Forum 2020) 14

15.

坂本パート 15

16.

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method Weichao Zhang, Ruqing Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan, Xueqi Cheng どんなもの? 技術の手法や肝は? ● あるテキストが LLM の訓練データに含まれているかを検知する DC-PDD ● divergence-from-randomness (確率過程によって生成された単語分布と (Divergence-based Calibration for Pretraining Data Detection) を提案 実際の分布の相違度 divergence を計測することで単語の重みを計算する情 報検索の手法):トークン確率と参照コーパスの頻度分布間のクロスエント ロピーを用いた補正 限られたトークンの影響にスコアが支配されないよう にスコアを上限(ハイパラ)で打ち切る テキスト LLM 参照コーパス 何回も出現するトークンに高い確率を割り当ててしまう対策として最初 に現れるトークンの集合の大きさで割る (初回出現のスコアを利用) どうやって有効だと検証した? (6) (7) (8) 先行研究と比べて何がすごい? ● Min-K% Probの欠点(高頻度単語を多く含む非訓練データ誤分類)を克服 ● トークン確率分布を補正することで検出精度を向上 ● PatentMIA (中国語) ベンチマークを構築 メモ・感想 ● Corpus-level detection が理想 ● 参照コーパス・ハイパラ・トークン毎の出力確率 ● 他のモーダル・大きなモデルでの検証 16 ● Membership Inference Attacks 含むLLM Safetyの最新事情?

17.

An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance Simran Khanuja, Sathyanarayanan Ramamoorthy, Yueqi Song, GrahamNeubig どんなもの? ● Image Transcreation という新しいタスクを構築 技術の手法や肝は? ● 画像キャプションを LLMに文化的背景を考 慮して編集させる ● "Edit the input text, such that it is culturally relevant to COUNTRY. Keep the output text of a similar length as the input text. If it is already culturally relevant to COUNTRY, no need to make any edits. The output text must be in English only. Input: " どうやって有効だと検証した? ● Concept (マッチしているか) Application (同じストーリー・同じ 概念を伝えられるか?) → ほとんど正解できない! 先行研究と比べて何がすごい? ● 画像を文化的に適応 (Image Transcreation) させるという新しいタスクを 定義し,既存の生成モデルの可能性と限界を探った ● concept データセット:7カ国を対象にカテゴリカルな画像(e.g. 衣服, 食品)600枚を収集 ● application データセット:教育用ワークシートや児童文学から100枚の実 用的な画像を収集 メモ・感想 ● パイプライン設計が雑に感じる ● 単にtarget domainのデータ不足では? ● 文化は国単位ではない ● 言語で閉じた空間で知能は達成できるか? 17

18.

Transcreation = Translation + Creation 18

19.

提案法 19

20.

[Pipeline 1] InstructPix2Pix: 自然言語による画像編集 https://www.timothybrooks.com/instruct-pix2pix 20

21.

[Pipeline 1] InstructPix2Pix: 自然言語による画像編集 “Make this image culturally relevant to Mexico” NAACL2024 招待講演よりhttps://www.youtube.com/watch?v=TuDu-n82Uus 21

22.

[Pipeline 1] InstructPix2Pix: 自然言語による画像編集 “Make this image culturally relevant to Mexico” NAACL2024 招待講演よりhttps://www.youtube.com/watch?v=TuDu-n82Uus 22

23.

[Pipeline 1] InstructPix2Pix: 自然言語による画像編集 “Make this image culturally relevant to Mexico” NAACL2024 招待講演よりhttps://www.youtube.com/watch?v=TuDu-n82Uus 23

24.

[Pipeline 1] InstructPix2Pix: 自然言語による画像編集 “?????” NAACL2024 招待講演よりhttps://www.youtube.com/watch?v=TuDu-n82Uus 24

25.

[Pipeline 2] Caption à Edit for cultural relevance à Image Edit 25

26.

[Pipeline 2] Caption à Edit for cultural relevance à Image Edit 26

27.

その他の失敗例 ① 27

28.

[Pipeline 3] Caption à Edit for cultural relevance à Retrieval 28

29.

データセット①:概念 29

30.

データセット①:応用 30

31.

成功例や失敗例 「数えられる」から「成功」 31

32.

評価 32

33.

結果のまとめ ①:Concept 33

34.

結果のまとめ ② :Application 34

35.

議論 n 多様性の表現・評価 n 関連性 vs. ステレオタイプ・バイアス n 文化的に適切であるとは? 35

36.

指田パート 36

37.

Backward Lens: Projecting Language Model Gradients into the Vocabulary Space Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf どんなもの? 技術の手法や肝は? ● Transformerベースの言語モデルの従来の解釈手法では、順伝播で得 られる重みや隠れ状態をモデルの語彙に投影していた(例:logit lens) ● この概念をLMの逆伝播と勾配に拡張させ、中間層を含め、解釈しよ うとするモデル、Backword Lensを開発 ● 勾配行列が順伝播および逆伝播の入力を用いた線形結合として表現 できることを証明 先行研究と比べて何がすごい? ● 勾配行列全体を分析するのではなく、それを生成する要素、特に VJP(Vector-Jacobian Products)に基づいて勾配を解釈している点。 ● 勾配に保存されている情報を解明し、それをトークンに投影してい る点 ● これにより、モデルの予測への影響や訓練データとの関連性を調べ ることに限定されない新しい視点を提供 メモ・感想 ● DLの特徴を利用した手法 ● 単純であるため、文脈などの高度な分析は難しい可能性 ● x, δをLogit lens(最終層における分散表現)に通して、意味を理解 どうやって有効だと検証した? 数学的な証明 ● 勾配行列が順伝播および逆伝播の入力を用いた線形結合として表現 できることを証明 ● 低ランク線形結合として表現できることを証明 GPT2とLlama2-7Bにおける適用 ● これらの勾配を語彙項目に投影する方法を開発 ● 勾配のランクが仮説の通り、最終層を除き常にトークンの長さにな った 37

38.

Towards Robust Speech Representation Learning for Thousands of Languages William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li Jinchuan Tian, Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinji Watanabe どんなもの? 技術の手法や肝は? ● 言語的および音響的に多様な音声に対応できるユニバーサルな音声 エンコーダを構築 ● 4057言語に対応する大規模な自己教師あり学習モデルXEUSを提案 し、言語カバレッジを拡大 ● 4057言語をカバーする7413時間の音声コーパスを収集 ● 従来のSSLのマスク予測アプローチ(HuBERT)に改良を加え、さ らにWavLMのノイズ除去、新たに導入した残響除去を組み合わせ、 音響的なロバスト性を向上 先行研究と比べて何がすごい? ● 7413時間にわたるラベルなし音声データを含む新しいコーパスを公 開し、現在の公開データセットよりも25倍以上広いカバレッジを提 供 ● 音響的残響除去を学習することでモデルの堅牢性を向上させる新し い自己教師ありタスクを導入 ● 4057の言語にわたる100万時間以上のデータで訓練されたSSL音声 エンコーダXEUSを公開 ● XEUSを多数の下流タスクで評価し、MMS(Pratap et al., 2023)、 w2v-BERT 2.0 v2(Barrault et al., 2023b)、WavLMなどのSOTA SSLモデルを上回る メモ・感想 ● 順当にデータを収集して、精度を向上させている ● モデルのチェックポイントなども含め公開していて透明性が高い どうやって有効だと検証した? ● ML-SUPERB(143言語で多様なタスク)で他のモデルを上回る ● マイナー言語におけるベンチマークを作成し、それで優れているこ とを確認 38

39.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces Albert Gu and Tri Dao 概要 ● 入力に依存した推論を行う状態空間モデル(Mamba)を作成 ● 再帰的計算を高速で行なうアルゴリズムを構築 ● Transformerと比べて約5倍速い推論、半分のサイズで同程度の評価 39

40.

Transformer、潜在空間モデルの弱点 Transformer ● Attentionの適応範囲はコンテキストウィンドウに限られる ● ウィンドウサイズを大きくすると計算コストが2次的に増加 潜在空間モデル(SSM) ● 参照箇所がウィンドウで固定されており、入力xに依存しない ● 入力xに依存させようとすると、再帰的な計算が必要となり、高速計算がで きない(と考えられていた) 40

41.

他の手法との比較 コンテキスト保持能力 RNN Transformer SSM 潜在空間モデル Mamba • × 情報圧縮に限界 • 〇 一切圧縮しないため • • メモリ領域 〇 • × KVを保持する必要 × コンテキストによって参照箇所を 変更できない 〇 〇 選択的にコンテキストを選ぶ 〇 41

42.

Mambaの新規性 Selection Mechanism ● 従来の潜在空間モデル(S4)で行うことができない入力依存タスクが可能 高速計算のための工夫 ● parallel scan [1] ● kernel fusion [] ● 活性値の再計算 42

43.

Selection Mechanism ● 従来の潜在空間モデル(S4) ● x: input, y: output, h:潜在空間 ● B、Cは固定 ● B、Cをxによって可変に改良 43

44.

高速計算のための工夫 parallel scan ● 再帰計算をScan(累積和の計算)とみなした ● PostgreSQL 10で取り入れられた手法を用いて並列計算 kernel fusion 活性値の再計算 ● HBMとSRAM間のデータ移動を最小化する仕組み ● Scanの計算をHBMでなくSRAMで行う ● backpropagationにおいて活性値をHBMに戻さずにSRAM内で処理 44

45.

Mamba 選択的状態空間モデル(Selective State Space Models: SSMs) ● 状態空間モデルの派生 ● RNNとCNNを組み合わせたようなもの 45

46.

実験結果1 Selective mechanismとスケーリング則 46

47.

実験結果2 Transformerとの比較 47

48.

考察 ● Mambaはマルチヘッドアテンションにおける冗長性を解消したように見える ● Transformerと異なり、文章の情報をすべて保持するわけではないため、文章の繰り返 ● ● しをすることができないという指摘[2]もあり、MambaがTransformerの完全上位互換 ということはなさそう Mambaを活用した画像分類[3]や、チャット[4]もあり、有用性は多方向で確認されてい る Kotoba Technologiesが日本語に対応したMambaを公開[5] Multi-Head Attention 48

49.

参考文献 [1] Parallel Prefix Scan https://www.cs.princeton.edu/courses/archive/fall20/cos326/lec/21-02-parallel-prefix-scan.pdf [2] Repeat After Me: Transformers are Better than State Space Models at Copying [3] VMamba: Visual State Space Model [4] https://github.com/redotvideo/mamba-chat [5] https://github.com/kotoba-tech/kotomamba 49

50.

⽬次 § 学会紹介 § 現場での感想 § 論⽂統計 § Out Standing Papers 簡易紹介 § 研究宣伝 50

51.

Introduction of COLM2024 § 学会名: Conference on Language Modeling (COLM) § 今年,新しくできたlanguage modelingに焦点を合わせた学会 § 他の学会より,⼩規模で,集中的な学会 51

52.

Introduction of COLM2024 § 余談: 話題のMambaがCOLM2024のout standing Paperに採択 52

53.

Language Modelingとは 出典 [H20.ai] § 「⾃然⾔語処理において,前の単語から次の単語を予測するもの」という幅広い意味 § COLMに記載されているlanguage modelingに該当するトピック Alignment, Data, Evaluation, Societal implications, Safety, Science of LMs, Compute efficient LMs, Engineering for large LMs, Learning algorithms for LMs, Inference algorithms for LMs, Human mind, brain, philosophy, laws and LMs, LMs for everyone, LMs and the world, LMs and embodiment, LMs and interactions, LMs with tools and code, LMs on diverse modalities and novel applications. 53

54.

現場での感想 § 学会スケジュール (10⽉7⽇〜10⽉9⽇) 54

55.

現場での感想 § 現場の雰囲気 Oral + keynote session (from @COLM_conf) Poster session 55

56.

論⽂統計 § Total Submission: 1,036 § Accept / Reject: 289 / 747 § Acceptance Rate: 28.86% § Spotlight: 22 papers § Outstanding Paper: 4 papers 56

57.

論⽂統計 § Top 50 Keywords § Frequency ≥ 5 Keywords Evaluation, RLHF, In context learning, Reasoning, Benchmark, Interpretability, RAG, VLM (MLLM), Alignment, Bias, Synthetic data, Safety https://github.com/hughplay/ICLR2024-OpenReviewDataからのコードを活⽤して,作成 57

58.

論⽂統計 § Keyword vs Average Rating (Frequency ≥ 5) § 全体統計 § Min / Max rating: 5.00 / 8.22 (range 1~10) § Overall average rating: 6.44 Overall average rating https://github.com/hughplay/ICLR2024-OpenReviewDataからのコードを活⽤して,作成 58

59.

Outstanding Paper 簡易紹介 § Dated Data: Tracing Knowledge Cutoffs in Large Language Models § Mamba: Linear-Time Sequence Modeling with Selective State Spaces § AI-generated text boundary detection with RoFT § Auxiliary task demands mask the capabilities of smaller language models TL;DL: 時間軸を考慮したデータセットからデータのカットオフ⽇を調査する⼿法を提案し、 オープンな事前学習コーパスを広範に分析 Keywords: knowledge cutoffs, training data, temporal alignment TL;DL:Mambaのアーキテクチャを紹介 Keywords:sequence model, deep learning, state space model, S4, Mamba TL;DL: ⼈間とLLMの⽣成したテキストが混在するコンテンツを検知する従来⼿法を幅広く検証して, 当問題の重要性を明⽰ Keywords: artificial text detection, cross-model detection, cross-domain detection, boundary detection, interpretability, analysis TL;DL: タスクにある補助タスクはそのタスクの性能に影響を及ぼし, この現象は⼩規模なモデルほどもっと発現することを検証 Keywords: cognitive evaluation, task demands, benchmarking, emergence, reasoning, syntax, development 59

60.

研究宣伝 § LLMの無害化に関する論⽂をCOLM2024に投稿 [Kim+ 2024] § Decoupling Noise and Toxic Parameters for Large Language Model Detoxification by Task Vector Merging 提案⼿法の全体 § LLMにおいて,既存の無害化⼿法は⼤きな性能低下が発⽣ 図 → モデルマージ⼿法を⽤いて,既存の⼿法により,性能低下を最⼤38.9%抑制1 § 1 提案⼿法からのモデルが既存の⼿法より,既存のモデルからのパレメータシフトが⼩さいことを検証 GPT2-smallにおいて,task vector negation[Ilharco+ 2023]の無害化⼿法との⽐較結果 60

61.

参考⽂献 § § § COLM2024: https://colmweb.org/ @COLM_conf: https://x.com/COLM_conf [H20.ai]: https://h2o.ai/wiki/languagemodeling/#:~:text=Language%20Modeling%20is%20a%20technique,meaning%20of%20a%20given%20text. 61

62.

原田 62

63.

Auxiliary task demands mask the capabilities of smaller language models 発達心理学での知見を参考に、言語モデルの性能評価を解釈する際には 計測したい能力に直接関係しないが、スコアに影響する要因である”task demand” を考慮すべきだと主張。 “task demand”は特に小さいモデルにおいて影響が顕著であり、現状の評価方法が 小さいモデルの能力を過小評価している可能性があると指摘 https://x.com/COLM_conf/status/1843291689659908468 63

64.

AI-generated text boundary detection with RoFT 「人間が書いた文章とAIが生成した文章が混在する文章中から、それらの切り替 わりを見分ける」という、生成文章検出に関する新しい考え方を示した。 人間がLLMを活用して文章を構成している、という現在の状況を考慮すると、先 見の明がある視点である。 perplexityを用いた手法と、intrinsic dimension estimationを用いた手法が、既存の 伝統的な分類器より良い性能を発揮。 また、人間とAIが生成したテキストが混在する複雑な問題設定にもよく適応する ことを確認。 https://x.com/COLM_conf/status/1843291689659908468 64

65.

Artificial text detection (ATD) 既存の問題: ある文章が人間によって書かれたか、否か ● 人間とAIが書いた文章が混在するような場面の方がより現実的 RoFT(Real Or Fake Text) データセット(Dugan et al., 2020) ● 冒頭の複数文が人間によって書かれ、残りがAIによる生成文、合計10文のサ ンプルからなる http://www.roft.io/ 65

66.

概要図 66

67.

実験設定(ここが肝) 既存手法・研究の問題点 ● 生成文を作成したモデルの内部状態にアクセス可能 ○ → APIのみでしかアクセスできない場合があるので現実的でない ● In-domainでの検証しかなされていない ○ cross-domain, cross-modelの設定で実験がなされていない Cross-domain: 4つ中3つのドメインのデータで学習、残りでテスト Short stories, Recipes, New York Times, Presidential speeches Cross-model: あるモデルの生成文で訓練されたモデルを別のモデル生成文判定へ (RoFT-chatgptというデータも作成) 67

68.

今回の問題を解く上で妥当な手法を比較検討 ● ● ● ● ● ● ● RoBERTa classifier: [CLS] tokenの表現を元にクラス分類 Perplexity based method: 文章毎の対数尤度の平均・分散を特徴量とする DetectGPT: 文章を一部入れ替えて入れ替え前後の尤度比較を特徴量とする Length-based baseline: 文章の長さを特徴量としたモデル Topological Time Series(TTS): topological featuresを特徴量とする Topological binary classification Zero-shot detection: 全文入れて何文目から生成文が始まるか出力させる DetectGPT: Zero-Shot Machine-Generated Text Detectionnusing Probability Curvature 68 Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

69.

評価指標 ● ACC: 分割位置の正解率 ● SoftAcc1: 分割位置の予測と正解の値が1以下か ● MSE: 予測と正解の位置の誤差 69

70.

実験結果(In-domain) RoBERTa強し(訓練パラメータ 量多い) Perplexity-baseの手法がRoFTchatgptで良い性能 既存研究の報告と違う結果に テキストの短さが影響か? Phi-1.5がサイズの割には 良い結果に 70

71.

実験結果(cross-domain) RoBERTa汎化性能低い Perplexity-baseの手法が 汎化性能高い(性能差少ない) 71

72.

実験結果(cross-domain) 全手法汎化性能低い(性能差大きい) Perplexity-baseの手法がその中でも 汎化性能高い(性能差少ない) 72

73.

結果まとめ ● RoBERTaはin-domain強いがcross設定では弱い ● Phi1.5がサイズの割には強い ○ Phi1.5はGPTモデルの生成文で学習している、pretrainデータと関係ある? ● Topological classifiersは汎化性能強いが判別性能自体がそこまでは高くない 73

74.

所感 ● ● データセットも手法も新しく作っているわけではない 時代に合った適した問題設定で(cross-model/domain)で様々な手法の利点・欠点を整理した のが貢献か? ○ ● ● 見分けるタスクが大事?どんな時? Score 10: Top 5% of accepted papers, seminal paper ○ ○ ○ ● The paper aims to study a novel and upcoming challenge which is important study thorough analysis of the strengths and weaknesses of each method The analysis is done for real-time applications including cross-domain and cross-modal scenarios Score 8: Top 50% of accepted papers, clear accept ○ ○ ○ ● おお〜いっぱい実験しているね、という印象は受ける This research contributes valuable insights into artificial text detection, highlighting the potential for further exploration and refinement The problem is very new, and any advancement is appreciated. An appropriate explanation of poor generalization scenarios is provided, which is not common to see in other papers. Score 5: Marginally below acceptance threshold ○ ○ ○ ○ This problem has not received much attention in the literature, making this study highly relevant and timely. offering valuable insights into each approach's strengths, weaknesses, and dataset property challenges. It is more like a technical report than a research paper with novel contributions. It would be better to localize which parts of the paragraph are likely written by a human 74

75.

髙城 75

76.

書誌情報 タイトル: Dated Data: Tracing Knowledge Cutoffs in Large Language Models COLM 2024 Outstanding Paper https://arxiv.org/abs/2403.12958 https://openreview.net/forum?id=wS7PxDjy6m 著者: Jeffrey Cheng, Marc Marone, Orion Weller, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme Johns Hopkins University 概要: LLMにおいて報告されている知識カットオフが学習データにおいて統一されているのかを調 査,分析する手法を考案 Rating: 9: Top 15% of accepted papers, strong accept 7: Good paper, accept 6: Marginally above acceptance threshold 9: Top 15% of accepted papers, strong accept 76

77.

知識カットオフ • 知識カットオフとは,LLMがどの時点までのデータを用いて学習されているかを 表す日時 – 基本的にはこれ以降の知識はLLMは知り得ない 77

78.

報告されている知識カットオフ日は正しいのか? • ある時点で収集されたWebコーパスを学習に用いているのは正しいとしても,モ デルの知識がその日付と対応しているのか? – 例えば,法律のような定期的にアップデートされるような知識があった時に,そのルールは 知識カットオフ日と対応しているのか 78

79.

検証方法 • やりたいことは時系列に応じてアップデートされていくデータに対して有効カッ トオフ日を調査したい(=実質的にモデルが持っている知識の最終更新日時) • そのためにWIKISPANというデータセットを構築 – wikipediaから編集回数が最も多い5000ものトピックを抽出 – 2016/4 ~ 2023/3までの月毎にデータを収集 – だいたいのLLMにはwikipediaを学習データとして用いているためwikipediaを用いている • WIKISPANを用いて各月のPPLを計 算 – 全てのトピックにおけるドキュメントの 最初の512 tokenを用いて計算 79

80.

検証方法 • 正規化 – 各月ごとの95%切り捨て平均を用いる – 全期間にわたってMin-Max Scalingを行い0-1に変換 • 有効カットオフ – PPLが最小となる月を有効カットオフとする 各ドキュメントごと にPPLを計算 平均化 & 正規化して0-1 の相対PPLに変換 最小値を有効カットオフ とする Constitutional AI: Harmlessness from AI 80

81.

結果(WikipediaデータがPile由来のモデル) 81

82.

結果(WikipediaデータがC4由来のモデル) Constitutional AI: Harmlessness from AI 82

83.

なぜ知識カットオフと有効カットオフが異なるのか? • CommonCrawlと実データの不一致 – 最新のdumpでも古いバージョンのデータが多く残っている – CommonCrawlから作られたC4でも同じ問題が発生 83

84.

なぜ知識カットオフと有効カットオフが異なるのか? • データセット内に多くの重複が存在する – C4やPileではフィルターを用いて重複排除を行っているが,それを完全に排除することが できていない – Pile由来のモデルでうまく有効カット オフを抽出できていたのは,最新のデ ータをupsampleしているため • 重複除去すると有効カットオフが古 くなってしまう(CommonCrawl由来の データが優位になる) 84

85.

まとめ • 報告されている知識カットオフとモデルの有効カットオフは異なる場合がある • LLMの有効カットオフは、報告されたカットオフよりも数年早い – CommonCrawlのダンプには古いバージョンのリソースが含まれている – 古いバージョンや重複データは重複除去のパイプラインで削除されていない • Pileベースのモデルの有効なカットオフは報告されたカットオフと一致する – 使用されるCommonCrawlは少量 – 報告されているカットオフ日におけるwikipediaのupsamplingが行われているため 85