【AAAI論文読みLT会】GACM：フェイクニュース検出の教師なし学習

498 Views

August 12, 24

#aaai論文読みlt会 #フェイクニュース検出 #教師なし学習 #グラフニューラルネットワーク #グラフオートエンコーダ #GIN

スライド概要

2024年8月10日に実施した、KaiRA×スクラムサイン共催の「AAAI論文読みLT会」の発表資料

京都大学人工知能研究会KaiRA

@kyoto-kaira

スライド一覧

AI・機械学習を勉強したい学生たちが集まる、京都大学の自主ゼミサークルです。私たちのサークルに興味のある方はX(Twitter)をご覧ください！

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【論文読み会】GraphCast: Learning skillful medium-range global weather forecasting

京都大学人工知能研究会KaiRA 30.5K

【論文読み会】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

京都大学人工知能研究会KaiRA 23.3K

【IT Text 自然言語処理の基礎】第7章：事前学習済みモデルと転移学習

京都大学人工知能研究会KaiRA 22K

【物体検出】ResNet・EfficientNet (v2)

京都大学人工知能研究会KaiRA 19.1K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.3節まで）

京都大学人工知能研究会KaiRA 13.7K

【Pythonで学ぶ音声認識】第5章：GMM-HMMによる音声認識（5.4節）

京都大学人工知能研究会KaiRA 12.4K

各ページのテキスト

「GAMC: An Unsupervised Method for Fake News Detection Using Graph」 Autoencoder with MaskingShu Yin, Peican Zhu, Lianwei Wu, Chao Gao, Zhen Wang GACM:フェイクニュース検出の教師なし学習京都大学理学部 3回生宮本真弥 0

アジェンダ ◼ 考えるタスク ◼ GACMとは？ ◼ 手法の説明 ◼ 実験結果 1

考えるタスクフェイクニュース検出 • 与えられた記事が真実かどうかを判定する問題。ソーシャルメディアが発達している現在ではフェイクニュースがはびこっており、主要な問題の一つとなっている • 近年ではフェイクニュースとそうでないニュースとで異なる伝播の仕方がされるとして、伝播の仕方やその他の社会的コンテキストを利用したグラフを用いる学習モデルが注目される Yang et al.「Exploring Graph-aware Multi-View Fusion for Rumor Detection on Social Media」から引用 2

従来の手法グラフニューラルネットワークの教師あり学習の手法が多く提案されている • GLAN:ニュースとユーザーをTweet,Retweetの関係でグラフを生成しCNN • UFD:newsの伝播の関係でグラフを作成、ユーザーの嗜好などを特徴量とし自然言語モデルと GNNを組み合わせて分類しかし、教師なし学習の手法はあまりなく、精度の高いものも少なかった。 GACMは精度を大幅に向上,教師あり学習の手法に匹敵する精度を出した 3

アジェンダ ◼ 考えるタスク ◼ GACMとは？ ◼ 手法の説明 ◼ 実験結果 4

GACMとは？グラフオートエンコーダとマスキング、対照学習を用いた教師なし学習の手法 5

アジェンダ ◼ 考えるタスク ◼ GACMとは？ ◼ 手法の説明 ◼ 実験結果 6

ニュースのデータからグラフ生成ニュースの伝播の仕方をグラフで表現するグラフ𝐺 = (𝑉, 𝐴, 𝑋) 𝑉 = 𝑣𝑛 , 𝑣𝑢 𝑣𝑛 : ニュースのノード 𝑣𝑢 : ユーザーのノード 𝐴:隣接行列ノード間の辺の接続関係を表現している。ここではTwitterでツイート・リツイートの関係で辺をつないでいる。 𝑋:ノードの特徴量。𝑣𝑛 の特徴量は事前学習済みのBERTで記事を埋め込んだもの。𝑣𝑢 の特徴量はそのユーザーの直近200ツイートをそれぞれBERTでembeddingしてそれらの平均をとったもの。もしユーザーのアカウントが凍結あるいは削除されているならほかのユーザーのツイートからランダムに200ツイート選んでそれをそのユーザーの投稿として同様に特徴量を生成する。 7

データ拡張マスキングと辺の切断をそれぞれのグラフに独立に２回行いデータを拡張 • マスキング、辺の切断の割合はハイパーパラメータ • これにより複雑なパターンのニュース検出にも精度を保ち、さらに特徴量の欠損にも対応可能となる。 8

10.

GIN Encoder グラフを2層のGINを入力してグラフ埋め込みを出力 GIN（グラフ同時ネットワーク） (𝑙) ℎ𝑖 = 𝑀𝐿𝑃 ℎ𝑖 0 1+𝜖 𝑙 ⋅ ℎ𝑖 𝑙−1 + σ𝑗∈𝒩 𝑖 ℎ𝑗 𝑙−1 = 𝑥𝑖 ∈ 𝑋 グラフの同型性を学習するグラフニューラルネットワーク学習後は分類に用いる・表現力が高く、またグラフの頂点の順序に依らずグラフの同型性を学習する 9

11.

GIN Decoder 得られた埋め込みを特徴量としたグラフを生成し１層のGINでdecoding • 同じノードをマスキング、同じ辺を切断する • こうして得られた特徴量をそれぞれ𝑋1′ , 𝑋2′ とする。 10

12.

GACMの全体像（再掲） • Input:グラフG • グラフをランダムにマスキング、辺を切断し、同様のことを2回行って２つのグラフを生成 • 2 layerのGINでencoding • 埋め込みを特徴量として新しいグラフを生成 • 1 layerのGINでdecoding • 二つの損失関数を用いて学習 • 学習後はエンコーダから得られる埋め込みを分類器に使用 11

13.

損失関数二つの損失関数を組み合わせて学習させる 1. Reconstructed Function 𝑛 1 ℒ𝑟𝑒𝑐 = ෍ |𝑋1 − 𝑋1′ |22 + |𝑋2 − 𝑋2′ |22 𝑛 𝑖=1 𝑛はデータのサンプルの数 𝑋1 , 𝑋2 は同じグラフから拡張した二つのグラフの特徴量 2. Contrastive Function 𝑋1′ ⋅ 𝑋2′ ℒ𝑐𝑜𝑛 = ∥ 𝑋1′ ∥∥ 𝑋2′ ∥ 𝑛 1 𝑋1′ ⋅ 𝑋2′ ෍ ? n ∥ 𝑋1′ ∥∥ 𝑋2′ ∥ 𝑖=1 これらを組み合わせた損失関数ℒ = ℒ𝑟𝑒𝑐 − 𝛼 ℒ𝑐𝑜𝑛 を最小化するように学習させる。𝛼はパラメータ。 12

14.

アジェンダ ◼ 考えるタスク ◼ GACMとは？ ◼ 手法の説明 ◼ 実験結果 13

15.

実験 PolitiFactとGossipCopのデータセットを用いて検証 • PolitiFact : 主にアメリカの政治系のニュースで構成されたデータセット • GossipCop : 主にハリウッドの著名人に関するニュースで構成ハイパーパラメータ等の調整 • マスキングは50%,辺の切断は20%の割合で行う • 最終的にはMLPでクラスタリング,10回行って平均値で分類比較する手法 • 教師なし学習の手法： TruthFinder, UFNDA, UFD, GTUT, UMD 2 • 教師あり学習の手法: SAFE, EANN. dEFEND, GACL, FinderFact 14

16.

結果従来の教師なし学習の手法と比べすべての指標で大幅に精度が向上した • 評価指標は accuracy,precision,recall,F1値 • PolitiFactでは約4.49%,GossipCop では約19.44%精度が向上図:GACMと従来のモデルの精度比較.左がPolitiFact,右がGossipCop • 教師あり学習の手法と比較すると,PolitiFactは精度が劣るが,GossipCopではどの手法よりも精度が高い結果となった。図:GACMと従来の教師あり学習モデルの精度比較.AccとF1のみの記載 15

17.

まとめ • GACMはオートエンコーダとマスキング、対照学習を用いた教師なし学習 • 従来の教師なし学習と比べ大幅に精度が向上 • 教師あり学習の手法に近い精度であるが,データによってはまだまだ及ばない →さらなる精度改善に取り組むことが必要 16