【DL輪読会】Don’t Get Too Technical with Me’:A Discourse Structure-Based Framework for Science Journalism

1.4K Views

January 19, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] ‘Don’t Get Too Technical with Me’: A Discourse Structure-Based Framework for Science Journalism Tsubasa Hada, University of Nagasaki http://deeplearning.jp/ 1

2.

目次 - 書誌情報 - 背景 - 先行研究 - 提案手法 - 実験結果 - 議論 - 結論 - 参考文献 2

3.

書誌情報 Don’t Get Too Technical with Me’: A Discourse Structure-Based Framework for Science Journalism 題名 https://arxiv.org/abs/2310.15077 著者 Ronald Cardenas Bingsheng Yao Dakuo Wang Yufang Hou (University of Edinburgh, https://ronaldahmed.github.io/) (Rensselaer Polytechnic Institute, https://www.bingshengyao.com/) (Northeastern University, https://www.dakuowang.com/) (IBM Research Ireland, https://yufanghou.github.io/) 会議 EMNLP2023(Empirical Methods in Natural Language Processing) 2023/10 本研究では、実際の科学ジャーナリズムの作成を支援するための自動サイエンスジャーナリズムシステムを提案している。この目的のた めに、「SCITECHNEWS」という新たなデータセットを構築した。このデータセットには、公開された科学論文、それに対応するニュ 概要 ース記事、専門家による要約が含まれている。本システムは、論文のディスコース構造を学習し、その知見を論文作成に応用する。さら に、AlpacaやChatGPTなど他の基準モデルと比較し、選択された情報を平易な文体で簡素化し、首尾一貫した最終報告書を作成する能 力を評価した。このアプローチにより、複雑な科学的内容を一般向けに理解しやすく伝えることが可能となる。 3

4.

背景 - サイエンスジャーナリズムは「様々な領域の科学研究を通してジャーナリスティックなコンテンツを制作すること」 - サイエンスジャーナリズムは科学とその影響に対する一般の理解を促進する上で重要な役割を果たしている - 科学論文の数は非常に多く、その全てをジャーナリスティックにするのは困難 - 例)2022年 185,692件の論文がarXivに投稿 PubMedにはこれまで新型コロナウイルス関する科学論文が345,332件投稿←インフルエンザ200年の研究の1.6倍 サイエンスジャーナルの作成を容易にするシステムの開発が必要 科学論文 (arXiv, PubMed) サイエンスジャーナル (ACM TechNews, nature, Gigazine) サイエンスジャーナリズム - 平易な言葉で翻訳 - インフグラフィックの作成 - 知識の抽出 4 https://blog.csdn.net/m0̲61899108/article/details/122663246 https://info.arxiv.org/about/reports/index.html

5.

先行研究 科学論文からブログのタイトルやスライドを作成 ・When science journalism meets arti cial intelligence : An interactive demonstration https://aclanthology.org/D18-2028/ ・D2S: Document-to-Slide Generation Via Query-Based Text Summarization https://aclanthology.org/2021.naacl-main.111/ 構造化された知識の抽出 ・Identi cation of Tasks, Datasets, Evaluation Metrics, and Numeric Scores for Scienti c Leaderboards Construction https://aclanthology.org/P19-1513/ ・End-to-End Construction of NLP Knowledge Graph https://aclanthology.org/2021. ndings-acl.165/ ・Making Science Simple: Corpora for the Lay Summarisation of Scienti c Literature https://aclanthology.org/2022.emnlp-main.724/ 一般市民向けの専門的な健康マニュアルの簡素化 ・Expertise Style Transfer: A New Task Towards Better Communication between Experts and Laymen https://aclanthology.org/2020.acl-main.100/ 平易な言葉で翻訳 ・We Can Explain Your Research in Layman's Terms: Towards Automating Science Journalism at Scale https://ojs.aaai.org/index.php/AAAI/article/view/17507 ・Making Science Simple: Corpora for the Lay Summarisation of Scienti c Literature https://aclanthology.org/2022.emnlp-main.724/ fi fi fi fi fi fi 5

6.

SCITECHNEWS - ACM Tech News(https://technews.acm.org/)の1999年から2021年の記事を収集 - 各ニュース記事に対応した科学論文を収集 - 科学論文はPDFの形で取得し、Grobid4を使用して、セクションの見出し名、セクションごとの記事のテキス ト、タイトル、全ての著者と所属を抽出 https://technews.acm.org/ 6

7.

SCITECHNEWS - 合計で29,069件のプレリリースの要約を収集 そのうち18,933件が完全なプレリリースに対応 そのうち2,431件が科学論文と対応 1,431件を検証セット、1,000件をテストセットに分割 最終的なサブセットでは ・プレリリースのメタデータ(発行日、著者など) ・プレリリースの要約 ・科学論文のメタデータ(著者名、所属など) ・科学論文の本文と要旨 要約 プレリリース 科学論文 検証 テスト 7

8.

SCITECHNEWS - テストセットにはオープンアクセスの論文のみで構成 検証セットにはオープンアクセスの論文と、機関を通じてアクセス可能な論文のみで構成 コンピューターサイエンス、物理学、工学、生物学などの多様な領域から収集 出典はNature, ACM, APMのジャーナル、arXiv, IEEE, BioArxivなどの会議形式の記事 (著者の個人ウェブサイトから得られた記事が大きな割合を占めていることを注目!) 8

9.

モデリング - 動作の目的:科学論文から情報を抽出し、一般大衆にとって意味のあるコンテンツを作成 - 科学記事のテキスト(D)とメタデータ(M)に基づいて計画(s)を生成[p(s|D, M)]し、それをもとに要 約(y)を生成[p(y|s, D, M)] D = ⟨m, m0, .., m|M|, t0, x0, .., tN, xN⟩ をエンコーダーの入力として定義 (t:科学的修辞的役割) - エンコーダーの状態が与えられた後、デコーダーはD に基づいて計画sを生成 - D をソースとして、[s; y](計画と要約の連結)をターゲットとしてトレーニング テキスト D 計画 s メタデータ M 9 要約 y

10.

比較対象 - 以下の標準的なベースラインと比較 - Extractive Oracle, LEAD, RANDOM (N=5) - 教師なし:LexRank, TextRank - 教師あり:BART - Bartarx(ARXIVデータセットで微調整) - BartSciT(メタデータ、レトリックなしのSCITECHNEWSで微調整) - Bartmeta(メタデータと記事を含むSCITECHNEWSで微調整、計画なし) - LLM(GPT3, T5- 3B, LLaMA. “Write a report of this paper in journalistic style.”) 10

11.

評価指標 - ROUGE1, 2, L - 生成された要約の情報量、関連性、流暢性を評価 - RoBERTa-base - 要約のスタイルスコア(ジャーナリスティック感)を確率として定義 - QuestEval - 事実の一貫性を定量的に評価 - 人間による評価(Best-Worst Scaling) - 情報性:本文から重要な情報を抜き取っているか - 事実性:本文から正確な情報を抜き取っているか - 非冗長性:要約の情報が重複していないか - 読みやすさ:要約が簡単な言葉で表現されているか - 文体:要約がジャーナリスティックな文体になっているか - 有用性:要約が有用な情報を提示できているか 11

12.

実験結果 - 自動評価(Table 4) - Bartmeta, BartplanがR1, R2, RLで最も高いスコアを記録 - →Bartmeta, Bartplanモデルが情報量、関連性、流暢性において他のモデルより優れている 読みやすさ、事実性、ジャーナリスティック感 - 読みやすさ(CLI):Bartmeta - 事実性(QEvaL):Bartarx (コピペが多いため) - ジャーナリスティック感:Bartmeta, Bartplan 12

13.

実験結果 - 人間による評価(Table 6) - PR sumはLLM全般よりスコアが高い - 情報性:Bartmeta - 読みやすさ:Bartplan - 事実性:GPT-3.5 - 文体:Bartplan - 非冗長性:Bartplan - 有用性:Bartplan 13