【DL輪読会】MMQA: Evaluating LLMs with Multi-Table Multi- Hop Complex Questions

555 Views

May 08, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] MMQA: Evaluating LLMs with Multi-Table MultiHop Complex Questions Presenter: Daichi Sato http://deeplearning.jp/ 1

2.

書誌情報 • MMQA: Evaluating LLMs with Multi-Hop Multi-Table Complex Questions – ICLR 2025 Oral • 著者 – Jian Wu, Linyi Yang, Dongyuan Li, Yuliang Ji, Manabu Okumura Yue Zhang • リンク – OpenReview: https://openreview.net/forum?id=GGlpykXDCa 2

3.

概要 • 課題 – 既存のテーブルデータの理解度評価ベンチマークでは1つのテーブルしか扱っておらず、 複数のテーブルデータを用いた実践的なケースをカバーできていない • 本研究の貢献 1. 複数のテーブルを用いて多段階の推論を必要とする初のベンチマーク(MMQAデータ セット)を作成 2. 複数のテーブルを用いた4種類のタスクを評価するフレームワークを提案 3. 複数のテーブルから質問の回答に必要なテーブルを抽出する手法(MTR)を提案し、 それがMMQAデータセット上で有効であることを検証 3

4.

概要 MMQAデータセットの例 4

5.

背景 LLMはテーブルデータに関する既存のベンチマークを高精度に解くことが可能 例1)WikiTableQuestions: 与えられたテーブルに関するQAデータセット 例2)Spider: text2SQLのデータセット WikiTableQuestionsデータセットの例 • 質問: How many dancers achieved a best score of at least 40? • 正解: 3 引用: https://ppasupat.github.io/WikiTableQuestions/viewer/#204-711 5

6.

背景 • しかし既存のベンチマークは単一のテーブルしか扱っていない • 実世界で使われているRDBでは複数のテーブルが存在し、それらは外部キーで繋がってお り、テーブルの結合が頻繁に行われる → 複数のテーブル特有の操作をカバーしたベンチマークは存在しない • 複数のテーブルを用いたタスクを扱う先行研究はいくつかあるが、 – 特定の限られたタスクを解く手法を提案するのみ – カラムのみに着目しており、テーブルやセルといった様々な粒度を扱っていない といった理由から、複数テーブルの理解度を包括的に評価するベンチマークはまだないと言 える 6

7.

MMQAデータセットの例 質問: アラバマ州で生まれた秘書が管理する部門は何年に設立されたか? 回答に必要な推論ステップ 1. Headテーブルを参照し、アラバマ州で生まれた秘書(Tiger Woods)を見つけ、そのHead IDを特定 2. Managementテーブルを参照し、Head ID(1)に紐づけられたDepartment ID(7)を特定 3. 2で特定したDepartment ID(7)をもとに、Departmentテーブル上で対応する設立年(1903)を特定 → 複数テーブルになると単一テーブルよりも大幅に複雑な多段階推論が必要 7

8.

貢献① MMQAデータセットの構築 1. text2SQLのデータセットであるSpiderデータセットからランダムに5000件取得 – 1件につき2, 3件のテーブルを含む 2. アノテーションを人手&自動で生成 – 45種類のテンプレートを用いてルールベースでSQL文を生成 – 生成したSQL文とテーブルをGPT-4-turboに入れて自然言語の質問文を4種類生成 • Numerical(数値操作、合計、平均など) • List(条件を満たすものを全て回答する) • Count(条件を満たす答えの数を数える) • Select(条件を満たす特定の答えを選択) – 主キーと外部キーは人手でアノテーション 3. アノテーション結果のチェック → テーブル、自然言語の質問、SQLクエリ、正解、外部キー、主キーがセットになった 3312件のデータセット(MMQAデータセット)を構築 8

9.

貢献① MMQAデータセットの構築 生成された質問文の例 9

10.

貢献② 複数テーブルの評価フレームワークの提案 • MMQAデータセットを用いて複数テーブルの理解度を評価するフレームワークを提案 – 2つのステップに分かれている – 内部に4つのサブタスクが存在し、それぞれ精度を評価することが可能 10

11.

貢献② 複数テーブルの評価フレームワークの提案 4種類のサブタスク Step-1 Multi-Table Retrieval Step-2 Text-to-SQL Multi-Table QA Key Selection 11

12.

貢献③ 複数テーブル検索の手法提案 • 複数テーブル検索(Multi-Table Retrieval, MTR)とは – 前スライドのStep-1のタスク – 複数のテーブルの中から、質問の回答に必要な複数のテーブルを取得するタス ク • 本タスクで抑えるべき2つのポイント – 質問に関連したテーブルを取得する必要がある – 取得するテーブル間には関連性(リレーション)がある必要がある → 本論文ではこの2点を押さえて複数テーブル検索をする手法を提案 12

13.

貢献③ 複数テーブル検索の手法提案 提案手法:MTR 1. 多段階推論が必要な質問をGPT-4-turboに入れてN個の一連のサブ質問に分解 2. TableLlamaやSGPTといったモデルを単一テーブル検索モデルとして、既存の単一 テーブルQAデータセットでファインチューニング 3. 2のモデルを用いてサブ質問ごとに順番にテーブル検索を実施 – 1つのサブ質問につき上位K個(K=2,5,10)の関連テーブルを検索 – 最初のサブ質問 質問とテーブルの関連性スコアのみを考慮してスコアを付与し、上位K個を選出 – 2つ目以降のサブ質問 前ラウンドで取得されたテーブル群を「シード」として扱い、質問関連スコアと テーブル間関連スコア(列の重なりなど)をかけ合わせたスコアでランク付け (次スライドで解説) 列の重複がなければスコアは0として、イテレーションを停止 13

14.

貢献③ 複数テーブル検索の手法提案 スコア γの計算方法 本タスクで抑えるべき2つのポイント – 質問に関連したテーブルを取得する必要がある → αに対応 – 取得するテーブル間には関連性(リレーション)がある必要がある → β に対応 αとβを用いてスコア γを 計算 14

15.

実験 • MMQAデータセットを用いて様々なLLMの複数テーブルの理解度を評価 • 提案フレームワークに沿って評価 • 4つのサブタスクの評価指標 – Multi-Table Retrieval:Precision, Recall, F1-Score – Table QA:完全一致(Exact Match, EM), 部分一致(Partial Match, PM) – Text-to-SQL:Rouge-1、Rouge-L、BLEU – 主キー選択(Primary Key Selection, PKS), 外部キー選択(Foreign Key Selection, SKE):Accuracy 15

16.

実験結果:Multi-Table Retrieval • 一貫して貢献③の手法(MTR)が最も高精度 • 質問をサブ質問に分解しない場合(=w/o QD)、精度は悪化する → サブ質問に分解することの有効性を実証 16

17.

実験結果:その他3つのサブタスク テーブルが2つある場合 17

18.

実験結果:その他3つのサブタスク テーブルが3つある場合 18

19.

実験結果:その他3つのサブタスク 3つのサブタスクに共通する結果として • LLMの中で最良なのはO1-previewだが、人間の精度には遠く及ばない • OpenなモデルよりClosedなモデルの方が精度が良い傾向 → LLMの課題を明らかにした(としてこの論文は評価されている) 19

20.

まとめ • 複数のテーブルデータに関する評価ベンチマークMMQAを構築し、それを用いた評価の フレームワークを提案 • 複数テーブル検索タスクにおいて新規手法を提案 • 複数のテーブルデータに関するタスクに関して、 LLMが人間と比べて大きく精度が 劣っていることを明らかにした 20