【DL輪読会】MMQA: Evaluating LLMs with Multi-Table Multi- Hop Complex Questions

2.3K Views

May 08, 25

#LLM #ベンチマーク #複数テーブル #多段階推論 #自然言語処理

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 87K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 59.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 58K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 41.1K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 37K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 36.7K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MMQA: Evaluating LLMs with Multi-Table MultiHop Complex Questions Presenter: Daichi Sato http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 • MMQA: Evaluating LLMs with Multi-Hop Multi-Table Complex Questions – ICLR 2025 Oral • 著者 – Jian Wu, Linyi Yang, Dongyuan Li, Yuliang Ji, Manabu Okumura Yue Zhang • リンク – OpenReview: https://openreview.net/forum?id=GGlpykXDCa 2

https://openreview.net/forum?id=GGlpykXDCa

概要 • 課題 – 既存のテーブルデータの理解度評価ベンチマークでは1つのテーブルしか扱っておらず、複数のテーブルデータを用いた実践的なケースをカバーできていない • 本研究の貢献 1. 複数のテーブルを用いて多段階の推論を必要とする初のベンチマーク（MMQAデータセット）を作成 2. 複数のテーブルを用いた4種類のタスクを評価するフレームワークを提案 3. 複数のテーブルから質問の回答に必要なテーブルを抽出する手法（MTR）を提案し、それがMMQAデータセット上で有効であることを検証 3

概要 MMQAデータセットの例 4

背景 LLMはテーブルデータに関する既存のベンチマークを高精度に解くことが可能例1）WikiTableQuestions: 与えられたテーブルに関するQAデータセット例2）Spider: text2SQLのデータセット WikiTableQuestionsデータセットの例 • 質問: How many dancers achieved a best score of at least 40? • 正解: 3 引用: https://ppasupat.github.io/WikiTableQuestions/viewer/#204-711 5

https://ppasupat.github.io/WikiTableQuestions/viewer/

背景 • しかし既存のベンチマークは単一のテーブルしか扱っていない • 実世界で使われているRDBでは複数のテーブルが存在し、それらは外部キーで繋がっており、テーブルの結合が頻繁に行われる → 複数のテーブル特有の操作をカバーしたベンチマークは存在しない • 複数のテーブルを用いたタスクを扱う先行研究はいくつかあるが、 – 特定の限られたタスクを解く手法を提案するのみ – カラムのみに着目しており、テーブルやセルといった様々な粒度を扱っていないといった理由から、複数テーブルの理解度を包括的に評価するベンチマークはまだないと言える 6

MMQAデータセットの例質問: アラバマ州で生まれた秘書が管理する部門は何年に設立されたか？回答に必要な推論ステップ 1. Headテーブルを参照し、アラバマ州で生まれた秘書（Tiger Woods）を見つけ、そのHead IDを特定 2. Managementテーブルを参照し、Head ID（1）に紐づけられたDepartment ID（7）を特定 3. 2で特定したDepartment ID（7）をもとに、Departmentテーブル上で対応する設立年（1903）を特定 → 複数テーブルになると単一テーブルよりも大幅に複雑な多段階推論が必要 7

貢献① MMQAデータセットの構築 1. text2SQLのデータセットであるSpiderデータセットからランダムに5000件取得 – 1件につき2, 3件のテーブルを含む 2. アノテーションを人手＆自動で生成 – 45種類のテンプレートを用いてルールベースでSQL文を生成 – 生成したSQL文とテーブルをGPT-4-turboに入れて自然言語の質問文を4種類生成 • Numerical（数値操作、合計、平均など） • List（条件を満たすものを全て回答する） • Count（条件を満たす答えの数を数える） • Select（条件を満たす特定の答えを選択） – 主キーと外部キーは人手でアノテーション 3. アノテーション結果のチェック → テーブル、自然言語の質問、SQLクエリ、正解、外部キー、主キーがセットになった 3312件のデータセット（MMQAデータセット）を構築 8

貢献① MMQAデータセットの構築生成された質問文の例 9

10.

貢献② 複数テーブルの評価フレームワークの提案 • MMQAデータセットを用いて複数テーブルの理解度を評価するフレームワークを提案 – 2つのステップに分かれている – 内部に4つのサブタスクが存在し、それぞれ精度を評価することが可能 10

11.

貢献② 複数テーブルの評価フレームワークの提案 4種類のサブタスク Step-1 Multi-Table Retrieval Step-2 Text-to-SQL Multi-Table QA Key Selection 11

12.

貢献③ 複数テーブル検索の手法提案 • 複数テーブル検索（Multi-Table Retrieval, MTR）とは – 前スライドのStep-1のタスク – 複数のテーブルの中から、質問の回答に必要な複数のテーブルを取得するタスク • 本タスクで抑えるべき2つのポイント – 質問に関連したテーブルを取得する必要がある – 取得するテーブル間には関連性（リレーション）がある必要がある → 本論文ではこの2点を押さえて複数テーブル検索をする手法を提案 12

13.

貢献③ 複数テーブル検索の手法提案提案手法：MTR 1. 多段階推論が必要な質問をGPT-4-turboに入れてN個の一連のサブ質問に分解 2. TableLlamaやSGPTといったモデルを単一テーブル検索モデルとして、既存の単一テーブルQAデータセットでファインチューニング 3. 2のモデルを用いてサブ質問ごとに順番にテーブル検索を実施 – 1つのサブ質問につき上位K個（K=2,5,10）の関連テーブルを検索 – 最初のサブ質問質問とテーブルの関連性スコアのみを考慮してスコアを付与し、上位K個を選出 – 2つ目以降のサブ質問前ラウンドで取得されたテーブル群を「シード」として扱い、質問関連スコアとテーブル間関連スコア（列の重なりなど）をかけ合わせたスコアでランク付け（次スライドで解説）列の重複がなければスコアは0として、イテレーションを停止 13

14.

貢献③ 複数テーブル検索の手法提案スコア γの計算方法本タスクで抑えるべき2つのポイント – 質問に関連したテーブルを取得する必要がある → αに対応 – 取得するテーブル間には関連性（リレーション）がある必要がある → β に対応 αとβを用いてスコア γを計算 14

15.

実験 • MMQAデータセットを用いて様々なLLMの複数テーブルの理解度を評価 • 提案フレームワークに沿って評価 • 4つのサブタスクの評価指標 – Multi-Table Retrieval：Precision, Recall, F1-Score – Table QA：完全一致（Exact Match, EM）, 部分一致（Partial Match, PM） – Text-to-SQL：Rouge-1、Rouge-L、BLEU – 主キー選択（Primary Key Selection, PKS）, 外部キー選択（Foreign Key Selection, SKE）：Accuracy 15

16.

実験結果：Multi-Table Retrieval • 一貫して貢献③の手法（MTR）が最も高精度 • 質問をサブ質問に分解しない場合（＝w/o QD）、精度は悪化する → サブ質問に分解することの有効性を実証 16

17.

実験結果：その他3つのサブタスクテーブルが2つある場合 17

18.

実験結果：その他3つのサブタスクテーブルが3つある場合 18

19.

実験結果：その他3つのサブタスク 3つのサブタスクに共通する結果として • LLMの中で最良なのはO1-previewだが、人間の精度には遠く及ばない • OpenなモデルよりClosedなモデルの方が精度が良い傾向 → LLMの課題を明らかにした（としてこの論文は評価されている） 19

20.

まとめ • 複数のテーブルデータに関する評価ベンチマークMMQAを構築し、それを用いた評価のフレームワークを提案 • 複数テーブル検索タスクにおいて新規手法を提案 • 複数のテーブルデータに関するタスクに関して、 LLMが人間と比べて大きく精度が劣っていることを明らかにした 20