LLMを用いた補完関係推定における判定バイアスに関する基礎的調査

>100 Views

March 02, 26

スライド概要

富澤 千香, 岡本 一志, 軽部 幸起, 原田 慧, 柴田 淳司: LLMを用いた補完関係推定における判定バイアスに関する基礎的調査, 第18回データ工学と情報マネジメントに関するフォーラム, 2026.3, オンライン.

profile-image

Data Science Research Group, The University of Electro-Communications

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

を用いた補完関係推定における 判定バイアスに関する基礎的調査 LLM 富澤 千香, 岡本 一志, 柴田 淳司, 原田 慧, 軽部 幸起 電気通信大学 2026.3.2 DEIM 2026 1 / 18

2.

補完推薦とは ある商品と一緒に使うと価値が高まる関係(補完関係)を提示する仕組み 例:パソコンとマウス ECサイトで重要視され,多数の研究が存在 [Li+, 24] 現状の仕組みにおける課題 補完関係の明示的な定義や正確な判定は困難 人手による補完関係の判定の,労力の大きさと低い拡張性 ⇒高精度な補完関係の自動判定の必要性 2026.3.2 DEIM 2026 2 / 18

3.

大規模言語モデル(LLM)による推薦システム 推薦システムにおけるLLM活用の利点 LLMを推薦システムに応用する研究 [Zhang+, 23][Sugahara+, 24] 推薦リストの自動生成 補完関係の定義を行えば,自動で補完関係判定が可能 推薦システムにおけるLLM活用の課題 LLMの事前学習データに起因するバイアスが存在(例:性別・人種・国籍) バイアスは誤った推薦を引き起こし,推薦結果の妥当性を損なう可能性 ⇓ 本研究では,補完関係の判定過程におけるバイアスに注目 2026.3.2 DEIM 2026 3 / 18

4.

関連研究 による推薦システムにおける一般的なバイアス ユーザ属性(性別・年齢・文化的背景など)や学習データに起因する偏りがみられる これらは,生成する推薦リストを統計的に分析し,バイアスを確認 入力情報によって推薦結果が変化するといった共通の問題 → 推薦結果の公平性に課題が生じる [Zhang+, 23][Sakib+, 24] LLM 2026.3.2 DEIM 2026 4 / 18

5.

既存研究と本研究の違い 既存研究 本研究 [Zhang+, 23] [Sakib+, 24] LLMを用いた推薦システム 補完関係の判定における推論の安定性 目的 におけるバイアスの評価 の分析 ユーザ属性により推薦リストが 商品属性を意図的に操作した際の アプローチ 変化するかを分析 補完関係の判定変化を分析 評価方法 出力結果の分布を統計的に比較 LLMと人間の判定変化の不一致 分析対象 推薦結果 補完関係の判定過程 関心 結果の公平性 推論の安定性 既存研究では推薦結果の偏りによる公平性について議論されてきたが, 判定過程そのものの安定性は十分に検討されていない 2026.3.2 DEIM 2026 5 / 18

6.

本研究の目的とリサーチクエスチョン 本研究の目的 補完推薦の自動化に向け,属性変更に対するLLMの補完関係判定の安定性を分析 :LLMは補完関係を判定する際にどのような判定バイアスを示すか →商品属性を意図的に変更した際の,LLMと人間の判定変化を分析 RQ1 2026.3.2 DEIM 2026 6 / 18

7.

判定バイアスとは何か 補完関係の判定における前提 補完関係は本来,商品の機能的関係や使用場面によって決まる 例:ヘルメットと封筒が補完関係かどうかは,ブランドや色のみでは決まらない 仮説:属性変更のみで補完関係が変化するのは不自然ではないか? 定義 商品の機能的関係が本質的には変化しないと考えられるにもかかわらず, 属性変更のみによってLLMの判定が変化し,その変化が人間と一致しない現象 ⇒ LLMの補完関係の判定の安定性を高めるため,判定バイアスを分析 2026.3.2 DEIM 2026 7 / 18

8.

アプローチ - 判定過程への介入(属性操作) 判定バイアス 属性操作前後で,LLMと人間の判定変化 が一致しない場合 商品属性の操作 補完関係の判定過程に現れる 判定バイアスを観測するために実施 予備実験より,カテゴリ・ブランドに 判定バイアスがあると仮説 2026.3.2 DEIM 2026 8 / 18

9.

実験設定 データセット FBLsデータセット[Sugahara+, 24]を参考 に,Amazon.co.jpから商品ペアを収集 商品属性の操作前後でLLMの判定が 変化したペア30件 変化しなかったペア30件 使用モデル:gpt-5-nano 被験者実験 判定者:学生10名,教職員2名の計12名 補完関係の有無を2値で回答 3名分の回答による多数決で判定 2026.3.2 DEIM 2026 9 / 18

10.

実験結果(RQ1)- 全体傾向 表1と表2 LLMと人間の判定の推移を集計した結果 全体的な傾向 LLMの判定が属性操作前後で変化する 割合は5割(実験設定上) 人間の判定が属性操作前後で変化する 割合は3割程度 ⇒ LLMと人間の判定変化には差がある 2026.3.2 DEIM 2026 10 / 18

11.

実験結果(RQ1)- 過剰反応と未検出 過剰反応率: LLMが変化したケースの内,人間は 変化していない割合 ⇒ 6割程度 表3において で計算 未検出率: 人間が変化したケースの内,LLMは 変化していない割合 ⇒ 4割程度 表3において で計算 ⇒ いずれのケースにおいても一定程度で 判定バイアスが生じている 2026.3.2 DEIM 2026 11 / 18

12.

補完関係判定における判定バイアス(RQ1)の考察 観測された特徴 LLMは人間と比べて属性操作に対して判定を変化させやすい 過剰反応と未検出の両方が存在 考察 属性変更に対する判定基準が不安定 入力情報が限定的であるため,補完関係を十分に捉えられていない可能性 仮説 商品名 + カテゴリ・ブランドのみでは判断材料が十分でないのではないか ⇒ より多くの情報を与えれば,LLMと人間の判定の不一致は抑制されるのか? 2026.3.2 DEIM 2026 12 / 18

13.

人間の判定と乖離しないための情報の量(RQ2) :LLMが人間の判定と乖離しない補完関係の判定を行うためには, どの程度の情報量が必要か → 入力する情報の量を段階的に増加した際の,人間の判定との一致度を分析 入力情報量の設計 レベル1:商品名 + 1属性 (カテゴリ名またはブランド名) レベル2:商品名 + 2属性 (カテゴリ名およびブランド名) レベル3:商品名 + 2属性 + 商品説明文 商品説明文:Amazon.co.jp上に掲載されて いる商品の特徴,使用方法などを説明する文 RQ2 2026.3.2 DEIM 2026 13 / 18

14.

入力情報量レベルごとの乖離タイプの集計結果 カテゴリ] 過剰反応:20件→3件(85%の減少),未検出:8件→7件 [ブランド] 過剰反応:18件→5件(72%の減少) ,未検出:8件→7件 ⇒ 過剰反応の低減には有効であることが示唆された [ 2026.3.2 DEIM 2026 14 / 18

15.

情報量増加後も判定が不一致だった商品ペアの解析 対象 情報量レベル1~3の全条件で過剰反応または未検出が生じた商品ペア 過剰反応だったペア 未検出だったペア 補完関係が一意に定まりにくい 明確な補完関係 例:多機能ペンと消しゴム 例:マーカー本体と替え芯 利用状況によって関係性が変わる可能性 属性操作後も機能的な関係は保持される ⇒ 過剰反応や未検出の抑制には,商品間の関係性が影響している可能性 2026.3.2 DEIM 2026 15 / 18

16.

の考察 RQ2 過剰反応 未検出 エラー解析の結果,関係が曖昧なペアに エラー解析の結果,明確な補完関係を 多い もつペアに多い 属性情報が限定的な場合,LLMの推論が LLMは補完関係という意味を強く保持 揺らぎやすい 属性操作後も判定が揺らぎにくい ⇒ 属性情報がより網羅的に提示されることで ⇒ 情報量増加では改善しにくい 推論の不安定性が緩和 2026.3.2 DEIM 2026 16 / 18

17.

おわりに 本研究のまとめ 補完推薦の自動化においてLLMが示す補完関係の判定バイアスを分析 商品属性の意図的な操作により,LLMと人間の判定変化が乖離する状況を整理 過剰反応率と未検出率により,一定割合でLLMと人間の間で判定変化の不一致が 発生(RQ1) ブランドおよびカテゴリの両方の情報の入力が過剰反応を抑制する上で有効だが, 未検出に関しては改善が限定的(RQ2) 今後の展望 データセット(商品カテゴリやドメイン,商品数)の拡張 複数のLLMモデル,プロンプト設計での比較 2026.3.2 DEIM 2026 17 / 18

18.

参考文献 [Li+, 24] L. Li, Z. Du: Complementary Recommendation in E-commerce: Definition, Approaches, and Future Directions,arXiv preprint arXiv:2403.16135, 2024. [Zhang+, 23] J. Zhang, K. Bao, Y. Zhang, W. Wang, F. Feng, X. He:Is Chat GPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation, Proc. 17th ACM Conf. Recomm. Syst., 993--999, 2023. [Sugahara+, 24] K. Sugahara, C. Yamasaki, K. Okamoto:Is It Really Complementary? Revisiting Behavior-based Labels for Complementary Recommendation, Proc. 18th ACM Conf. Recomm. Syst., 1091--1095, 2024 [Sakib+ 24] S. K. Sakib, A. B. Dab: Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations, 2024 IEEE Int. Conf. Big Data, 1585--1592, 2024. 2026.3.2 DEIM 2026 18 / 18