LLMを用いた補完関係推定における判定バイアスに関する基礎的調査

>100 Views

March 02, 26

#国内会議 #補完関係推定 #大規模言語モデル #判定バイアス #推薦システム #LLMの安定性

スライド概要

富澤千香, 岡本一志, 軽部幸起, 原田慧, 柴田淳司: LLMを用いた補完関係推定における判定バイアスに関する基礎的調査, 第18回データ工学と情報マネジメントに関するフォーラム, 2026.3, オンライン.

Okamoto Lab. (The Univ. of Electro-Communications)

@okmt_lab

スライド一覧

Data Science Research Group, The University of Electro-Communications

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

Is it really complementary? Revisiting behavior-based labels for complementary recommendation

論文読み会

Okamoto Lab. (The Univ. of Electro-Communications) 2.3K

アスペクトに着目した読者に影響を与える映画レビューの分析

国内会議

Okamoto Lab. (The Univ. of Electro-Communications) 1.1K

大規模言語モデルを用いた推薦システムにおけるセレンディピティ判断の検討

国内会議

Okamoto Lab. (The Univ. of Electro-Communications) 854

深層学習を用いた物件外観画像による築年代推定法の検討

国内会議

Okamoto Lab. (The Univ. of Electro-Communications) 615

Evaluation of session segmentation methods using behavior and text embeddings

国際会議

Okamoto Lab. (The Univ. of Electro-Communications) 614

大規模言語モデルを用いた料理レシピの曖昧表現補完

国内会議

Okamoto Lab. (The Univ. of Electro-Communications) 410

各ページのテキスト

を用いた補完関係推定における判定バイアスに関する基礎的調査 LLM 富澤千香, 岡本一志, 柴田淳司, 原田慧, 軽部幸起電気通信大学 2026.3.2 DEIM 2026 1 / 18

補完推薦とはある商品と一緒に使うと価値が高まる関係（補完関係）を提示する仕組み例：パソコンとマウス ECサイトで重要視され，多数の研究が存在 [Li+, 24] 現状の仕組みにおける課題補完関係の明示的な定義や正確な判定は困難人手による補完関係の判定の，労力の大きさと低い拡張性 ⇒高精度な補完関係の自動判定の必要性 2026.3.2 DEIM 2026 2 / 18

大規模言語モデル（LLM）による推薦システム推薦システムにおけるLLM活用の利点 LLMを推薦システムに応用する研究 [Zhang+, 23][Sugahara+, 24] 推薦リストの自動生成補完関係の定義を行えば，自動で補完関係判定が可能推薦システムにおけるLLM活用の課題 LLMの事前学習データに起因するバイアスが存在（例：性別・人種・国籍）バイアスは誤った推薦を引き起こし，推薦結果の妥当性を損なう可能性 ⇓ 本研究では，補完関係の判定過程におけるバイアスに注目 2026.3.2 DEIM 2026 3 / 18

関連研究による推薦システムにおける一般的なバイアスユーザ属性（性別・年齢・文化的背景など）や学習データに起因する偏りがみられるこれらは，生成する推薦リストを統計的に分析し，バイアスを確認入力情報によって推薦結果が変化するといった共通の問題 → 推薦結果の公平性に課題が生じる [Zhang+, 23][Sakib+, 24] LLM 2026.3.2 DEIM 2026 4 / 18

既存研究と本研究の違い既存研究本研究 [Zhang+, 23] [Sakib+, 24] LLMを用いた推薦システム補完関係の判定における推論の安定性目的におけるバイアスの評価の分析ユーザ属性により推薦リストが商品属性を意図的に操作した際のアプローチ変化するかを分析補完関係の判定変化を分析評価方法出力結果の分布を統計的に比較 LLMと人間の判定変化の不一致分析対象推薦結果補完関係の判定過程関心結果の公平性推論の安定性既存研究では推薦結果の偏りによる公平性について議論されてきたが，判定過程そのものの安定性は十分に検討されていない 2026.3.2 DEIM 2026 5 / 18

本研究の目的とリサーチクエスチョン本研究の目的補完推薦の自動化に向け，属性変更に対するLLMの補完関係判定の安定性を分析：LLMは補完関係を判定する際にどのような判定バイアスを示すか →商品属性を意図的に変更した際の，LLMと人間の判定変化を分析 RQ1 2026.3.2 DEIM 2026 6 / 18

判定バイアスとは何か補完関係の判定における前提補完関係は本来，商品の機能的関係や使用場面によって決まる例：ヘルメットと封筒が補完関係かどうかは，ブランドや色のみでは決まらない仮説：属性変更のみで補完関係が変化するのは不自然ではないか？定義商品の機能的関係が本質的には変化しないと考えられるにもかかわらず，属性変更のみによってLLMの判定が変化し，その変化が人間と一致しない現象 ⇒ LLMの補完関係の判定の安定性を高めるため，判定バイアスを分析 2026.3.2 DEIM 2026 7 / 18

アプローチ - 判定過程への介入（属性操作）判定バイアス属性操作前後で，LLMと人間の判定変化が一致しない場合商品属性の操作補完関係の判定過程に現れる判定バイアスを観測するために実施予備実験より，カテゴリ・ブランドに判定バイアスがあると仮説 2026.3.2 DEIM 2026 8 / 18

実験設定データセット FBLsデータセット[Sugahara+, 24]を参考に，Amazon.co.jpから商品ペアを収集商品属性の操作前後でLLMの判定が変化したペア30件変化しなかったペア30件使用モデル：gpt-5-nano 被験者実験判定者：学生10名，教職員2名の計12名補完関係の有無を2値で回答 3名分の回答による多数決で判定 2026.3.2 DEIM 2026 9 / 18

10.

実験結果（RQ1）- 全体傾向表1と表2 LLMと人間の判定の推移を集計した結果全体的な傾向 LLMの判定が属性操作前後で変化する割合は5割（実験設定上）人間の判定が属性操作前後で変化する割合は3割程度 ⇒ LLMと人間の判定変化には差がある 2026.3.2 DEIM 2026 10 / 18

11.

実験結果（RQ1）- 過剰反応と未検出過剰反応率： LLMが変化したケースの内，人間は変化していない割合 ⇒ 6割程度表3においてで計算未検出率：人間が変化したケースの内，LLMは変化していない割合 ⇒ 4割程度表3においてで計算 ⇒ いずれのケースにおいても一定程度で判定バイアスが生じている 2026.3.2 DEIM 2026 11 / 18

12.

補完関係判定における判定バイアス（RQ1）の考察観測された特徴 LLMは人間と比べて属性操作に対して判定を変化させやすい過剰反応と未検出の両方が存在考察属性変更に対する判定基準が不安定入力情報が限定的であるため，補完関係を十分に捉えられていない可能性仮説商品名 + カテゴリ・ブランドのみでは判断材料が十分でないのではないか ⇒ より多くの情報を与えれば，LLMと人間の判定の不一致は抑制されるのか？ 2026.3.2 DEIM 2026 12 / 18

13.

人間の判定と乖離しないための情報の量（RQ2）：LLMが人間の判定と乖離しない補完関係の判定を行うためには，どの程度の情報量が必要か → 入力する情報の量を段階的に増加した際の，人間の判定との一致度を分析入力情報量の設計レベル1：商品名 + 1属性（カテゴリ名またはブランド名）レベル2：商品名 + 2属性（カテゴリ名およびブランド名）レベル3：商品名 + 2属性 + 商品説明文商品説明文：Amazon.co.jp上に掲載されている商品の特徴，使用方法などを説明する文 RQ2 2026.3.2 DEIM 2026 13 / 18

14.

入力情報量レベルごとの乖離タイプの集計結果カテゴリ] 過剰反応：20件→3件（85%の減少），未検出：8件→7件 [ブランド] 過剰反応：18件→5件（72%の減少），未検出：8件→7件 ⇒ 過剰反応の低減には有効であることが示唆された [ 2026.3.2 DEIM 2026 14 / 18

15.

情報量増加後も判定が不一致だった商品ペアの解析対象情報量レベル1～3の全条件で過剰反応または未検出が生じた商品ペア過剰反応だったペア未検出だったペア補完関係が一意に定まりにくい明確な補完関係例：多機能ペンと消しゴム例：マーカー本体と替え芯利用状況によって関係性が変わる可能性属性操作後も機能的な関係は保持される ⇒ 過剰反応や未検出の抑制には，商品間の関係性が影響している可能性 2026.3.2 DEIM 2026 15 / 18

16.

の考察 RQ2 過剰反応未検出エラー解析の結果，関係が曖昧なペアにエラー解析の結果，明確な補完関係を多いもつペアに多い属性情報が限定的な場合，LLMの推論が LLMは補完関係という意味を強く保持揺らぎやすい属性操作後も判定が揺らぎにくい ⇒ 属性情報がより網羅的に提示されることで ⇒ 情報量増加では改善しにくい推論の不安定性が緩和 2026.3.2 DEIM 2026 16 / 18

17.

おわりに本研究のまとめ補完推薦の自動化においてLLMが示す補完関係の判定バイアスを分析商品属性の意図的な操作により，LLMと人間の判定変化が乖離する状況を整理過剰反応率と未検出率により，一定割合でLLMと人間の間で判定変化の不一致が発生（RQ1）ブランドおよびカテゴリの両方の情報の入力が過剰反応を抑制する上で有効だが，未検出に関しては改善が限定的（RQ2）今後の展望データセット（商品カテゴリやドメイン，商品数）の拡張複数のLLMモデル，プロンプト設計での比較 2026.3.2 DEIM 2026 17 / 18

18.

参考文献 [Li+, 24] L. Li, Z. Du: Complementary Recommendation in E-commerce: Definition, Approaches, and Future Directions,arXiv preprint arXiv:2403.16135, 2024. [Zhang+, 23] J. Zhang, K. Bao, Y. Zhang, W. Wang, F. Feng, X. He:Is Chat GPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation, Proc. 17th ACM Conf. Recomm. Syst., 993--999, 2023. [Sugahara+, 24] K. Sugahara, C. Yamasaki, K. Okamoto:Is It Really Complementary? Revisiting Behavior-based Labels for Complementary Recommendation, Proc. 18th ACM Conf. Recomm. Syst., 1091--1095, 2024 [Sakib+ 24] S. K. Sakib, A. B. Dab: Challenging Fairness: A Comprehensive Exploration of Bias in LLM-Based Recommendations, 2024 IEEE Int. Conf. Big Data, 1585--1592, 2024. 2026.3.2 DEIM 2026 18 / 18