787 Views
March 07, 25
スライド概要
AIは様々なタスクに活用されており,データに対するアノテーションへの利用可能性も示されている.本稿では,人とAIの協調アノテーションにより,スポーツのネタバレ画像データセットの質が向上するか検証する.また,AIが予測したラベルとその理由を,人がアノテーションする前に提示する場合と,人がアノテーションした後に提示する場合で,ラベル決定に異なる影響を及ぼすか明らかにする.アノテーション実験の結果,AIによる予測が正しい場合は,AIなしでアノテーションするときよりも正確なラベルが付与され,AIによる予測が誤っている場合は,AIなしでアノテーションするときよりも誤ったラベルが付与されることがわかった.また,AIの予測を提示するタイミングによって,ラベルの正確性や一致度,アノテーション作業の負荷の大きさが変わる可能性が示された.
明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室
2025.03.05-07 第212回HCI研究会 人-AI協調アノテーションの有用性 検証とAI予測の提示タイミングが 人のラベル決定に及ぼす影響 木下 裕一朗 中村 聡史(明治大学)
リサーチクエスチョン RQ1: 画像アノテーションタスクにおいて,人-AI協調 アノテーションは有用であるか? RQ2: AIによる予測結果の提示タイミングの違いによって, 人のラベル正確性や意思決定に及ぼす影響は異なるか? 2
AIの発展とアノテーションへの利用 文章の翻訳や要約,画像認識など様々なタスクにAIが利用 高性能なAIの開発には質の良いデータセットが必要 データセット構築にはコストがかかる データアノテーションにAIが利用可能か? 3
アノテーションにおけるAIの有用性 LLMをアノテータとして利用することでコストを削減可能 [He+ 2024] [Kaikaus+ 2024] タスクによって性能が異なり,アノテーションにおいてLLMが 人間にとって代わることはできない [Nguyen+ 2024] [Ziems+ 2024] 人とLLMが協調してアノテーションすることで, コストを削減しつつデータ品質を高められる可能性 [Wang+ 2024] He, Z. et al.: If in a Crowdsourcing Data Annotation Pipeline, a GPT-4, CHI’24. Kaikaus, J. et al.: Humans vs. ChatGPT: Evaluating Annotation Methods for Financial Corpora, IEEE BigData’23. Nguyen, T. et al.: Human vs ChatGPT: Effect of Data Annotation in Interpretable Crisis-Related Microblog Classification, WWW’24. Ziems, C. et al.: Can Large Language Models Transform Computational Social Science?, Computational Linguistics, 2024. Wang, X. et al.: Human-LLM Collaborative Annotation Through Effective Verification of LLM Labels, CHI’24. 4
人-AI協調アノテーションの先行研究 テキストアノテーションタスクにおける有用性を検証 [Wang+ 2024] (1)AIなし (2)AIの予測ラベルを提示 (3)AIの予測ラベルと理由を提示 AIの予測ラベルが正しいとき,(3)がラベル正確性を向上させる 先行研究はAIの予測結果を人のアノテーション前に提示 人のアノテーション後に提示した場合,人間のラベル決定や その正確性に及ぼす影響が変わるのではないか? Wang, X. et al.: Human-LLM Collaborative Annotation Through Effective Verification of LLM Labels, CHI’24. 5
AIの予測結果の提示タイミング AIなし AI予測の先出し AI予測の後出し 6
AIの予測結果の提示タイミング AIなし AI予測の先出し AI予測の後出し 7
AIの予測結果の提示タイミング AIなし AI予測の先出し AI予測の後出し 8
これまで取り組んだ研究とその問題点 画像によるスポーツの試合結果のネタバレに着目し, ネタバレ画像データセットを構築 [Kinoshita+ 2024] アノテータ間でラベルが分かれているものが存在した ネタバレ画像データセットの質改善にAIが有用か? 試合結果が記されている Kinoshita, Y. et al.: Detecting Sports Spoiler Images on YouTube, CollabTech’24. 選手の様子から 試合結果の想像がつく 9
目的 ① ネタバレ画像データセットの品質向上に対する 人-AI協調アノテーションの有用性検証 ② AIによる予測結果の提示タイミングの違いによって,人間の ラベル決定やその正確性に及ぼす影響が異なるか明らかにする 10
実験設計 3手法を用いてネタバレ画像データセットの一部のデータに対し 再アノテーションを実施 • AIなし手法:人間が自身で考えてアノテーション • AI予測先出し手法:AIの予測ラベルとその理由が表示された 状態で人間がアノテーションする • AI予測後出し手法:人間のアノテーション後にAIによる 予測ラベルとその理由が表示される 11
実験設計:使用データとAI予測の取得 本実験ではサッカーの画像450枚を使用 ネタバレ・非ネタバレの割合が同程度になるように選定 OpenAIのGPT-4oを使用し,450枚の画像に対するAIの 予測ラベルとその理由を取得 GPT-4o ラベル:「明らかにわかる」 理由:「最終スコアが記されているため」 12
実験設計 各実験参加者が3手法すべてを用いてアノテーションを実施 450枚の画像を3分割し,それぞれ異なる手法でアノテーション AIの利用によってアノテーション中にラベル判断基準が 変化するか調べるため,同一画像を各手法の初めと最後に提示 15枚の画像に合計3回アノテーション 過去にアノテータ間でラベルが分かれた15枚を選定 計180枚 画像15枚 画像150枚 同一画像(150枚の中から抽出) 画像15枚 13
実験参加者 実験参加者:サッカーの視聴経験・競技経験がある30名 平均年齢21.23歳,標準偏差2.14 実装したWebシステムを用いてアノテーションを実施 AIなし AI予測先出し AI予測後出し 14
結果:ラベルの正確性 手法ごとに各画像に対して10件のラベルが付与された ラベルを統合し,各画像についてネタバレ/非ネタバレを決定 ネタバレ/非ネタバレが正しく決定された割合 AIなし ネタバレ画像 非ネタバレ画像 0.83 0.83 AI予測先出し 0.78 0.85 AI予測後出し 0.67 0.89 15
結果:ラベルの正確性 AIの予測ラベルが正しいとき AIなし ネタバレ画像 非ネタバレ画像 0.83 0.83 AI予測先出し AI予測後出し 0.93 0.91 0.87 0.93 ラベル:「予想できる」 理由:「選手たちが肩を組んで喜ん でいる様子から、試合に勝利したと 予想できる。」 AIの予測ラベルが誤っているとき AIなし ネタバレ画像 非ネタバレ画像 0.83 0.83 AI予測先出し AI予測後出し 0.67 0.77 0.54 0.85 ラベル:「わからない」 理由:「試合の結果やスコアが明示 されていないため、結果を特定する ことはできません。」
結果:ラベル判断基準の一貫性 3回アノテーションする対象であった画像について,3回とも同 じラベルが選択された割合を手法ごとに算出 AIの予測結果を提示した手法の方が高い割合 AIなし 0.70 AI予測先出し AI予測後出し 0.78 0.75 17
結果:アンケート 各質問に対して7段階(-3から+3)のリッカート尺度で回答を取得 値が高いほどその項目に対する同意を表す アノテーションのやりやすさ:AIなしが最も高い AI予測結果の信頼度や精度の高さ:わずかに先出し手法が上回る AIなし AI予測先出し AI予測後出し アノテーションはやりやすかった 1.40 0.60 1.16 AIが予測した結果を信頼した N/A -0.32 -0.80 AIの予測精度は高いと感じた N/A 0.00 -0.33 18
人-AI協調アノテーションの有用性 AIの予測ラベルが正確なとき,アノテーションの正確性は最も高い 予測ラベルが誤っていた場合は,AIなしのときよりも下回る 人-AI協調アノテーションは有用である一方で, AIの誤った予測は正確性を低下させる 同一画像に対する3回のラベル一致割合:AIなし < AI予測提示 予測を提示することでラベル判断基準の一貫性が向上 Cabrera, A. et al.: Improving Human-AI Collaboration With Descriptions of AI Behavior, Proc. ACM Hum.-Comput. Interact., 2023. 19
AI予測の提示タイミングによる違い • • • • ラベル正確性 AI予測先出し手法 アノテーション時間 同程度 アノテーションのやりやすさ AI予測後出し手法 AI予測結果の信頼度,精度の高さの認識 AI予測先出し手法 予測提示のタイミングによって,予測に対する信頼度や 精度の認識に差が生じる可能性 ラベル正確性の点ではAI予測を先に提示することが望ましい 20
展望 • ネタバレ画像アノテーションにおけるAIの予測精度改善, 予測精度をアノテータに提示 [Cabrera+ 2023] • AI予測提示による負荷を軽減するアノテーションインタフェース • • 予測ラベルをデフォルトのラベル選択として設定 予測理由の重要部分を抽出して強調表示 [Majumder+ 2022] ネタバレ画像データセットの再構築と拡張 Cabrera, A. A. et al.: Improving Human-AI Collaboration With Descriptions of AI Behavior, Proc. ACM Hum.-Comput. Interact., 2023. Majumder, B. et al.: Knowledge-Grounded Self-Rationalization via Extractive and Natural Language Explanations, ICML’22. 21
まとめ 目的 • ネタバレアノテーションにおける人-AI協調アノテーションの有用性検証 • AI予測の提示タイミングの違いによる影響を明らかにする 結果 • • • AIの予測ラベルが正しいとき,ラベルの正確性が最も高い ラベル正確性の点では先に予測を提示する方が良い アノテーション作業の負荷に課題 展望 • AIの予測精度の改善と作業負荷を軽減するインタフェース実装 • データセットの再構築と拡張 22