クラウドソーシングを活用したGUI実験における参加者スクリーニング手法のスマートフォンでの検証

-- Views

November 25, 25

スライド概要

profile-image

明治大学 総合数理学部 先端メディアサイエンス学科 中村聡史研究室

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

2025.11.27 第215回 HCI研究発表会 クラウドソーシングを活用したGUI実験における 参加者スクリーニング手法のスマートフォンでの検証 三山貴也 中村聡史 (明治大学) 山中祥太(LINEヤフー株式会社) 1

2.

背景・目的 クラウドソーシング実験 クラウドソーシングで多くの参加者を募集でき、 大規模なサンプルを短期間に収集できる 実験実施者が参加者の状況を確認できないため、 指示を守らない or 不注意な参加者が存在 [Brühlmann+ 2020] 実験データ品質を確保するために 適切なユーザに実験を依頼することが重要 Brühlmann, F., Petralito, S., Aeschbach, L. F. and Opwis, K.: The quality of data collected online: An investigation of careless responding in a crowdsourced sample, Methods in Psychology, Vol. 2, p. 100022 (2020). 2

3.

背景・目的 クラウドソーシングを活用したGUI実験 大規模なサンプルを収集でき、発生確率が低い事象の検証に効果的 例)ポインティングタスクのエラー [Yamanaka 2021] クラウドソーシング実験の参加者は、実験室実験の参加者よりも 操作時間が短くエラー率が高い [Findlater+ 2017] 操作時間やエラー率のモデルの検証は 参加者が指示を守って適切に操作する前提 適切な操作を行うユーザに実験を依頼することで データ品質を向上させたい Yamanaka, S.: Utility of crowdsourced user experiments for measuring the central tendency of user performance to evaluate error-rate models on guis, Proceedings of the AAAI Conference on Human Computation and Crowdsourcing, Vol. 9, pp. 155–165 (2021). Findlater, L., Zhang, J., Froehlich, J. E. and Moffatt, K.: Differences in crowdsourced vs. lab-based mobile and desktop input performance data, Proceedings of the 2017 CHI conference on human factors in computing systems, pp. 6813–6824 (2017). 3

4.

適切な操作 速い・ミスが多い 極端に速い 4

5.

アプローチ 事前タスクによって参加者スクリーニングを行い 本来目的とする実験を適切なユーザ群のみに依頼 事前タスク 主タスク 適切なユーザを抽出 多くのユーザが 実験に参加 適切なユーザが 実験に参加 5

6.

アプローチ 主タスク ポインティングタスク:上下交互にターゲット(水色)をタップ 操作時間(MT)エラー率(ER)を分析してモデルを検証 6

7.

アプローチ 主タスク ポインティングタスク:上下交互にターゲット(水色)をタップ 操作時間(MT)エラー率(ER)を分析してモデルを検証 ポインティングと関連する操作を含む事前タスクによって 適切な操作を行う参加者をスクリーニングしやすい 7

8.

アプローチ 事前タスク サイズ調整タスク:物理カードとカード画像の大きさを一致させる ディスプレイ解像度(px/mm)をもとに画面表示をmm単位で制御 調整前 [Li+ 2020] 調整後 Li, Q., Joo, S. J., Yeatman, J. D. and Reinecke, K.: Controlling for participants’ viewing distance in large-scale, psychophysical online experiments using a virtual chinrest,Scientific reports, Vol. 10, No. 1, p. 904 (2020). 8

9.

アプローチ 事前タスク サイズ調整タスク:物理カードとカード画像の大きさを一致させる ディスプレイ解像度(px/mm)をもとに画面表示をmm単位で制御 [Li+ 2020] 物理カードとカード画像の大きさが一致しているかどうかで 各参加者の操作の正確性を評価できる 調整前 調整後 Li, Q., Joo, S. J., Yeatman, J. D. and Reinecke, K.: Controlling for participants’ viewing distance in large-scale, psychophysical online experiments using a virtual chinrest,Scientific reports, Vol. 10, No. 1, p. 904 (2020). 9

10.

これまでの研究 [HCI211, HCI214] 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク 事前タスクで不合格とされた参加者(不合格群)の割合を低くするほど 既存のGUI操作モデルへの適合度が向上 サイズ調整タスクによる参加者スクリーニングが データ品質(モデル適合度)の向上に有効 三山貴也,中村聡史,山中祥太:Web ベースの実験における事前タスクを用いたユーザ分類の検討, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-211, No. 14, pp. 1–8 (2025). 三山貴也,中村聡史,山中祥太:クラウドソーシングを活用したGUI実験における参加者スクリーニング手法の検証, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-214, No. 14, pp. 1–8 (2025). 10

11.

これまでの研究 [HCI211, HCI214] 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク 事前タスクで不合格とされた参加者(不合格群)の割合を低くするほど 既存のGUI操作モデルへの適合度が向上 PC限定の調査で、画面表示の制御が不十分であり、 厳密な評価ができていなかった サイズ調整タスクによる参加者スクリーニングが データ品質(モデル適合度)の向上に有効 三山貴也,中村聡史,山中祥太:Web ベースの実験における事前タスクを用いたユーザ分類の検討, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-211, No. 14, pp. 1–8 (2025). 三山貴也,中村聡史,山中祥太:クラウドソーシングを活用したGUI実験における参加者スクリーニング手法の検証, 情報処理学会 研究報告ヒューマンコンピュータインタラクション(HCI),Vol. 2025-HCI-214, No. 14, pp. 1–8 (2025). 11

12.

今回の研究 スマートフォン(iPhone)環境で、 画面表示をmm単位で制御して、タスクを厳密に評価 iPhoneの解像度データ* を利用して、px から mm に単位を変換 • サイズ調整タスク : 誤差をmm単位で評価 • ポインティングタスク : ターゲットのサイズをmm単位で制御 スクリーニングの効果を明確に示すことを目指す * https://www.ios-resolution.com/ 12

13.

実験 分析対象:534人(男性297人、女性235人、その他2人) Yahoo!クラウドソーシングを通じて、 全参加者にサイズ調整タスクとポインティングタスクの両方を実施 サイズ調整タスク ポインティングタスク 1回 4セット 13

14.

実験 サイズ調整タスク 誤差の分布 参加者数 物理カードとカード画像の 大きさを一致させる 317人(59%)が 2mm 未満 144人(27%)が 10mm 以上 誤差[mm] 14

15.

実験 ポインティングタスク 上下交互に ターゲットをタップ ターゲット間の距離 A 30mm で固定 ターゲットの縦幅 W 2.0 2.8 3.6 4.4 5.2 6.0 6.8 7.6 8.4mm の 9条件 1セット = 90試行 W の 9条件が 10試行ずつ 順番はランダムで設定 エラー発生時の処理 タップが成功するまでリトライ(再試行あり) 15

16.

シミュレーション サイズ調整タスクで不合格となった参加者(不合格群)が混入した場合の ポインティングタスクの結果をシミュレーション 参加者全体に含まれる不合格群の割合を変化させ、 そのときのポインティングタスクの結果でモデル適合度を算出 例)不合格群 0% では R² = 0.9 だが、不合格群 50% では R² = 0.8 に低下 合格群 :サイズ調整タスクの誤差が閾値 T (mm) 未満の参加者 不合格群 :それ以外の参加者 スクリーニングによってモデル適合度が向上するか検証 16

17.

シミュレーション 参加者数が合計 N (人)、閾値が T (mm) の状況で、不合格群の割合 X (%) を変化させ、 そのときのポインティングタスクの結果で既存モデルの適合度を算出 • ターゲット間の距離 A とターゲットの幅 W から操作時間 MT を予測 [Soukoreff+ 2004] 𝑀𝑇 = 𝑎 + 𝑏 ∙ log 2 𝐴 +1 𝑊 • 幅 W のターゲットのタップ成功率 P を予測 [Yamanaka+ 2020] 𝑊 𝑊 𝑊 𝑃 − ≤𝑌≤ = erf 2 2 2 2𝜎𝑦 𝑎, 𝑏, 𝜎𝑦 ∶ 実験で得られる定数 Soukoreff, R. W. and MacKenzie, I. S.: Towards a standard for pointing device evaluation, perspectives on 27 years of Fitts’ law research in HCI, International journal of human-computer studies, Vol. 61, No. 6, pp. 751–789 (2004). Yamanaka, S. and Usuba, H.: Rethinking the dual gaussian distribution model for predicting touch accuracy in on-screen-start pointing tasks, Proceedings of the ACM on Human-Computer Interaction, Vol. 4, No. ISS, pp. 1–20 (2020). 17

18.

シミュレーション 分析手順 1. 閾値 T (mm) によって、すべての参加者を合格群と不合格群に分類 2. N (人) のうち X (%) の人数を不合格群から、残りの人数を合格群から ランダムに抽出して、合計 N (人) の参加者群をつくる N人のうち 100-X(%) の人数 合格群 N人のうち X(%) の人数 不合格群 参加者群(N人) 18

19.

シミュレーション 分析手順 3. 抽出した参加者群のポインティングタスクの 操作時間 MT とエラー率 ER について、既存モデルの適合度を算出 4. 以上を 1,000回繰り返し、適合度の平均をとることで、 参加者数 N、閾値 T、不合格群の割合 X の場合の適合度とする 合格群 100-X(%) 不合格群 X(%) 参加者群(N人) 19

20.

シミュレーション 分析条件 参加者数 N、閾値 T、不合格群の割合 X を変化させてシミュレーション • N :80人 • T :1mm から 10mm まで 1mm ずつ区切った値 • X :0% から 100% まで 10% ずつ区切った値 例)N = 80, T = 2, X = 30 の場合、 参加者数が合計 80人 で、閾値を 2mm に設定すると、 不合格群の割合は 30% という参加者群について検証 合格群 70% 不合格群 30% 参加者群(80人) 20

21.

結果 ヒートマップ 操作時間 MT 厳 高 閾値 T [mm] モデル適合度 R² 緩 低 不合格群の割合 X [%] 少 多 21

22.

結果・考察 操作時間 MT 左上から右下にかけて モデル適合度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル適合度が低下 サイズ調整タスクによる参加者スクリーニングが モデル適合度の向上に有効 22

23.

結果・考察 エラー率 ER 左上から右下にかけて モデル適合度が低下 ↓ 閾値を緩く設定した場合に 不合格群の割合が多くなると モデル適合度が低下 サイズ調整タスクによる参加者スクリーニングが モデル適合度の向上に有効 23

24.

結果・考察 エラー率 ER 閾値 1mm、不合格群 0% で適合度が最良ではない ↓ 真面目な参加者と 不真面目な参加者の 区別できていない タップが成功しないと次に進めない(再試行あり) → 不真面目な参加者が実験を短時間で終了させようとしても 速く正確にタップする(正常な操作) 24

25.

追加実験 真面目な参加者と不真面目な参加者を区別できるか 上下交互に ターゲットをタップ エラー発生時の処理 エラーでもすぐに次の試行に進む(再試行なし) → 指示を守らない操作が発生しやすい その他の条件は全く同じで、 サイズ調整タスク → ポインティングタスク 分析対象:519人 (男性250人、女性266人、その他3人) 25

26.

結果・考察 エラー率 ER エラー再試行あり エラー再試行なし 「再試行なし」では、不合格群の割合による影響が顕著になり、 閾値 1mm、不合格群 0% で適合度が最良 → サイズ調整タスクで真面目な参加者と不真面目な参加者を区別できる 26

27.

結果・考察 エラー率 ER エラー再試行あり エラー再試行なし 「再試行なし」のような指示を守らない操作が発生しやすい状況では、 不真面目な参加者の影響が大きくなる → スクリーニングの効果が明確に現れる 27

28.

今後の展望 サイズ調整の誤差もとに適切な参加者を抽出して ポインティングのモデル適合度が向上 ↓ 事前タスクが主タスクと異なる場合にもスクリーニングが可能 サイズ調整タスクによるスクリーニングが 他のGUI実験(ステアリングの法則など)にも適用可能か検証 28

29.

まとめ 背景・目的: クラウドソーシングを活用したGUI実験で、 データ品質を確保するために、適切なユーザに実験を依頼したい アプローチ: 実験で要求される操作と関連する事前タスクを用意し、 その結果をもとに適切な操作を行うユーザを抽出 実験・分析: 事前タスク:サイズ調整タスク、主タスク:ポインティングタスク 事前タスクで不合格となった参加者の混入が実験結果に及ぼす影響 をシミュレーションによって検証(iPhone環境で厳密に評価) 結果・考察: 不合格群の割合を少なくすると、GUI操作のモデル適合度が向上 サイズ調整タスクで適切なユーザを抽出できている 29