スニペットとウェブカウントを用いたウェブ検索クエリの分類

439 Views

March 29, 11

#ウェブ検索クエリ #クエリ分類 #スニペット #ウェブカウント #固有表現抽出

スライド概要

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 195.4K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.5K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 83.5K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65.8K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 44K

ZAP - ZCPをベースとしたマルチK8sのアプリケーション実行基盤 #YJTC / YJTC21 B-3

yjtc

Yahoo!デベロッパーネットワーク 34.3K

各ページのテキスト

スニペットとウェブカウントを用いたウェブ検索クエリの分類ヤフー株式会社 R&D統括本部 PF開発本部要素技術開発部開発2 大久保拓也ヤフー株式会社 Y!J研究所颯々野学 1

アジェンダ • • • • • • 背景と目的クエリ分類の方法評価実験実験結果考察まとめと今後 2

背景と目的 3

背景  背景  情報検索の性能に対する期待は高まっている   高精度な検索,検索要求にあわせた結果の提示ユーザの検索要求を満たすには様々な工夫が必要   クエリに対する工夫 … クエリ拡張,クエリ分類など文書に対する工夫 … 文書分類,文書要約などクエリ分類の利用例クエリが人名なら写真やプロフィールを出す  本研究では、ウェブ検索クエリをカテゴリ分類するタスクに取り組む 4

クエリ分類における問題  検索クエリをカテゴリ分類する際の問題点  クエリが短い    クエリが曖昧   得られる情報が少ない単一トークンあるいは高々数トークンのクエリがほとんど複数の意味に解釈できるクエリそのものの持つ情報だけでは、十分な情報を得られないため、これらを補う方法が必要  クエリログ,検索エンジンの結果を利用するなど 5

本研究の目的 • 目的 • 「クエリ分類」に対して、(★)の情報が役立つか ★(1)スニペットから得られる文脈情報(※) (※)系列ラベリングで解く固有表現抽出(NER)を使う ★(2)共起表現のウェブカウント • 検証用のタスク • 単一トークンのクエリをPER,LOC,ORG,NOT_NEに分類例 PER(人名) LOC(地名) ORG(組織名) NOT_NE(その他) 原幹恵山本博池袋相模大野積水樹脂広島市立図書館他の固有物名一般名詞など 6

クエリ分類の方法 7

クエリ分類の方法  ３種類の方法で検証実験  方法1．スニペットを用いる方法      検索スニペットから得られるクエリ周辺の文脈情報に着目固有表現抽出によって文脈情報を処理目的の★(1)に相当方法2．ウェブカウントを用いる方法  クエリ周辺のテキストに現れる特定パターンに着目  目的の★(2)に相当方法3．スニペットとウェブカウントを組み合わせる方法   上の２つの方法の組み合わせ目的の★(1)+★(2)に相当 8

方法1．スニペットを用いる方法  スニペットとは   検索エンジンで検索した際に、結果ページタイトル下に表示される”検索クエリを含む短い説明文”のことクエリの前後の文脈情報を持っているスニペット  方法クエリスニペットクエリを含んだ文検索エンジン文抽出固有表現抽出例：積水樹脂 LOC:0 ORG:12 PER:0 => ORG 山本博 LOC:6 ORG:10 PER:44 => PER 多数決カテゴリ 9

10.

方法２．ウェブカウントを用いる方法   ウェブカウントとは  ある検索クエリでウェブ検索した際の”hit数”  ウェブカウントが大きい = 一般的な言葉方法クエリ検索エンジンウェブカウント素性分類器カテゴリパターン例積水樹脂：”積水樹脂株式”で検索 ⇒ ウェブカウント 138,000 ⇒ 組織名と推測山本博： ”山本博株式”で検索 ⇒ ウェブカウント 216 ⇒ 組織名ではないと推測 10

11.

パターンの説明   パターンとは  クエリの前後あるいは周辺に表れる特定の単語  前後に表れるものを接頭、接尾表現、周辺を周辺と表すパターンの収集方法  単一トークンのウェブ検索クエリを使いウェブ検索を行う  検索結果の上位50件からスニペットを抽出する  スニペットを文毎に分割し、クエリを含んだ文を収集する   収集した文を形態素解析し、解析結果から周辺、接頭表現、接尾表現をそれぞれ抽出するパターンの例周辺接頭表現接尾表現ファン、社アーティスト、法人株式、医院 11

12.

方法３．スニペットとウェブカウントを組み合わせる方法    スニペットの結果とウェブカウントの素性を同時に扱うスニペットの結果は、取得したスニペットから集計しているので、取得したスニペットの数で割ることにより正規化する正規化されたスニペットの結果と、ウェブカウントの素性で教師あり学習により分類器を作成し、カテゴリ分類を行う 12

13.

評価実験 14

14.

評価実験ー評価方法  評価方法   各分類方法を以下の方法で評価分類方法評価方法スニペット実験用クエリセットを分類して、分類精度をみるウェブカウント実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる組み合わせ実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる実験用クエリセット  あらかじめ人手でラベル付けされたクエリセット 15

15.

評価実験ー実験条件(1/3)  実験用クエリセット    2008年8月のウェブ検索クエリログ10万件のうちスペースを含まないものからランダムサンプリング組織名・人名・地名をIREXの固有表現定義に基づいてラベル付けを行った実験用クエリの内訳ラベルクエリ数クエリ例 ORG(組織名) 379 積水樹脂、広島市立図書館など PER(人名) 140 原幹恵、末續慎吾など LOC(地名) 65 池袋、相模大野など NOT_NE(その他) 914 貿易実務検定、ドコモダケなど合計 16 1498

16.

評価実験ー実験条件(2/3)  固有表現抽出  学習器   学習データ    YamChaに類似の独自の学習器ニュース記事を主としたデータを、IREXの固有表現定義に基づいてアノテーションしたもの定義のうち、人名・地名・組織名に関するもののみを適用抽出器の性能  ニュース記事を主とした評価データに対して、F値で87程度 17

17.

評価実験ー実験条件(3/3)  ウェブカウント用のパターン  収集に使用したクエリ   2010年1月1日から2010年8月15日までのウェブ検索クエリスペースが入っていないもの  集計したパターンのうち頻度が上位のもの  パターンの内訳パターンパターン数パターン例周辺 500 ファン,文化接頭表現 500 社,アーティスト接尾表現 500 医院,駅 18

18.

評価尺度  評価には以下の尺度を用いた  Accuracy   Recall   対象ラベルに対する正解数 / 対象ラベルのクエリ数 Precision   全てのラベルの正解数 / 全クエリ数対象ラベルに対する正解数 / 対象ラベルに分類したクエリ数 F値  2 * Precision * Recall / ( Precision + Recall ) 19

19.

実験結果 20

20.

実験結果(1/2)  固有表現全体の分類性能    固有表現であるORG,PER,LOCを対象のラベルとして各尺度を計算スニペットとウェブカウントを比較すると、スニペットでは Recall,ウェブカウントではPrecisionが高い Recall以外は、組み合わせることで分類性能が向上分類方法 Accuracy Recall Precision F値スニペット 69.29 69.35 53.29 60.27 ウェブカウント 76.03 61.64 66.30 63.89 組み合わせ 79.64 65.75 73.00 69.19 21

21.

実験結果(2/2)  各カテゴリの分類性能  スニペットとウェブカウントを比較すると、スニペットは Recallが高く、ウェブカウントはPrecisionが高い  全てのカテゴリで、組み合わせのF値が最も高い  全体を通してORGの分類性能は低い分類方法スニペットウェブカウント組み合わせカテゴリ Rec Pre F値 Rec Pre F値 Rec Pre F値 ORG 68.87 52.20 59.39 58.05 63.22 60.52 62.01 68.71 65.19 PER 73.57 55.98 63.58 69.29 75.78 72.39 75.71 82.81 79.10 LOC 63.08 53.95 58.16 66.15 64.18 65.15 66.15 76.79 71.07 NOT_NE 69.26 85.77 76.64 85.23 81.57 83.36 88.51 83.23 85.79 22

22.

考察 23

23.

スニペットを用いる方法(1/3)  使用する文の数と分類精度の関係について  使用する文の数が少ないとNOT_NEだが、文の数を増やすと何かしらの固有表現に分類される場合がある • スニペット中にクエリが固有表現として扱われた文があれば、その固有表現のカテゴリと決まるため  使用する文を増やせば、固有表現であるクエリは正しく分類され、 NOT_NEのクエリは誤って分類されやすくなると考えられるクエリ正解ラベル 10文使用 100文使用三輪明宏 PER NOT_NE PER 志賀高原 LOC NOT_NE LOC 諏訪湖花火 NOT_NE NOT_NE PER 使用する文の数によって分類結果が変化する例 24

24.

スニペットを用いる方法(2/3)  使用する文の数を変化させて分類精度を調査  使用する文の数を増やすと、Recallが上がりPrecisionが下がる  固有表現であるクエリ ⇒ 正しく分類されやすくなる  NOT_NEなクエリ ⇒ 誤って分類されやすくなる  よって、文の数を増やすことで、固有表現であるクエリのRecallを重視した分類になる文数文の数と分類精度の関係 25

25.

スニペットを用いる方法(3/3)  固有表現抽出器の精度依存について    スニペットから正しく固有表現抽出できることが前提固有表現抽出できないクエリは、使用する文の数を増やしても効果は期待しにくいクエリそのものが正しく形態素に分けられない場合などは、何文処理してもクエリ部分は抽出されないためクエリ正解ラベル分類結果 arsenal ORG NOT_NE ほしのまき PER NOT_NE うまく固有表現抽出できなかったクエリの例 26

26.

ウェブカウントを用いる方法   接頭表現や接尾表現のパターンが特定の単語を分類することを目的としているため、パターンに合致するようなクエリの分類精度はよいと考えられる一方、文脈をみていないので、文脈によって判断結果が変わるようなクエリを誤る場合がみられたクエリ正解ラベル分類結果クエリ正解ラベル分類結果 arsenal ORG ORG 浜松町駅 LOC ORG ほしのまき PER PER 内外タイムス ORG LOC ウェブカウントを用いる方法の分類結果の例 27

27.

組み合わせる方法 • ほぼ全てのカテゴリにおいて、組み合わせる方法の精度が最も高かった • 組み合わせることにより、スニペットとウェブカウントの弱点を補完できているためだと考えられる • スニペットとウェブカウントの特徴スニペットウェブカウント Recall or Precision (使用文が多ければ)Recall重視 Precision重視固有表現抽出の精度依存精度の影響を受ける精度の影響を受けない文脈に依存するクエリ文脈考慮するので対応できる文脈考慮しないので難しい 28

28.

まとめと今後 29

29.

まとめと今後 • まとめ • クエリのカテゴリ分類問題に対して、2種類の情報が役立つかを検証 • ３つの分類方法で評価実験 • スニペットは F値 60.27、ウェブカウントは F値 63.89 • 組み合わせることで精度が向上 F値 69.19 • 今後の課題 • 分類するカテゴリの種類を拡張 • 固有表現抽出器に使う学習データをウェブ文書(=スニペット)に対応させる 30

30.

ありがとうございました 31