283 Views
March 29, 11
スライド概要
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
スニペットとウェブカウントを用いた ウェブ検索クエリの分類 ヤフー株式会社 R&D統括本部 PF開発本部 要素技術開発部 開発2 大久保 拓也 ヤフー株式会社 Y!J研究所 颯々野 学 1
アジェンダ • • • • • • 背景と目的 クエリ分類の方法 評価実験 実験結果 考察 まとめと今後 2
背景と目的 3
背景 背景 情報検索の性能に対する期待は高まっている 高精度な検索,検索要求にあわせた結果の提示 ユーザの検索要求を満たすには様々な工夫が必要 クエリに対する工夫 … クエリ拡張,クエリ分類 など 文書に対する工夫 … 文書分類,文書要約 など クエリ分類の利用例 クエリが人名なら写真やプロフィールを出す 本研究では、ウェブ検索クエリをカテゴリ分類する タスクに取り組む 4
クエリ分類における問題 検索クエリをカテゴリ分類する際の問題点 クエリが短い クエリが曖昧 得られる情報が少ない 単一トークンあるいは高々数トークンのクエリがほとんど 複数の意味に解釈できる クエリそのものの持つ情報だけでは、十分な情報 を得られないため、これらを補う方法が必要 クエリログ,検索エンジンの結果を利用する など 5
本研究の目的 • 目的 • 「クエリ分類」に対して、(★)の情報が役立つか ★(1)スニペットから得られる文脈情報(※) (※)系列ラベリングで解く固有表現抽出(NER)を使う ★(2)共起表現のウェブカウント • 検証用のタスク • 単一トークンのクエリをPER,LOC,ORG,NOT_NEに分類 例 PER(人名) LOC(地名) ORG(組織名) NOT_NE(その他) 原幹恵 山本博 池袋 相模大野 積水樹脂 広島市立図書館 他の固有物名 一般名詞など 6
クエリ分類の方法 7
クエリ分類の方法 3種類の方法で検証実験 方法1.スニペットを用いる方法 検索スニペットから得られるクエリ周辺の文脈情報に着目 固有表現抽出によって文脈情報を処理 目的の★(1)に相当 方法2.ウェブカウントを用いる方法 クエリ周辺のテキストに現れる特定パターンに着目 目的の★(2)に相当 方法3.スニペットとウェブカウントを組み合わせる方法 上の2つの方法の組み合わせ 目的の★(1)+★(2)に相当 8
方法1.スニペットを用いる方法 スニペットとは 検索エンジンで検索した際に、結果ページタイトル下に 表示される”検索クエリを含む短い説明文”のこと クエリの前後の文脈情報を持っている スニペット 方法 クエリ スニペット クエリを 含んだ文 検索 エンジン 文抽出 固有表現 抽出 例: 積水樹脂 LOC:0 ORG:12 PER:0 => ORG 山本博 LOC:6 ORG:10 PER:44 => PER 多数決 カテゴリ 9
方法2.ウェブカウントを用いる方法 ウェブカウントとは ある検索クエリでウェブ検索した際の”hit数” ウェブカウントが大きい = 一般的な言葉 方法 クエリ 検索 エンジン ウェブカウ ント素性 分類器 カテゴリ パターン 例 積水樹脂:”積水樹脂株式”で検索 ⇒ ウェブカウント 138,000 ⇒ 組織名と推測 山本博: ”山本博株式”で検索 ⇒ ウェブカウント 216 ⇒ 組織名ではないと推測 10
パターンの説明 パターンとは クエリの前後あるいは周辺に表れる特定の単語 前後に表れるものを接頭、接尾表現、周辺を周辺と表す パターンの収集方法 単一トークンのウェブ検索クエリを使いウェブ検索を行う 検索結果の上位50件からスニペットを抽出する スニペットを文毎に分割し、クエリを含んだ文を収集する 収集した文を形態素解析し、解析結果から 周辺、接頭表現、接尾表現をそれぞれ抽出する パターンの例 周辺 接頭表現 接尾表現 ファン、社 アーティスト、法人 株式、医院 11
方法3.スニペットとウェブカウントを 組み合わせる方法 スニペットの結果とウェブカウントの素性を同時に 扱う スニペットの結果は、取得したスニペットから 集計しているので、取得したスニペットの数で割る ことにより正規化する 正規化されたスニペットの結果と、ウェブカウントの 素性で教師あり学習により分類器を作成し、 カテゴリ分類を行う 12
評価実験 14
評価実験ー評価方法 評価方法 各分類方法を以下の方法で評価 分類方法 評価方法 スニペット 実験用クエリセットを分類して、分類精度をみる ウェブカウント 実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる 組み合わせ 実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる 実験用クエリセット あらかじめ人手でラベル付けされたクエリセット 15
評価実験ー実験条件(1/3) 実験用クエリセット 2008年8月のウェブ検索クエリログ10万件のうち スペースを含まないものからランダムサンプリング 組織名・人名・地名をIREXの固有表現定義に基づいて ラベル付けを行った 実験用クエリの内訳 ラベル クエリ数 クエリ例 ORG(組織名) 379 積水樹脂、広島市立図書館 など PER(人名) 140 原幹恵、末續慎吾 など LOC(地名) 65 池袋、相模大野 など NOT_NE(その他) 914 貿易実務検定、ドコモダケ など 合計 16 1498
評価実験ー実験条件(2/3) 固有表現抽出 学習器 学習データ YamChaに類似の独自の学習器 ニュース記事を主としたデータを、IREXの固有表現定義に 基づいてアノテーションしたもの 定義のうち、人名・地名・組織名に関するもののみを適用 抽出器の性能 ニュース記事を主とした評価データに対して、F値で87程度 17
評価実験ー実験条件(3/3) ウェブカウント用のパターン 収集に使用したクエリ 2010年1月1日から2010年8月15日までのウェブ検索クエリ スペースが入っていないもの 集計したパターンのうち頻度が上位のもの パターンの内訳 パターン パターン数 パターン例 周辺 500 ファン,文化 接頭表現 500 社,アーティスト 接尾表現 500 医院,駅 18
評価尺度 評価には以下の尺度を用いた Accuracy Recall 対象ラベルに対する正解数 / 対象ラベルのクエリ数 Precision 全てのラベルの正解数 / 全クエリ数 対象ラベルに対する正解数 / 対象ラベルに分類したクエリ数 F値 2 * Precision * Recall / ( Precision + Recall ) 19
実験結果 20
実験結果(1/2) 固有表現全体の分類性能 固有表現であるORG,PER,LOCを対象のラベルとして 各尺度を計算 スニペットとウェブカウントを比較すると、スニペットでは Recall,ウェブカウントではPrecisionが高い Recall以外は、組み合わせることで分類性能が向上 分類方法 Accuracy Recall Precision F値 スニペット 69.29 69.35 53.29 60.27 ウェブカウント 76.03 61.64 66.30 63.89 組み合わせ 79.64 65.75 73.00 69.19 21
実験結果(2/2) 各カテゴリの分類性能 スニペットとウェブカウントを比較すると、スニペットは Recallが高く、ウェブカウントはPrecisionが高い 全てのカテゴリで、組み合わせのF値が最も高い 全体を通してORGの分類性能は低い 分類方法 スニペット ウェブカウント 組み合わせ カテゴリ Rec Pre F値 Rec Pre F値 Rec Pre F値 ORG 68.87 52.20 59.39 58.05 63.22 60.52 62.01 68.71 65.19 PER 73.57 55.98 63.58 69.29 75.78 72.39 75.71 82.81 79.10 LOC 63.08 53.95 58.16 66.15 64.18 65.15 66.15 76.79 71.07 NOT_NE 69.26 85.77 76.64 85.23 81.57 83.36 88.51 83.23 85.79 22
考察 23
スニペットを用いる方法(1/3) 使用する文の数と分類精度の関係について 使用する文の数が少ないとNOT_NEだが、文の数を 増やすと何かしらの固有表現に分類される場合がある • スニペット中にクエリが固有表現として扱われた文があれば、 その固有表現のカテゴリと決まるため 使用する文を増やせば、固有表現であるクエリは正しく分類され、 NOT_NEのクエリは誤って分類されやすくなると考えられる クエリ 正解ラベル 10文使用 100文使用 三輪明宏 PER NOT_NE PER 志賀高原 LOC NOT_NE LOC 諏訪湖花火 NOT_NE NOT_NE PER 使用する文の数によって分類結果が変化する例 24
スニペットを用いる方法(2/3) 使用する文の数を変化させて分類精度を調査 使用する文の数を増やすと、Recallが上がりPrecisionが下がる 固有表現であるクエリ ⇒ 正しく分類されやすくなる NOT_NEなクエリ ⇒ 誤って分類されやすくなる よって、文の数を増やすことで、固有表現であるクエリのRecallを 重視した分類になる 文数 文の数と分類精度の関係 25
スニペットを用いる方法(3/3) 固有表現抽出器の精度依存について スニペットから正しく固有表現抽出できることが前提 固有表現抽出できないクエリは、使用する文の数を 増やしても効果は期待しにくい クエリそのものが正しく形態素に分けられない場合など は、何文処理してもクエリ部分は抽出されないため クエリ 正解ラベル 分類結果 arsenal ORG NOT_NE ほしのまき PER NOT_NE うまく固有表現抽出できなかったクエリの例 26
ウェブカウントを用いる方法 接頭表現や接尾表現のパターンが特定の単語を分類す ることを目的としているため、パターンに合致するようなク エリの分類精度はよいと考えられる 一方、文脈をみていないので、文脈によって判断結果が 変わるようなクエリを誤る場合がみられた クエリ 正解ラベル 分類結果 クエリ 正解ラベル 分類結果 arsenal ORG ORG 浜松町駅 LOC ORG ほしのまき PER PER 内外タイムス ORG LOC ウェブカウントを用いる方法の分類結果の例 27
組み合わせる方法 • ほぼ全てのカテゴリにおいて、組み合わせる方法 の精度が最も高かった • 組み合わせることにより、スニペットとウェブカウント の弱点を補完できているためだと考えられる • スニペットとウェブカウントの特徴 スニペット ウェブカウント Recall or Precision (使用文が多ければ)Recall重視 Precision重視 固有表現抽出の精度依存 精度の影響を受ける 精度の影響を受けない 文脈に依存するクエリ 文脈考慮するので対応できる 文脈考慮しないので難しい 28
まとめと今後 29
まとめと今後 • まとめ • クエリのカテゴリ分類問題に対して、2種類の情報が役 立つかを検証 • 3つの分類方法で評価実験 • スニペットは F値 60.27、ウェブカウントは F値 63.89 • 組み合わせることで精度が向上 F値 69.19 • 今後の課題 • 分類するカテゴリの種類を拡張 • 固有表現抽出器に使う学習データを ウェブ文書(=スニペット)に対応させる 30
ありがとうございました 31