ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案

>100 Views

March 22, 21

#ウェブ検索 #エンティティ名称予測 #部分一致文字列 #機械学習 #RandomForest

スライド概要

言語処理学会第27回年次大会(NLP2021)のポスター発表P3-16の資料です

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 186.7K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 90.6K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 79.6K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 62.9K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 41K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 32.4K

各ページのテキスト

P3-16 ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案豊田樹生, 小松広弥, 熊谷賢, 菅原晃平 {itoyota, hkomatsu, kenkumag, ksugawar}@yahoo-corp.jp ヤフー株式会社背景部分一致文字列の検索クエリはテイルクエリになりやすくクエリ-URLクリック頻度が取得しにくい RandomForest(RF)との線形補間による上記頻度に低依存な多観点のモデルを提案し次の貢献を行う： 1) 訓練事例の自動生成法の提案 2) 新素性の提案 3) PU学習によるラベリングの提案 4) nDCG@5の性能比較提案手法クリック有 1.1 クリック有無で正未付与キー生成後ブロッキング 2.1 PU学習 (重要度上位を掲載) MinMaxClickFreq 相対的人気度検索伊藤声優 1.2 素性を付与正正未の予測器生成後正例だけを使って定数cを求めるクリック無伊藤静伊藤_声優 MinMaxContProb 相対的”声優”度・・・結果未テリー伊藤伊藤_タレント KB 同一キーでブロッキング＼デカすぎ／ GrubbsSmirnov 人気の外れ値度・・・未正正 P: 正例の集合 s: ラベルの有無 n: Pの事例数伊藤健太郎 …,藤健_声優,伊藤_声優未未 “未”の事例に重みの濃淡をつけこの事例でRFを訓練 0.6 0.1 0.8 1 1 COMB(RF+CLK)が性能トップ改善例(CLKと比較、カッコ内は正答の順位) (nDCG@5,クエリ150例) DM: クエリ補完モデル (Nqs + αqs) / ∑s’(Nqs’+αqs’) 枚方公園: Nqs: クエリqでの正式名称sへのクリック頻度枚方パークが圏外から2位に(1) αqs’: q,sが同一表記で50か500、それ以外は1 阿部声優 : CLK: DMを多項分布化(Nqs / ∑s’Nqs’) 阿部玲子が圏外から3位に(3) RF: RandomForest 比較手法 COMB(RF + DM): RFとDMの線形補間 COMB(RF + CLK): RFとCLKの線形補間画像の出典：いらすとや(irasutoya.com) 論文の一部訂正のお詫び 3.1節誤:V∑を求正: U∑を求 4.5節誤:ジニ不純度正: 分散