大規模日本語ブログコーパスにおける言語モデルの構築と評価

867 Views

March 29, 11

#自然言語処理 #言語モデル #大規模データ #MapReduce #トレードオフ

スライド概要

Yahoo!デベロッパーネットワーク

@ydnjp

スライド一覧

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

Yahoo!デベロッパーネットワーク 193.6K

ゼロから始める転移学習

Yahoo!デベロッパーネットワーク 92.3K

ヤフーにおける WebAuthn と Passkey の UX の紹介と考察 #idcon #fidcon

idcon fidcon

Yahoo!デベロッパーネットワーク 82.4K

OpenID Connectとネイティブアプリを取り巻く仕様と動向 Yahoo! JAPANの取り組み #openid #openid_tokyo

openid openid_tokyo

Yahoo!デベロッパーネットワーク 65K

運用業務とスクラムは本当に組み合わせにくいのか︖運用業務が大半を占めるプロダクト開発での試行錯誤

devsumi

Yahoo!デベロッパーネットワーク 43.1K

ヤフーのオンプレ機械学習基盤AIPFについて #ml_kubernetes

ml_kubernetes

Yahoo!デベロッパーネットワーク 33.5K

各ページのテキスト

大規模日本語ブログコーパスにおける言語モデルの構築と評価ヤフー株式会社奥野陽颯々野学

概要 • 大規模言語モデルのトレードオフを調査 • Web日本語Nグラムを評価 • ブログから言語モデルを構築・評価 2

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 3

発表の構成 • 背景・目的 – 言語モデルとは – 大規模コーパスの利用 – 研究の目的 • 大規模言語モデルの構築と評価 • 実験 4

背景・目的(1) • 言語モデルとは [北ら, 1999] – 文の確率をモデル化 – 仮名漢字変換などに応用 [森ら, 1999] – 訓練コーパスから推定例： P(私の名前は中野です）＞ P(はです中野名前のは私） 5

背景・目的(2) • 近年、大規模コーパスが普及 – Webからコーパスが入手可能に – 統計的な手法では恩恵が大きい • しかし… 6

背景・目的(3) • 構築時の問題点 – 多くの計算とメモリを必要とする – 1台のコンピュータに保存できない • 利用時の問題点 – 検索などのリアルタイム処理が必要 – モデルサイズがメモリに収まらない 7

背景・目的(4) • データ量と性能はトレードオフの関係 • 適切なバランスの選択が必要研究の目的：大規模な言語モデルを利用する上でのトレードオフを明らかにすること 8

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 – 単語N-gramモデル – スムージング方式 – クロスエントロピーによる評価 – MapReduceを用いたN-gram集計 • 実験 9

10.

単語N-gramモデル • 課題：文（単語列）の生成確率を推定 • アプローチ：マルコフモデル • 単純な最尤推定： • しかし… 10 ゼロ頻度問題

11.

Dirichletスムージング • ゼロ頻度問題に対処：スムージング • N-gram確率を(N-1)-gramを用いて補完 • 再帰的に適用し、1-gramは最尤推定 11

12.

Kneser-Neyスムージング [Kneserら, 1995] • 工夫1：低頻度語の影響を下げる • 工夫2：低次のN-gramを滑らかにする：abの後ろに続く単語の種類数 12

13.

クロスエントロピー • 評価指標：クロスエントロピー – テストコーパスを用いて評価 – 値が小さいほど性能が良い – 単位：ビット – パープレキシティの対数 13

14.

MapReduceによるN-gram集計 • 言語モデルにはN-gram頻度が必要 • 大規模コーパスの集計は並列化が必須 • Hadoop MapReduceによるN-gram集計 • 形態素解析で分かち書き 14

15.

MapReduceとは [Jeffreyら, 2004] doc doc doc map map map reduce reduce reduce n-gram n-gram n-gram Shuffle 15

16.

擬似コード 16

17.

発表の構成 • 背景・目的 • 大規模言語モデルの構築と評価 • 実験 – Web日本語Nグラムを用いた予備実験 – 大規模ブログコーパスの集計 – 大規模言語モデルの評価 17

18.

予備実験設定 • 目的：Webとブログの違いを確認 • Web日本語Nグラム[工藤ら, 2007]を評価 • テストコーパス：Wikipediaとブログから 1000文 • パラメータ – αとDは最良の値を自動推定 – 1から10000の間で10倍おきに試した 18

19.

予備実験結果クロスエントロピー(bit) Web日本語NグラムはBlogよりWikipediaに近い 19

20.

実験設定 • 訓練コーパス – Yahoo! ブログ検索のデータ1年分 – LZO圧縮状態で約2TB – Yahoo! 形態素解析APIと同等の処理 • Hadoopクラスタ – 20台（マスター1台＋スレーブ19台） 20

21.

集計時間コーパスサイズを変えて集計時間を測定処理形態素解析 ☓ ☓ ☓ ☓ ※単位は時間：分 21 集計不可

22.

評価実験設定 • モデルサイズを変えて性能評価 – しきい値以下のN-gramを削除 – しきい値を10000から100まで変化 • 実験設定 – 訓練コーパス：ブログ860GB – テストコーパス：ブログ1000文 – スムージング：Dirichlet – パラメータ：予備実験と同様 22

23.

評価実験結果クロスエントロピー(bit)とモデルサイズ(byte) 閾値モバイル 23 PC クラウド

24.

具体例「Yahoo」で始まる3-gram 24 高頻度な3-gramの上位10件

25.

参考文献 • 北研二, 辻井潤一. 確率的言語モデル. 東京大学出版会, 1999. • 森信介, 土屋雅稔, 山地治, 長尾真. 確率的モデルによる仮名漢字変換. 情報処理学会論文誌, Vol.40, No.7, pp.2946-2953, 1999. • Kneser R., Ney H.. Improved backing-off for Mgram language modeling. ICASSP, pp.181-184, vol.1, 1995. • Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters. OSDI, December, 2004. • 工藤拓, 賀沢秀人, Web 日本語N グラム第１版, 言語資源協会発行, 2007.

26.

結論 • Webとブログはコーパスの性質が異なる • モデルサイズと性能はトレードオフ • ユースケースに合わせた選択が必要 26

27.

今後の課題 • 言語モデルの圧縮、クラスモデル • アプリケーションでの評価 27

28.

ご清聴ありがとうございました 28