大規模発話ログデータを活用した音声対話処理

113 Views

July 26, 17

スライド概要

第232回自然言語処理研究会(https://nl-ipsj.or.jp/2017/07/03/nl232_program)の招待講演の発表資料です。

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

大規模発話ログデータを活用した 音声対話処理 情報処理学会 第232回自然言語処理研究会 招待講演資料 ヤフー株式会社 上席研究員 鍜治伸裕 (@nobuhirokaji) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

2.

音声対話型インタフェースの時代 あらゆるデバイスに人工知能が搭載されるIoT時代の到来 ヒトとモノが音声対話でコミュニケーションできる世界が目前に http://i.gzn.jp/img/2016/05/10/viv/s01.jpg http://images.techhive.com/images/article/2017/01/echodothome-100704745-large.3x2.jpg 2 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

3.

Yahoo! 音声アシスト 音声対話でスマホを操作できるアプリ 累計250万ダウンロード以上 3 https://www.amazon.co.jp/gp/product/B00OIWNED6 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

4.

世の中の動向に反して 学会で音声対話は盛り上がっていない? dialog and interactive systems (第9位) ACL2017におけるエリアごとの論文投稿の状況 https://chairs-blog.acl2017.org/2017/02/15/statistics-on-submissions-and-status-update 4 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

5.

近年のデータ駆動型NLPの進展は 大量のテキストデータの存在に支えられている 5 新聞記事 医療系テキスト ブログ記事 ツイート Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

6.

対話データは蓄積が進んでいない 独話データ量 対話データ量 6 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

7.

我々のやり方:アプリを公開してデータ収集 世界的にも稀有な音声対話研究基盤を構築 アプリサーバ 模擬ではない リアルな対話のやりとり 累積250万以上のユーザ群 7 長年(5年)に渡って蓄積された 大規模な対話ログデータ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

8.

発話のバリエーションと頻度が一目瞭然: スマホの音量を上げる場合 8 頻度 発話 頻度 発話 8791 聞こえない 760 音量を大きく 7334 音大きく 707 音量大きくして 3323 音量上げて 684 音量最大 1910 もっと大きく 641 音量大きく 1756 音量を上げて 546 音量を上げる 1745 声が小さい 514 音量アップ 1736 音を大きく 491 ボリュームアップ 1040 音が小さい 407 ボリュームを上げて 893 声を大きく 394 音量を大きくして 843 音大きくして … Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. …

9.

発話ログデータ収集と研究開発の 好循環を生み出す 発話ログを活用したデータ駆動型の対話研究の推進 大量の発話ログデータを収集 9 研究成果に基づくシステム改善 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

10.

将来的ユーザエンゲージメントの予測 Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano. Prediction of Prospective User Engagement with Intelligent Assistants. In Proc. of ACL16. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

11.

“将来的エンゲージメント=今後もシステムを 使い続けてもらえるかどうか”を予測 ? • ユーザの満足度(Jiang+ 15)を測る新しい指標になりうる • 使わなくなりそうなユーザに集中的に働きかけることができる 11 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

12.

エンゲージメントの研究に新しい視点を導入 従来研究におけるエンゲージメント(Wang and Hirschberg, 11): 今、システムとの対話に没頭しているか 本研究におけるエンゲージメント: 将来的に対話システムを継続して使うか 12 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

13.

Yahoo! 音声アシストの対話例 • マルチドメインなタスク型対話、雑談やゲームなども行う 13 今日は朝から授業 東京から新大阪まで 今日も勉強 頑張って下さい! 東京11時10分発の 新幹線があります… 今日の天気は? 何時に到着? 今日の東京の天気 は晴れでしょう… 13時40分到着です Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

14.

発話ログデータ User ID A B 時刻 システム応答 応答型 (ドメイン) 3/1 23:50 明日8時に起こして アラームを8時にセットしま した アラーム 3/2 08:10 おはよう おはようございます 雑談 3/2 08:13 今日の天気調べて 今日の東京の天気は晴れ でしょう 天気 3/1 08:00 東京駅から京都駅まで 9時30分発の新幹線があり ます 路線案内 3/1 08:01 着くのは何時? 京都には11時50分に到着し 路線案内 ます 3/5 19:10 しりとりしよう いいですよ “りんご” * 14 発話 しりとり 表はイメージです。実際のログとは一部異なっている場合があります。 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

15.

2つのタスクを提案: 離脱予測とエンゲージメント度予測 • 16週間分のログから348,295のユーザを無作為抽出 • 対象ユーザの全7,472,915発話とそれに対する応答を抽出 ユーザごとに予測 …… …… 発話があるかないかを予測 ? …… …… …… …… …… …… 観測期間の発話ログ (最初8週間) 15 離脱予測 エンゲージメント度予測 予測期間の発話ログ (最後8週間) Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. セッション数を予測 (4値に離散化)

16.

特徴量の設計(一部のみ抜粋) 種類 具体例 観測期間の最後n週間における発話数(n=1, 2,…, 8) 発話数 観測期間の最後n週間におけるセッション数(n=1, 2,…, 8) k番目のクラスタに属する発話数(k=1, 2, …100) ある応答型tの応答が返された回数(tは検索、アラームなど66種) 応答数 長い(50文字以上の)応答が返された回数 エラーメッセージが返された回数 発話間隔時間(日数)の最大値 発話間隔 発話間隔時間(日数)の最小値 発話間隔時間(日数)の平均値 ユーザ属性 ニックネームの登録の有無 年齢(20代未満, 20代、30代、40代、50代、60代以上) 16 *実数値素性は自然対数で正規化 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

17.

実験結果 • 学習アルゴリズムは SVM と SVR を使用 • ユーザを訓練、開発、評価に分割して実験 • セッション数素性のみを用いたベースラインを大きく改善 離脱予測 17 エンゲージメント度予測 分類精度 F値 MSE ρ ベースライン 0.568 0.482 0.784 0.595 提案法 0.776 0.623 0.578 0.727 発話数素性 0.702 0.578 0.632 0.693 応答数素性 0.548 0.489 0.798 0.584 発話間隔素性 0.746 0.617 0.645 0.692 ユーザ属性素性 0.399 0.406 1.231 0.146 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

18.

観測期間の長さと予測精度の関係 • 基本的には観測期間が長いほど予測精度が向上 • 特に1週間から2週間に伸ばしたときの改善が顕著 離脱予測 観測期間の長さ 18 エンゲージメント度予測 観測期間の長さ Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

19.

(Sano, Kaji, and Sassano, ACL16) のまとめ • “将来的エンゲージメント”というエンゲージメントに対する 新しい視点を提案 • 大量の発話ログを活用することによって、将来のユーザ 行動(≒ 満足度)をある程度予測できることを示した • 大規模なサービスを運用することによって、初めて見えて くる/取り組むことのできる研究課題 19 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

20.

修正発話の原因判定 Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano. Predicting Causes of Reformulation in Intelligent Assistants. In Proc. of SIGDIAL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

21.

ユーザとの対話を通じて自立的に学習する システムの実現に向けて ユーザがシステムを“普通に”利用 (明示的な教師信号や報酬は与えない) ユーザとの対話の経験を通して 自立的に学習、成長 21 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

22.

ユーザの修正発話に着目 アラーム 間違った応答 “アラームの”ウェブ検索結果 はこちらです… アラームを起動して 修正発話 22 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

23.

本研究のゴール: 修正発話の原因となるエラー源の自動検出 対話システム ユーザ発話 音声認識 外部システム/資源 知識ベース 言語理解 ウェブAPI システム応答 言語生成 エラーの発生源が特定できれば(半)自動訂正につながる 23 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

24.

ログから類似発話の繰り返しを抽出し エラー原因をアノテーション エラー無し(387発話) 今日の天気は? 今日の転勤 今日の東京の 天気は晴れ… 申し訳ありません よく分かりません… じゃあ明日の天気 今日の天気は? 言語理解エラー(173発話) 24 音声認識エラー(317発話) 言語生成エラー(51発話) アラーム あなたの名前は なんていうの? “アラーム”の ウェブ検索結果は… 私の年齢は… アラームを起動 あなたの名前は? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

25.

様々な特徴量を設計 発話時間間隔 編集距離 ASRの確信度 修正タイプ(ADD, OMIT等) … アラーム “アラームの”ウェブ検索 結果はこちらです… ASR Conf.: 0.7 Domain: ウェブ検索 Intent: SEARCH(アラーム) アラームを起動して ASR Conf.: 0.9 はい。アラームを起動します。 Domain: アラーム Intent: START domain、intent(slot値など)などの一致 25 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

26.

原因判定実験の結果 • SVM を用いて10分割交差検定 • 発話の表層情報だけでなくエラー原因ごとに作りこまれた素 性を使うことでF1値が向上 エラー無し 音声認識 言語理解 言語生成 エラー エラー エラー ベースライン 26 0.58 0.59 0.36 0.03 +音声認識素性 0.66†† 0.67†† 0.35 0.16 +言語理解素性 0.71†† 0.65 0.43 0.25† +言語生成素性 0.55 0.57 0.32 0.08 提案法(+全素性) 0.75†† 0.72†† 0.49† 0.33†† Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

27.

混同行列の分析 予測 エラー無し 正解 27 音声認識 エラー 言語理解 エラー 言語生成 エラー エラー無し 284 55 27 21 音声認識 エラー 38 230 37 12 言語理解 エラー 44 29 81 19 言語生成 エラー 8 12 11 20 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

28.

(Sano, Kaji, and Sassano, SIGDIAL17) のまとめ • ユーザとの対話の中で、システムが自立的に学習を行う ことのできる枠組みの実現は、対話研究における大目標 の一つ • 修正発話は、ユーザからの暗黙的フィードバックであり、こ れを学習に活用することは非常に重要な課題 • 修正発話が行われたエラー原因を自動判定するという新 しい研究課題に取り組んだ • エラーの自動訂正などが今後の課題 28 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

29.

雑談発話の検出 Satoshi Akasaki and Nobuhiro Kaji. Chat Detection in an Intelligent Assistant. In Proc. of ACL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

30.

これまでの音声対話システムは タスク型と雑談型に分けて研究されてきた • タスク型 この近くにある イタリアン料理の店調べて はい。豊田駅周辺の イタリアンレストランは… • 雑談型 駅から日野キャンパスまで 遠くない? 歩くといい運動になって よいと思いますよ! 30 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

31.

近年、アシスタント型システムの出現により タスク型と雑談型の区別は曖昧に タスク型 雑談型 SHRDLU (Winograd 72) Eliza (Weizenbaum 66) ATIS (Price 90) Let’s GO (Raux+ 05) A.L.I.C.E. (Wallace 09) アシスタント型 しゃべってコンンシェル (吉村 12) Yahoo! 音声アシスト (磯+ 13) Siri (Bellegarda 14) Cortana (Sarikaya 17) 31 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

32.

雑談を意図したユーザ発話の検出が 新しい課題になる 今日の大阪の 天気は? 気象情報 API の呼び出し 8時にアラーム 鳴らして 携帯端末の操作 明日の仕事 休みたいなぁ 非雑談 雑談生成モデルの駆動 (seq2seqなど) 従来の雑談生成に関する研究では抜け落ちていたタスク 32 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 雑談

33.

教師データを構築して分類器を学習 • 15160発話をクラウドソーシングを利用してラベル付与 • 各発話ごと7名の多数決(雑談/非雑談: 4833/10327) • SVM と CNN の2つの分類器を学習、比較 ラベル 雑談 非雑談 33 発話 得票数 お話ししよう 趣味はなんですか? 5 7 今月は休みがありません 富士山の写真みせて 5 6 近くのおいしいレストラン 9時10分に起こして 7 7 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

34.

一工夫する:ツイートとウェブ検索ログを活用 • リプライのついたツイート≒雑談発話 USER1 @xxx USER3 @xxx やっと仕事終わったよー! おはようございます〜 USER2 @xxx USER4 @xxx @USER1 お疲れ様! @USER3 おはよ! • ウェブ検索ログ≒タスク要求発話 東京の天気 君の名は。 オムライスの作り方 ヤフー知恵袋 それぞれGRU言語モデルを学習し対数尤度を特徴量に 34 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

35.

実験結果 • ベースライン(ツイートLM、内製)の精度を大きく改善 • 言語モデル(LM)素性の有効性を確認 手法 ツイート LM 内製の意図判定システム SVM SVM + ツイート/クエリ LM CNN CNN + ツイート/クエリ LM 35 分類精度 72.07 適合率 54.54 再現率 74.48 F値 62.94 78.31 91.35 92.15 62.57 87.62 88.61 79.51 84.88 86.50 70.03 86.21 87.53 90.84 91.48 87.03 87.78 83.80 85.18 85.36 86.56 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

36.

発話長と分類精度の関係 • LM素性は極端に短いまたは長い発話に有効 SVM SVM+LM素性 分類精度 発話長(文字数) 36 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

37.

(Akasaki and Kaji, ACL17) のまとめ • タスク型と雑談型という音声対話システムの分類は過去の ものになりつつあり、二つのシステムは融合し始めている • タスク型と雑談型の切り替えが新しい技術課題になる • 雑談をドメインの一つと捉えているという見方も • ツイート等の外部資源の活用は、単純な教師有り学習から の脱却に向けた有望なアプローチの一つ 37 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

38.

Take Home Messages 38 • IoTの時代は必ずやって来る。音声対話はそのときに基盤を 担う可能性の高いNLP技術 • 大規模なサービスを運用することは、音声対話研究のため のデータ収集に極めて有効な手段 • リアルな発話ログデータは面白いし、それを分析することに よって新しい研究課題がどんどん見えてくる Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

39.

We’re Hiring! • ヤフー株式会社ではデータサイエンティスト(a.k.a., 機械 学習エンジニア)を新卒、経験者ともに通年募集中 • もちろんリサーチャー、エンジニア、デザイナーも • 詳細は公式採用ページをご覧ください http://hr.yahoo.co.jp 39 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

40.

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

41.

参考文献 • Price. 1990. Evaluation of spoken language systems: the ATIS Domain. • Raux et al. 2005. Let's Go Public! Taking a spoken dialog system to the real world. In Proc. InterSpeech. Weizenbaum. 1966. Eliza–a computer program for the study of natural language communication between man and machine. Communications of • In Proc. DARPA Speech & Natural Language Workshop. the ACM. • • • • • 41 Winograd. 1972. Understanding Natural Language. Academic Press. Wu et al. 2016. りんな: 女子高生人工知能. Proc. of NLP. 磯 et al. 2013. 「音声アシスト」の音声認識と自然言語処理の開発. 音声 言語情報処理研究会. 鹿野 et al. 2012. 音声情報案内システム「たけまるくん」の運用. 情報処 理学会全国大会 吉村. 2012. しゃべってコンシェルと言語処理. 音声言語情報処理研究会. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.

42.

参考文献 • Akasaki and Kaji. 2017. Chat Detection in an Intelligent Assistant, • Ballegarda. 2014. Spoken Language Understanding for Natural Interaction: The Siri Experience. Natural Interaction with Robots, Proc. of ACL. Knowbots and Smartphones. • • • • 42 Sano et al. 2016. Prediction of Prospective User Engagement with Intelligent Assistants. Proc. of ACL. Sano et al. 2017. Predicting Causes of Reformulation in Intelligent Assistants. Proc. of SIGDIAL. Sarikaya. 2017. The Technology Behind Personal Digital Assistants. IEEE Signal Processing Magazine. Wallace. 2009. The Anatomy of A.L.I.C.E. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.