>100 Views
November 10, 17
スライド概要
2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp
音声対話アシスタントに関する 最近の研究動向 とYahoo! JAPAN研究所での取り組み 第20回情報論的学習理論ワークショップ 企画セッション発表資料 ヤフー株式会社 上席研究員 鍜治伸裕 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
自己紹介 名前 鍜治伸裕 博士(情報理工学) 略歴 2005 東京大学 情報理工学系研究科 博士課程修了 2005~2015 東京大学 生産技術研究所 特任准教授等 2014~2015 情報通信研究機構 主任研究員 2015~現在 ヤフー株式会社 上席研究員 研究の興味 音声対話処理、言語の分散表現、ソーシャルテキスト解析 2 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
音声対話型インタフェースの時代 あらゆるデバイスに人工知能が搭載されるIoT時代の到来 ヒトとモノが音声対話でコミュニケーションできる世界が目前に http://i.gzn.jp/img/2016/05/10/viv/s01.jpg http://images.techhive.com/images/article/2017/01/echodothome-100704745-large.3x2.jpg 3 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Yahoo! 音声アシスト スマホ上で動作する音声対話システム 累計250万ダウンロード以上 4 https://www.amazon.co.jp/gp/product/B00OIWNED6 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
(音声)対話システムは 半世紀以上の歴史を持つAIの古典的問題 Eliza (Weizenbaum 66) SHRDLU (Winograd 72) https://en.wikipedia.org/wiki/ELIZA http://hci.stanford.edu/winograd/shrdlu 5 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
もう研究課題は残されていない? 強化学習に基づく理論的枠組みがすでに確立 対話システムに関する教科書が多数出版 有限状態音声対話モデル (Young et al. 2013) 対話システム(中野ら 2015) http://www.coronasha.co.jp/np/isbn/9784339027570 6 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ラボ環境から実環境へ 実際にサービスを運用して初めて顕在化する課題 新ドメインの迅速な追加 (Kim et al. ACL17) タスクと雑談の切り分け (Akasaki and Kaji ACL17) 本物の大規模ユーザを相手にする困難さ、面白さ ユーザ満足度の自動化 (Jiang et al. WWW15) システムエラー自動検出 (Sano et al. SIGDIAL17) 7 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Young-Bum Kim, Karl Stratos, and Dongchan Kim. “Domain Attention with an Ensemble of Experts” In Proceedings of ACL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
従来の対話システムはドメインが限定的 フライト情報案内 (Price 90)、バスの時刻表案内 (Raux+ 05)、 観光案内 (翠+ 11)など Let’s Go (Raux+ 05) AssisTra (翠+ 11) http://www.speech.cs.cmu.edu/letsgo http://www.nict.go.jp/publication/NICT-News/1108/03.html 9 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
最近の対話システムは 多数のドメインをサポートする方向に Yahoo! 音声アシストの場合: 天気・災害 検索 カレンダー アラーム 他多数… ニュース 10 レシピ 地図情報 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
迅速な新ドメイン作成を実現するため ドメイン適応の研究が行われている Feature augmentation (Daume+ 07; Kim+16)、Multi-task learning (Jaech+ 16)、Zero-shot learning (Chen+ 16) など ソースドメインのデータ (大量) 天気 ターゲットドメインのデータ (少量) 検索 地図情報 ニュース 11 レシピ データ不足を補う Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
従来手法は再学習が必要なので 大規模な対話サービスの運用には不向き 全てのデータ(ソース+ターゲット)からの再学習が必要 ソースドメインの数が多い場合には非効率 従来手法 (Kim+ 16) 学習時間 提案手法 ソースドメイン数 12 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
予備知識: 提案手法の基となるモデル 出力ラベル (発話意図など) Feedforward BiLSTM 文字 → 単語 → 発話と階層的に分散表現を獲得 入力発話 13 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
提案モデル:Domain Attention Model 出力ラベル Feedforward ソースドメインのモデル (事前学習済み、固定) + attention BiLSTM BiLSTM … BiLSTM 入力発話 14 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. BiLSTM
再学習不要でなおかつ精度も良い Microsoft Cortana の7ドメインのデータを使用 意図判定とスロット抽出の2つのタスク ベースライン 15 提案手法 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Attention Weights の分析 ターゲットが TAXI の時 FLIGHTS が大きくなるなど直感に適合 ターゲットドメイン ソースドメイン 16 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Satoshi Akasaki and Nobuhiro Kaji. “Chat Detection in an Intelligent Assistant: Combining Taskoriented and Non-task-oriented Spoken Dialogue Systems” In Proceedings of ACL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
従来の対話システムは タスク型と雑談型に分けて研究されてきた • タスク型: システムに情報収集タスクを代行させる この近くにある イタリアン料理の店調べて はい。本郷三丁目周辺の イタリアンレストランは… • 雑談型: システムとの会話そのものを楽しむ 機械学習って気になるけど なんか難しそう。 思いきって勉強始めてみると 良いと思いますよ! 18 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
最近のサービスでは タスク型と雑談型という区別が曖昧に タスク型 雑談型 SHRDLU (Winograd 72) Eliza (Weizenbaum 66) ATIS (Price 90) Let’s GO (Raux+ 05) A.L.I.C.E. (Wallace 09) アシスタント型 (タスクも雑談もこなす) しゃべってコンンシェル (吉村 12) Yahoo! 音声アシスト (磯+ 13) Siri (Bellegarda 14) Cortana (Sarikaya 17) 19 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
雑談を意図したユーザ発話の検出が 新しい課題になる 今日の大阪の 天気は? 気象情報 API の呼び出し 8時にアラーム 鳴らして 携帯端末の操作 明日の仕事 休みたいなぁ 非雑談 雑談生成モデルの駆動 (seq2seqなど) 従来の雑談生成に関する研究では抜け落ちていたタスク 20 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 雑談
教師データを構築して分類器を学習 • 15160発話をクラウドソーシングを利用してラベル付与 • 各発話ごと7名の多数決(雑談/非雑談: 4833/10327) • SVM と CNN の2つの分類器を学習、比較 ラベル 雑談 非雑談 21 発話 得票数 お話ししよう 趣味はなんですか? 5 7 今月は休みがありません 富士山の写真みせて 5 6 近くのおいしいレストラン 9時10分に起こして 7 7 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
一工夫する:ツイートとウェブ検索ログを活用 • リプライのついたツイート≒雑談発話 USER1 @xxx USER3 @xxx やっと仕事終わったよー! おはようございます〜 USER2 @xxx USER4 @xxx @USER1 お疲れ様! @USER3 おはよ! • ウェブ検索ログ≒タスク要求発話 東京の天気 君の名は。 オムライスの作り方 ヤフー知恵袋 それぞれGRU言語モデルを学習し対数尤度を特徴量に 22 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
実験結果 • ベースライン(ツイートLM、内製)の精度を大きく改善 • 言語モデル(LM)素性の有効性を確認 手法 ツイート LM 内製の意図判定システム SVM SVM + ツイート/クエリ LM CNN CNN + ツイート/クエリ LM 23 分類精度 72.07 適合率 54.54 再現率 74.48 F値 62.94 78.31 91.35 92.15 62.57 87.62 88.61 79.51 84.88 86.50 70.03 86.21 87.53 90.84 91.48 87.03 87.78 83.80 85.18 85.36 86.56 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
発話長と分類精度の関係 • LM素性は極端に短いまたは長い発話に有効 SVM SVM+LM素性 分類精度 発話長(文字数) 24 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Jiepu Jiang, Ahmed Hassan Awadallah, Rosie jones, Umut Ozertem, Imed Zitouni, Ranjitha Gurunath Kulkarni, and Omazr Zia Khan. “Automatic Online Evaluation of Intelligent Assistants” In Proceedings of WWW15. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
本物のユーザを相手にした対話処理には 正解がないので客観評価が難しい 多くの学術研究の進め方 客観評価が容易な部分問題を切り出して議論 訓練されたアノテータが適切な対話を天下り的に定義 素朴な疑問 部分問題が正しく解けてユーザ経験は向上するのか? 天下り的に決めた正解で本当にユーザは喜ぶのか? 26 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
セッションの満足度を推定による自動評価 ユーザの行動パターンから満足度を推定するモデルを学習 SAT(満足) User Cortana, call James. Cortana Sure, call James Smith mobile, is that right? User Yes Cortana Call James Smith mobile. [call the contact] DSAT(不満) User Where is the nearest pharmacy? Cortana Here are 8 pharmacies near you. [show options on the screen] User Show me the direction to block sponsee (Clark’s pharmacy) Cortana Sorry, I couldn’t find (…) Doyou you wanna search the web for it? 27 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Action系列を特徴量に利用 User Where is the nearest pharmacy? Cortana Here are 8 pharmacies near you. [show options on the screen] Option User Show me the direction to block sponsee (Clark’s pharmacy) Select Cortana Sorry, I couldn’t find (…) Do you you wanna search the web for it? User No Cortana Here are 8 pharmacies near you. [show options on the screen] 28 Command Confirm NO Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. Option
その他の特徴量(サマリ) クリック システムの応答 29 ユーザ発話 音声情報 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
満足度予測の実験結果 60名の被験者による300セッションの発話 満足度のratingをもとに SAT/DSAT ラベルを付与 30 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
SAT/DSATに特徴的なアクション系列 31 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano. “Predicting Causes of Reformulation in Intelligent Assistants” In Proceedings of SIGDIAL17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
大勢のユーザとの対話を通じて 自立的に学習するというシナリオが現実的に ユーザがシステムを“普通に”利用 (明示的な教師信号や報酬は与えない) ユーザとの対話の経験を通して 自立的に学習、成長 33 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ユーザの修正発話に着目 アラーム 間違った応答 “アラームの”ウェブ検索結果 はこちらです… アラームを起動して 修正発話 34 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
研究のゴール: 修正発話の原因となるエラー源の自動検出 対話システム ユーザ発話 音声認識 外部システム/資源 知識ベース 言語理解 ウェブAPI システム応答 言語生成 エラーの発生源が特定できれば(半)自動訂正につながる 35 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ログから類似発話の繰り返しを抽出し エラー原因をアノテーション エラー無し(387発話) 今日の天気は? 今日の転勤 今日の東京の 天気は晴れ… 申し訳ありません よく分かりません… じゃあ明日の天気 今日の天気は? 言語理解エラー(173発話) 36 音声認識エラー(317発話) 言語生成エラー(51発話) アラーム あなたの名前は なんていうの? “アラーム”の ウェブ検索結果は… 私の年齢は… アラームを起動 あなたの名前は? Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
様々な特徴量を設計 発話時間間隔 編集距離 ASRの確信度 修正タイプ(ADD, OMIT等) … アラーム “アラームの”ウェブ検索 結果はこちらです… ASR Conf.: 0.7 Domain: ウェブ検索 Intent: SEARCH(アラーム) アラームを起動して ASR Conf.: 0.9 はい。アラームを起動します。 Domain: アラーム Intent: START domain、intent(slot値など)などの一致 37 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
原因判定実験の結果 • SVM を用いて10分割交差検定 • 発話の表層情報だけでなくエラー原因ごとに作りこまれた素 性を使うことでF1値が向上 エラー無し 音声認識 言語理解 言語生成 エラー エラー エラー ベースライン 38 0.58 0.59 0.36 0.03 +音声認識素性 0.66†† 0.67†† 0.35 0.16 +言語理解素性 0.71†† 0.65 0.43 0.25† +言語生成素性 0.55 0.57 0.32 0.08 提案法(+全素性) 0.75†† 0.72†† 0.49† 0.33†† Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
混同行列の分析 予測 エラー無し 正解 39 音声認識 エラー 言語理解 エラー 言語生成 エラー エラー無し 284 55 27 21 音声認識 エラー 38 230 37 12 言語理解 エラー 44 29 81 19 言語生成 エラー 8 12 11 20 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
まとめ およそ半世紀の基礎研究の期間を経て、音声対話技術は、 音声対話アシスタントという形で実社会に巣立ちつつある e.g., Google Home, Amazon Echo, Line Clova, Y! Voice Assist etc. しかし、ラボ環境と実環境のギャップは依然として存在しており、 現在はその差を埋めている段階 これからは実環境での音声対話研究が面白くなるはず! 実サービスの運用から顕在化した新しい課題 (Kim et al. 2017; Akaskai and Kaji 2017) 大勢のリアルユーザの行動分析 (Jiang et al. 2015; Sano et al. 2017) 40 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.