>100 Views
June 05, 25
スライド概要
機械学習・音声認識・プログラミングに関する書籍を執筆しています。
イラストで学ぶ音声認識 改訂第2版 8. 統計的音声認識:言語モデル 列が 8.1 文法記述による言語モデル 8.2 統計的言語モデルの考え方 8.3 統計的言語モデルの作り方 8.4 ニューラルネットワークによる 言語モデル 1
8.1 文法記述による言語モデル 文法記述を言語モデルとみなす 規則に従う単語列であれば て,認識対象の単語列を限定 文法記述の例 ,そうでなければ とし 2
8.1 文法記述による言語モデル 文法の種類 文脈自由文法 文法規則の左辺は非終端記号一つ 右辺は「終端記号または非終端記号」の列 おおよそ自然言語の文法が記述可能 正規文法 文法規則の左辺は非終端記号一つ 右辺は「終端記号」「終端記号+非終端記号」「空文字列」のいずれか おおよそ文節レベルの文法が記述可能 用途が限定された音声対話システムの文法は,正規文法の範囲内で記述でき ることが多い 3
8.2 統計的言語モデルの考え方 統計的言語モデル 条件付き確率への展開 の値を言語統計から求める N-グラム言語モデル 長い履歴を持つ条件付き確率の値の推定は難しい 履歴を過去 単語で近似 4
8.2 統計的言語モデルの考え方 N-グラムによる の近似 列が 5
8.3 統計的言語モデルの作り方 コーパスを準備する 大量の電子化された文章(新聞記事,webページなど)を集める コーパスを単語に区切る 形態素解析処理 条件付き確率を求める 確率の推定値が0にならないよう工夫したうえで を求める 6
8.3 統計的言語モデルの作り方 N-グラムを最尤推定するときの問題点 例)2-グラムの単純な最尤推定( は単語列 の出現回数) コーパス中に が1度も出現しなければ,この値は0 単語列中に値0の2-グラムが1つでもあれば,全体の確率が0 バックオフスムージング 最尤推定したN-グラムのうち,確率0でないものから少しずつ値を削り,確率 0のものに分配する 7
8.4 ニューラルネットワークによる言語モデル フィードフォワード型 過去 単語から次単語の確率分布を求める one-hot ベクトル 埋め込み ベクトル 出力層 ... ... 隠れ層 8
8.4 ニューラルネットワークによる言語モデル リカレント型 フィードバックで仮想的にすべての履歴を表現 ... ソフトマックス関数 ... ... 出力層は,それ までの文脈を反 映した各単語の 出現確率を表し ています. 出力層 シグモイド関数 中間層 入力層 埋め込み 入力単語列 one-hot 単語ベクトル 9
8.4 ニューラルネットワークによる言語モデル 大規模言語モデルの利用 出力結果のリランキング,誤認識を含む出力系列の修正,翻訳や要約などの 下流タスクへの応用 リランキング # 指示 以下の音声認識結果を適切な タスクに特化した コーパス ファイン チューニング 順に並び替えよ # 結果 * 駅の死角のホテルを探して * 駅の近くのホテルを探して * 駅の企画のホテルを探して 翻訳 誤り修正 # 指示 以下は音声認識システムによって出力されたテ 大規模 言語モデル キストです.文法的な誤りや意味の通らない部 分を修正し,より自然な文章にしてください. # 結果 バラック小浜は議会でこのように演説した... 要約 10