イラストで学ぶ音声認識改訂第2版 5. ニューラルネットワーク

237 Views

June 05, 25

#音声認識 #ニューラルネットワーク #ディープラーニング #畳み込みニューラルネットワーク #リカレントニューラルネットワーク #Transformer

スライド概要

荒木雅弘

@MasahiroAraki

スライド一覧

機械学習・音声認識・プログラミングに関する書籍を執筆しています。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

chatgpt

荒木雅弘 4.7K

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

chatgpt デザイン思考

荒木雅弘 4.1K

プログラミング〈新〉作法 2. C言語からはじめよう

プログラミング

荒木雅弘 3.8K

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

chatgpt

荒木雅弘 3.5K

プログラミング〈新〉作法 1. はじめに

プログラミング

荒木雅弘 2.6K

プログラミング〈新〉作法 3. プログラムが動く仕組み

プログラミング

荒木雅弘 2.5K

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 5. ニューラルネットワーク 5.1 ニューラルネットワークとは 5.2 ディープニューラルネットワーク 5.3 畳み込みネットワーク 5.4 リカレントネットワーク 5.5 Transformer 1

5.1 ニューラルネットワークとは生物の神経細胞の情報伝達をモデル化したユニットを組み合わせて，複雑な関数を近似するための数理モデル個々のユニットは複数の入力信号に異なる重みを掛けて足し合わせ，その値の大小によって活性／非活性が決まる非線形の情報変換を行う f をシグモイド関数にすると，ロジスティック回帰を実現していることになります． … 1 2

5.1 ニューラルネットワークとは非線形関数の実現ユニットを階層的に組み合わせる（フィードフォワード型）出力と正解との誤差を最小化するように重みを調整する（誤差逆伝播法）出力はネットワークの重みによって決まるので，誤差関数はと表現できる誤差を最小化するための重みの更新式（は学習率） 2層のネットワークでも，隠れ層のユニット数を十分に増やすことで，「理論的には」任意の非線形関数を学習することができます．正解ラベル二乗誤差出力値交差エントロピー出力層重みの修正学習誤差隠れ層重みの修正学習入力層特徴ベクトル 3

5.2 ディープニューラルネットワークディープニューラルネットワークとは多数の隠れ層を持つニューラルネットワーク大量のデータが利用可能になったことと，各種の工夫で学習が可能になったシグモイド関数と比べて微分係数が大きな活性化関数学習率が時間経過に応じて変化 (1) 活性化関数の工夫修正量だけを学習すれば良いので，ランダムな初期値から変換を学習するより，少ないデータで学習可能 (3) スキップ接続 (2) 学習法の工夫 + 0をまたぐことによって，活性化関数による非線形性が有効に発揮される (4) バッチ正規化 4

5.2 ディープニューラルネットワーク過学習への対処ドロップアウト隠れ層のユニットを，一定の割合でランダムに無効化して学習学習後に実際の出力を計算するときは，重みを倍する 5

5.3 畳み込みネットワーク畳み込みニューラルネットワーク（CNN）画像認識などのタスクで有効なアーキテクチャ畳み込み層とプーリング層を何段階か組み合わせて特徴抽出を行い，最後は密結合層で分類を行う畳み込み層入力データに対して，カーネルとよばれる小さなフィルタをスライドさせながら適用し，局所的な特徴を抽出するプーリング層一定範囲の畳み込み層の出力に対して平均値あるいは最大値を求めることでダウンサンプリングし，特徴の位置依存性を緩和する 6

5.3 畳み込みネットワークプーリングは指定された範囲の平均値や最大値を求める処理で，画像を小さくする（≒抽象度を高める）役割を果たしています．カーネルカーネル入力画像畳み込みは，入力画像の一部とカーネルとの要素積の和が計算され，その結果に ReLUなどの活性化関数が適用されます．カーネル畳み込み層プーリング層 N回繰り返し密結合ネットワーク 7

5.4 リカレントネットワークリカレントニューラルネットワーク（RNN）時系列データや自然言語など，順序が重要なデータに適したアーキテクチャ隠れ層の出力を次の時刻の入力と結合することで，過去の情報を保持した状態で出力を生成する自然言語処理の場合語彙数を次元数とする one-hot ベクトルで表現された単語は，200次元程度の低次元な埋め込みベクトルに変換される適切な出力が得られるように学習された埋め込みベクトルは，意味の近い単語同士のベクトル間の距離が近くなる 8

5.4 リカレントネットワーク LSTM（Long Short-Term Memory）ユニット単純な RNNでは離れたところにある情報を保持するのが難しい LSTM は，過去の情報を保持するためのメモリセルと，情報の削除や追加を制御するゲートを持つ forget NNレイヤー tanh input output tanh 要素毎の演算線の合流：ベクトルの結合線の分岐：コピー 9

10.

5.4 リカレントネットワーク RNN の応用 RNN の最終状態に入力系列全体の情報を集約するエンコーダと，そのベクトルを初期状態として出力系列を生成するデコーダを結合して sequence-tosequence (seq2seq) モデルが実現できるさらに出力系列の生成の各時点において，入力系列のどの部分に注目するかを学習するアテンション機構を組み込むことで，より柔軟な出力生成が可能になった 10

11.

5.4 リカレントネットワーク seq2seq モデルとアテンション機構行列 W は，次の出力単語を決めるときに，入力のどの単語を見ればよいかを学習していることになります．エンコーダデコーダ (a) 単純な seq2seq モデル (b) アテンション機構の導入 11

12.

5.5 Transformer self-attention 機構を採用したエンコーダ・デコーダモデルデコーダ部は，これまでに出力した単語と，入力単語全体を考慮して，出力単語を一つずつ決めてゆきます．出力単語列 ... Decoder block ... Encoder block エンコーダ部は，周りの単語の意味を考慮して，入力単語の意味ベクトルを作成すると考えてください． Encoder block Decoder block Encoder block Decoder block 単語埋め込み単語埋め込み位置エンコーディング <BOS> 入力単語列エンコーダデコーダ 12

13.

5.5 Transformer エンコーダ入力トークン列を受け取り，各トークンに対する意味表現ベクトルを出力位置情報を位置エンコーディングとして加えるエンコーダブロックの内部 + フィードフォワードの計算は単語ごとに行われます．これはネットワークに蓄えられた知識を反映させていることに当たります．フィードフォワードの計算セルフアテンションは，その単語と関係が深そうな単語の情報を取り入れて，その単語の新しいベクトルを作ります． + セルフアテンションの計算一般には，入力を変換するWを複数持つ，マルチヘッドで校正されます． 13

14.

5.5 Transformer デコーダ部分的な出力結果を入力として受け取り，次の単語を予測エンコーダブロックの処理結果を取り入れるクロスアテンション機構を持つデコーダブロックの内部 + フィードフォワードの計算 + エンコーダクロスアテンションでは，K とVをエンコーダの出力から求めます．これは，出力単語の意味を計算するときに，入力のどこを見ればよいかを求めていることになります．クロスアテンションの計算 + セルフアテンションの計算キー入力単語列クエリデコーダの動作では，自分より後ろの単語の情報は使えないはずなので，このようなマスクを使ってセルフアテンションの範囲を限定します． 14

15.

5.5 Transformer 大規模言語モデル Transformer のエンコーダ部またはデコーダ部のみの構成で，入力の一部を予測する自己教師あり学習を行うことで，大規模なコーパスを用いた学習が可能になった BERT（Bidirectional Encoder Representations from Transformers）エンコーダ部のみを使用し，入力の一部をマスクしてその部分を予測する事前学習を行い，タスクに特化したデータでファインチューニングを行う GPT（Generative Pre-trained Transformer）デコーダ部のみを使用し，次の単語を予測する事前学習を行い，タスクに特化したデータでファインチューニングを行う 15

イラストで学ぶ音声認識 改訂第2版 5. ニューラルネットワーク

荒木 雅弘

関連スライド

ChatGPT 研修用資料 1. ChatGPT の仕組みと基本的な使い⽅

ChatGPT 研修用資料 3. デザイン思考を題材としたプロンプトエンジニアリングの実践

プログラミング〈新〉作法 2. C言語からはじめよう

ChatGPT 研修用資料 2. プロンプトエンジニアリングの概要

プログラミング〈新〉作法 1. はじめに

プログラミング〈新〉作法 3. プログラムが動く仕組み

各ページのテキスト

イラストで学ぶ音声認識改訂第2版 5. ニューラルネットワーク

荒木雅弘