[DL Hacks]“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy”<LT>

>100 Views

April 11, 19

#deep learning #Deep Learning #Spiking Network #Auditory System #Speech Recognition #Noise Robustness

スライド概要

2019/04/08
Deep Learning JP:
http://deeplearning.jp/hacks/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 92.7K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 71.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.6K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 55.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 52.3K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 50.5K

各ページのテキスト

DEEP LEARNING JP [DL Papers] “Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” <LT> Hiroshi Sekiguchi, Morikawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

アジェンダ • • • • • • 論文緒言聴覚生理学で見られる階層的聴覚路(内耳～聴覚大脳皮質)の特性 Hierarchical Spiking neural network シミュレーションの目的評価まとめ 2

論文緒言 • タイトル：“Spiking network optimized for noise robust word recognition approaches human-level performance and predicts auditory system hierarchy” • 著者：Fatemeh Khatami and Monty A. Escabí • 所属：Dept. of Biomedical Engineering, Depart. of Electrical and Computer Engineering, and Dept. of Psychological Sciences, University of Connecticut, Storrs, CT • 要旨 – 環境音や障害音声などの雑音下における聴覚の目標音声聞き取り能力は、そのメカニズムが未だ解明できていない． – 聴覚生理学で見られる，階層的聴覚路（内耳～聴覚大脳皮質）の時間分解能・周波数選択性・励起電圧閾値の層間変化傾向は，雑音下音源分離に重要働きをしているという．この層間変化傾向が．各層の音声信号コーディングをSpiking Neural Networkモデルで表現して雑音下で単語認識を最適にした際のネットワーク特性で再現できることを示す． – 雑音環境下での聴覚の特性は、同環境下で言語の認知を得る過程で形成されると考えられる • 紹介するにあたっての動機 – 聴覚脳神経系の階層的聴覚路前半部が司る聴覚音声特徴量抽出機能の抽出方法を種々探している．これを使って、重畳音声の分離の特徴抽出部としたい． 3

聴覚生理学で見られる階層的聴覚路(内耳～聴覚大脳皮質)の特性 • 聴覚路：複数層のネットワーク各層の物理特性が層間で、特定の傾向で連続的に変化する • 物理特性：・時間解像度：層間の違いは大きい内耳に近い層：1000Hz，大脳皮質に近い層：～25Hz ・周波数選択性層間の変化は少ない．前層の特定の入力時間解像度τ の組み合わせを脳外内選択する機構あり．周界音（ STFT) 第1層波第2層P𝑟 (𝑦|𝑧): ・・・・数解像度第N層聴覚大脳皮質近い内耳に近い階層的聴覚路聴覚信号 4

Hierarchical Spiking neural network (HSNN)(1) • 聴覚生理学的に触発されたNetwork • 蝸牛での周波数分析に類似したBPF群 • 各層のNeuronの位置は蝸牛の周波数要素の並びをそのまま周到 • 各層のNeuronはシノプシスに類似して前層と2種類の結合で繋がる • 励起結合（Excitatory Connection) 𝐸 • 𝑤𝑙,𝑚,𝑛 = 1 2 /σ2 𝐸 ・𝑒 −(𝑥𝑙,𝑚 −𝑥𝑙+1,𝑛) 2𝜋σ2𝐸 • 抑制結合（Inhibitory Connection) 𝐼 • 𝑤𝑙,𝑚,𝑛 = 1 2 /σ2 𝐼 ・𝑒 −(𝑥𝑙,𝑚 −𝑥𝑙+1,𝑛 ) 2𝜋σ2𝐼 • 時間解像度（τ𝑙 ）→ τ𝐼 = 1.5 τ𝐸 ，τ𝐸 = τ𝑙 • 周波数選択性（σ𝑙 ）→ σ𝐼 = 1.5 σ𝐸 , σ𝐸 = σ𝑙 • 励起電圧閾値（𝑁𝑙 ) • 6層HSNNの出力：Spike Pattern • 時間-周波数での励起強度パターン • 単語認識分類器： • シンプルなベイジアン分類器 5

Hierarchical Spiking neural network (HSNN)(2) • 音声データ：TI46LDC Corpus，英語10数字，合計8名(男女各4名)， 10回発声/話者・数字 → データ数：10単x8話x10＝800発声 • 音声＋障害音声（babble speech)： SNR＝-5,0,5,10,15,20dB 同じ話者の異なる単語の発声異なる話者の同じ単語の発声蝸牛時点 Spike Pattern 6

Hierarchical Spiking neural network (HSNN)(2) • Modified leaky integrate-and –fire (LIF) neuronの動作 • 𝑙 + 1層のLIF Neuron 𝑛のintracellular電圧： 𝐸 𝐼 𝑣𝑙+1,𝑛 𝑡 = σ𝑚 𝑤𝑙,𝑚,𝑛 ・ℎ𝐸𝑃𝑆𝑃 𝑡 ∗ 𝑠𝑙,𝑚 𝑡 − β σ𝑚 𝑤𝑙,𝑚,𝑛 ・ℎ𝐼𝑃𝑆𝐸 𝑡 ∗ 𝑠𝑙,𝑚 (𝑡) • 同intercellularに流れ込む電流注入量：𝑖𝑙+1,𝑛 𝑡 = 𝑣𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 + 𝑧(𝑡) • そのLIF neuronが励起する条件： 𝑖𝑙+1,𝑛 𝑡 ∗ ℎ−1 𝑡 = 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) ≥ 𝑁𝑡 = 0 𝑤ℎ𝑒𝑛 𝑣𝑙+1,𝑛 𝑡 + 𝑧 𝑡 ∗ ℎ(𝑡) < 𝑁𝑡 • 𝑠𝑙,𝑚 𝑡 ： 𝑙層 𝐿𝐼𝐹 mのpresynaptic spike列 • ℎ𝐸𝑃𝑆𝑃 𝑡 ：Exitatory 時間カーネル関数 • ℎ𝐼𝑃𝑆𝐸 𝑡 ：Inhibitor時間カーネル関数 𝐸 ・ 𝑤𝑙,𝑚,𝑛 ：excitatory NN係数 𝐼 ・ 𝑤𝑙,𝑚,𝑛 ：inhibitor NN係数 1 • ℎ(𝑡)： 𝑒 −𝑡Ττ 𝑢 𝑡 細胞膜の時間インパルス応答，𝑢 𝑡 :ステップ応答, τ = τ𝑙 𝑐 • 𝑁𝑡 ：(𝑉𝑇 − 𝑉𝑟 )/σ𝑉,𝑙 励起電圧閾値，𝑉𝑇 : −45𝑚𝑉 閾値, 𝑉𝑟 : −65𝑚𝑉 細胞膜弛緩電位 7

Hierarchical Spiking neural network (HSNN)(4) • 6層HSNNの出力：Spike Pattern • 時間-周波数での励起強度パターン： r ∈ 𝑅𝑁 ∗𝑀 , 𝑟 = { 𝑟𝑛,𝑖 } = {0,1}：neuron n, 時間𝑖の出力 • 分類器：ベルヌーイナイーブベイズ分類器 • 𝑟:パターン800個を学習パターン:799個，Validationデータ：1個として、800回の Cross Validationを行い、ベイズ分類器を学習と認識率を得る。 • 数字のカテゴリ𝑦とした時、学習は以下の𝑝𝑑,𝑛,𝑖 を学習して求める． 𝑟 𝑛,𝑖 𝑦 = argmax ς𝑛,𝑖 𝑝𝑑,𝑛,𝑖 ・ 1 − 𝑝𝑑,𝑛,𝑖 1−𝑟𝑛,𝑖 𝑑={0,⋯9} ここで、𝑝𝑑,𝑛,𝑖 は、ベイズ尤度（特定の数字𝑑が𝑠𝑝𝑖𝑘𝑒(1)を特定の時間空間ビン（neuron 𝑛で時間𝑖で）生成する確率）である． 8

シミュレーションの目的 • HSNNをノイズ環境下で単語認識で学習したとき、HSNNの各層の時間的解像度、周波数的解像度、励起電圧閾値の相対的な変化が、聴覚生理学で階層的聴覚路で見られるそれらに相当する変化に、類似の傾向を持つかを評価したい． • 具体的には、τ1 ，σ1 ，𝑁1 を与えられた定数として τ𝑙 = τ1 ・α𝑙−1 σ𝑙 = σ1 ・γ𝑙−1 𝑁𝑙 = 𝑁1 ・λ𝑙−1 とした時，単語認識が最大になるα，γ，λの値を求める． • この値が、聴覚生理学で階層的聴覚路で見られる，それらの変化の傾向と合致しているかを確認する． 9

10.

評価方法 SNRを選ぶ α，γ，λを選ぶそのSNRの，数字10単語x8話者ｘ10回発声=800発声を使う．799発声を学習データとして 𝑝𝑑,𝑛,𝑖 を学習したのちに，1発声を Validationデータにして認識率を得る．799 対1の組み合わせを順に変えて800回の Cross Validationで認識率の平均を得る．最も高い認識率を出すα，γ， λ の組をその SNRでの Optimal model と呼ぶ． 10

11.

評価結果(1) 学習の結果 α≈ 2, γ ≈ 1, λ ≈ 1 がすべてのSNRに対して言える時間解像度が上層になるに従い、時間分解は低くなる．周波数解像度と励起電圧閾値は不変 11

12.

評価結果(2) 学習済モデルのデータ学習モデルの STRFの特性の傾向が猫の聴覚生理学データと類似している猫の聴覚の生理学データ 12

13.

まとめ • 雑音環境下でも聴覚は音声聞き取り能力がある． • 階層的聴覚路（内耳～聴覚大脳皮質）をHierarchical Spiking neural networkでモデル化して，同環境下の単語認識の正解率が最適になるように学習したとき，時間分解能（τ𝑙 )，周波数選択性(σ𝑙 )，励起電圧閾値(𝑁𝑙 ) の層間の変化を示すハイパーパラメータ，α，γ，λは，α ≈ 2，γ ≈ 1， λ ≈ 1となり，τは緩和し、σとNは変化が無いことが分かった．これは，聴覚生理学で見られる傾向と類似している． • Hierarchical Spiking neural networkから計算した各層の周波数時間受容野の、時間分解能，時間遅延，周波数分解能は、猫の階層的聴覚路で得た該当値と傾向が類似している • よって、雑音環境下での聴覚の特性は、同環境下で言語の認知を得る過程で形成されると考えられる 13

14.

END 14