【DL輪読会】Temporal dendritic heterogeneity incorporated with spiking neural networks for learning multi-timescale dynamics

1.

Temporal dendritic heterogeneity DL Hacks 2021 Introductory Session incorporated with spiking neural networks for learning multi-timescale dynamics Yuya TAKEDA, University of Tokyo Alfredo Solano, Matsuo Laboratory

2.

書誌情報 • 著者：Hanle Zheng, Zhong Zheng, Rui Hu, Bo Xiao, Yujie Wu, Fangwen Yu, Xue Liu, Guoqi Li, Lei Deng • ジャーナル：Nature Communications 15, 277(2024) – Received：31 July 2023 – Accepted：21 December 2023 • 補足情報：https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-023-44614-z/MediaObjects/41467_2023_44614_MOESM1_ESM.pdf • リポジトリ：https://github.com/eva1801/DH-SNN • 概要 – LIFニューロンに樹状突起の不均一性を取り入れ、マルチタイムスケール性能を改善した – – – Spiking NN (DH-SNN)を提案 Temporal Spiking XORによってメカニズムを解明従来のSNNに対する包括的な性能向上ニューロモルフィック・コンピューティングの実世界応用を大きく前進 2

3.

(補足) LIFニューロンイオンチャネルの挙動は考慮せず、入力電流を膜電位が閾値に達するまで時間的に積分するIntegrate-and-fire(IF)モデルに、チャネルにおけるイオンの拡散などよる膜電位からの漏れ電流を加えて定式化した神経細胞のモデル・活動電位生成中の変化は省略し、リセット後から閾値到達までの変化のみを扱う・抵抗Rによる定数倍は重みに組み込んで省略されることもあるソーマ（各周囲部） (https://snn.hirlab.net/?s=3 より) (https://manabitimes.jp/qa/3442より改変) 3

4.

選定理由 • ニューロモルフィック・コンピューティングが盛り上がっている（らしい？） – 2023前半の論文で研究が増えていると言われていたが、去年を通してそんなに多かった印象はない • SNN系で発表したいと思っていたが新しい研究がなかったがちょうど良いタイミングで採録されていた – SpiNNaker2あたりを読もうとしていた • SNNのアーキテクチャ系は案外少ないが、脳の知見を適切に取り入れ、かなりの成果が出ていたようなので共有すべきと思った 4

5.

目次 • 概要 • DH-LIFとDH-SNN • 実験 – – – – – 遅延発火XOR課題マルチタイムスケール発火XOR課題① マルチタイムスケール発火XOR課題② SHD、SSC課題様々なタスクでの比較 • ニューロモルフィック・ハードウェアへの実装 • 脳波信号認識およびロボット位置認識への応用 • まとめ ※ [ ] 内の引用論文の番号は、発表論文のReferencesに準拠しています 5

6.

概要 6

7.

SNNについて • Spiking Neural Network(SNN) – SNNの研究では、神経ダイナミクス、接続パターン、符号化スキーム、処理フローなど、多くの生物学的観測が検討されている – 特にANNで提案されたBPTTアルゴリズムで学習することで精度が高くなってからは、画像認識タスクにおいて広く注目されている (Basu, A., Deng, L., Frenkel, C., & Zhang, X. (2022, April). Spiking neural network integrated circuits: A review of trends and future directions. In 2022 IEEE Custom Integrated Circuits Conference (CICC) (pp. 1-8). IEEE より) 7

8.

SNNの時間的計算能力 • SNNは動的な特性から、時間情報を処理する能力があるとされるが、理由はよくわかっていない – どのようなメカニズムが学習能力に寄与しているか – SNNの豊富な動的特性を利用して複雑な時間計算タスクを満足に解決するか • 実世界の時間計算タスクを実行するために必要な重要な能力を再考 – 複雑な時間信号は通常、可変のタイムスケールと豊富な周波数を示すが、脳によってうまく処理されている[6] • e.g. 早口の人とゆっくり話す人の識別 – 神経科学では、脳回路や反応に大きな時間的不均一性を観察してきた • e.g. neural heterogeneity、dendritic heterogeneity、synaptic heterogeneity [6] Monsa, R., Peer, M. & Arzy, S. Processing of different temporal scales in the human brain. J. Cogn. Neurosci. 32, 2087–2102 (2020). 8

9.

脳の時間的計算能力 • 多くの現象から推測される樹状突起の時間的計算能力は、これまでも研究されてきた – – • 生物の挙動を模倣 • • ニューロンモデル[20−24] デンドライト様ナノスケールデバイス[25], [26] 樹状突起が示唆する高度な計算関数（NNにも役立つと思われる） • • • • 局所非線形変換[20], [27] シナプス学習規則[22], [28]への調整異なる神経信号源の多重化[29] マルチタイムスケールダイナミクスの生成[13], [23] しかし、これらの生物学的観察は、不適切な抽象化、計算複雑性、効果的な学習アルゴリズムの欠如により、現段階で実世界の時間計算タスクに適用することは困難 9

10.

背景 • 先行研究 – LIFは単純すぎて豊富な時間的不均一性を十分に利用できない – [31]のような少数の研究者が膜やシナプスの時定数を学習して神経の不均質性に触れているにもかかわらず、非常に重要と考えられる樹状突起の不均一性を無視してる – 最近、いくつかの研究者がそれに気づき、神経動作シミュレーションを高速化するためのデンドリファイソフトウェアフレームワーク[32]を開発しようと試みた – しかし、今日、一般的な SNNモデルに時間的樹状突起の不均質性を組み込み、実世界の時間計算タスクで動作させる方法について、単独でどのように動作するかを説明することはおろか、明示的かつ包括的な研究はまだ不足している 10

11.

功績 • DH-LIF – これらの課題を解決するために、と呼ばれる神経異質性もカバーする、時間的樹状突起の不均質性を持つ新しいLIFニューロンモデルを提案 • ニューロンモデルをネットワークレベルに拡張 – DH-SFNN：フィードフォワード接続のみのネットワーク – DH-SRNN：リカレント接続のネットワーク – DH-SNN：両方をサポートするネットワーク • BPTTベースの学習手法 – 通常のSNNのための新しい高性能BPTTアルゴリズム5, 33に基づいて、DH-SNNの学習方法の明示的な形式を導出 – 同じニューロンの異なる樹状突起の枝と異なるニューロンで異種タイミング因子を適応的に学習することにより、異なるタイムスケールの特徴を捉えるためのマルチタイムスケールの時間ダイナミクスを生成 – この作業メカニズムを明らかにするために、時間スパイク XOR 問題を精緻化し、ニューロンにおける分岐間特徴統合、リカレント層におけるニューロン間特徴統合、ネットワークにおける層間特徴統合が、マルチタイムスケールの時間特徴を捉える上で類似かつ相乗的な効果を持つことを見出した 11

12.

功績 • 研究成果 – 音声認識、視覚認識、脳波信号認識、ロボット配置認識のための広範な時間計算ベンチマークにおいて、DH-SNNは通常のSNNと比較して、報告された最高の精度と有望な頑健性、一般化を含む包括的な性能向上を達成 – 樹状突起接続にスパース制限を加えることで、DH-SNNはニューロモルフィックハードウェアにおいて高いモデルコンパクト性と高い実行効率を実現 • 研究の貢献 – 脳内で観察される時間的樹状突起の不均一性がマルチタイムスケールの時間ダイナミクスの学習における重要な要素であることを示唆 – 複雑な時間計算タスクを実行するSNNモデリングの有望なルートに光を当てる 12

13.

概念図（Fig. 1 | Inspirations from biology to improve the modeling of SNNs with temporal dendritic heterogeneity） ANNニューロンはニューラルダイナミクスを用いないため、時間記憶をモデル化できない ※ リカレント接続によって時間情報を記憶し、神経状態を非同期に更新することでマルチタイムスケールの時間ダイナミクスを学習できるが、結果として得られる外在ダイナミクスはニューロン内の固有ダイナミクスとは異なり、現在の RNNはこの研究の焦点である樹状突起の不均一性をモデル化していない LIFニューロンはソマの膜電位を減衰係数で時間的に更新することで、時間的ダイナミクスをモデル化（但し、単一スケールの時間記憶）いくつかの生物学的記録では、ニューロンや樹状突起の枝にまたがる不均質な構造やマルチタイムスケールの動的応答が部分的に観察されており、これは前述の強力な機能との関連があるように思われる LIFニューロンに樹状突起の不均一性を取り入れることで、マルチタイムスケールの時間計算タスクを可能に 13

14.

DH-LIFとDH-SNN 14

15.

DH-LIF (Fig. 2 | The design of DH-LIF and DH-SNN.) • • • • 樹状突起の各枝は、樹状突起電流変数 𝑖! の時間記憶ユニットを持つこれはシナプス前入力で更新される膜電位のように進化し、タイムステップごとに 𝛼! のようなタイミング因子によって減衰する樹状突起上の異なる枝が異なるタイミング因子を持つとき、記憶された情報のタイムスケールは時間的な樹状突起の不均質性を示すさらに、異なるニューロンにおける膜電位と樹状突起電流のタイミング因子の違いは、時間的な神経不均一性も生み出すと考えられる 15

16.

DH-LIF (Fig. 2 | The design of DH-LIF and DH-SNN.) • タイミング因子が全て十分に小さい場合、樹状突起は記憶能力を失うので、不均一性のないVanilla SNNとみなせる • Vanilla SNNはDH-SNNの特殊なケースなので、DH-SNNの性能が良いのは直観的にもわかる 16

17.

樹状突起記憶のモデル化樹状突起構造は、樹状突起分岐上の電流 𝑖!",$ と電圧 𝑢!",$ が時間と位置によって異なる一連の小さなRC回路とみなせる実装のための簡略化として、空間的な特徴は除去し時間のみを考慮すると、樹状突起電流 𝑖!" は下式のように振る舞うよって、(ソーマの膜電位に対して単一のタイムスケールしか持たない古典LIFニューロンに対して、) 樹状突起に関するマルチタイムスケールのメモリを持つ DH-LIFニューロンは下式のような挙動を示す % (𝐼!_#$% ∶ 流入する外部シナプス電流) このとき、 ( u : ソーマの膜電位 β : ソーマのタイミング因子 H() ∶ ヘビサイド関数 ) であり、オイラー法による離散化で以下が得られる以下では、簡単のためR=1としている以上より、d番目の樹状突起のシナプス入力は、フィードフォワード入力とリカレント入力の和であるため (タイミング因子 𝛼! は 𝛼! = 1'%!&' 𝑜𝑟 1'%! ) を得る 17

18.

Bursting Spike (Fig. 2 | The design of DH-LIF and DH-SNN.) • • Bursting Spikeは生体神経細胞で一般的な現象神経細胞は以下の2種類の入力を受けたと仮定 – – – 孤立したスパイクイベントを駆動する高周波入力バースト確率を制御する低周波入力この機構は、樹状突起の既知の関数である多重化[29]に似ている [29] Naud, R. & Sprekeler, H. Sparse bursts optimize information transmission in a multiplexed neural code.Proc. Nat. Acad. Sci. 115, E6329–E6338 (2018). 18

19.

Bursting Spike (Fig. 2 | The design of DH-LIF and DH-SNN.) • • バニラLIFニューロンはバーストスパイクを生成できない – ソーマの膜電位のタイミング因子はせいぜい1つのタイムスケールにしか一致しない • • 高周波入力のタイムスケールにのみ一致する場合、高速減衰メカニズムにより低周波入力の長期記憶が失われる低周波入力にのみ一致する場合、履歴情報の重い記憶により高周波入力に密接に追従することができない DH-LIFニューロンはバーストスパイクを生成できる – – 複数の樹状突起分の岐に汎用的なタイミング因子を柔軟に設定することで、異なる入力の可変タイムスケールを同時に処理できた多重化機能に関する先行研究[29]においても、ソーマと樹状突起に入力された異なる周波数を伴う、TPNsのアンサンブル応答をシミュレートしたとされる 19

20.

Bursting Spike (Fig. 2 | The design of DH-LIF and DH-SNN.) • [29]との類似 – 入力と推定値の間の周波数分解コヒーレンスを計算することにより、異なるタイムスケールでの多重化における符号化品質を定量化 – 樹状突起入力とバースト確率に基づく推定値の間のコヒーレンスは、遅い入力変動では1に近く、速い入力変動では0に減少することを発見 • これは大きなタイミングファクターを持つ我々の樹状突起分岐モデリングと同様 – 一方、100Hzまでの入力周波数に対して、イベントレートがソーマ入力を高精度に復号できることを発見し、これは小さなタイミングファクターでの我々の樹状突起分岐モデリングと同様 • [29]との相違 – 多重化デンドライトによる階層的な脳通信の理解に焦点を当てているが、我々は、生物学的観察に触発されて提案モデルが、許容できる計算複雑性と効果的な学習アルゴリズムで、複雑な時間計算タスクを実際に解決するための有効性に焦点を当てる 20

21.

樹状突起の枝の数について • タイミング因子による各シナプスの不均一性のモデル化は、貴重な洞察を与えるが、いくつかの欠点、特にシナプスの数が多いため、計算とストレージのオーバーヘッドが増加するというデメリットがある（不均一性の近似制度は、当然、樹状突起の数が多くなるほど高くなるはずである） 21

22.

高い計算効率 (Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware.) • DH-SNNのパラメータの増加はニューロン単位で、樹状突起の枝の数に比例 →シナプス重みと比較して無視できるほどコストが小さい 22

23.

樹状突起の枝の数について • しかし、補足実験では多くの樹枝が飽和するか、あるいは性能に悪影響を与える可能性があることを示唆されている • したがって、実世界の時間計算タスクを解決するためには、シナプスの不均一性ではなく、樹状突起の不均一性を取り入れることが賢明 • そうすることで、計算効率と期待されるマルチタイムスケールダイナミクスをモデル化する能力との間のより良いバランスとなる 23

24.

DH-SNN (Fig. 2 | The design of DH-LIF and DH-SNN.) DH-SFNN DH-SRNN Vanilla LIFベースのSNNと比べてパラメータ数が増えないようにスパースな接続 24

25.

DH-SNNのモデル化ニューロンの接続は以下のように制約を加え、前述のDH-LIFに層情報を追加 DH-SRNNの層ではスパース性のため、以下のように制限するこのとき、d番目の樹状突起のシナプス電流はと表され、DH-SFNNではとなる 25

26.

樹状突起の接続パターン 26

27.

DH-SNNの学習 • タイミング因子は精度に直結するが、手動での設定は困難なので、自動的に学習させたい • BPTTを適用して明示的に勾配を計算 • 具体的には以下を求める – シナプスの重み – 膜電位のタイミング因子 – 樹状突起電流のタイミング因子 • 同様のアルゴリズムを用いたベースラインとの比較も可能 27

28.

DH-SNNの学習定式化されたDH-SNNにBPTTを適用する勾配降下法の連鎖則によりよって、パラメータの勾配は以下のように求められるが得られる（δは特定の変数に関する損失関数の勾配）また、微分不可能なスパイクの活性 H’ にはサロゲート勾配関数を以下のように適用する 28

29.

実験：遅延発火XOR課題 29

30.

概要と仮説 (Fig. 3 | Long-term memory on dendrites.) • 樹状突起ダイナミクスを介した長期記憶を調べる • 仮説 – Vanilla LIFニューロン • • • 膜電位uを記憶と見なすことができる長期記憶を得るには、膜電位の減衰を遅らせるために、タイミング係数βを大きくすれば良いしかし、発火のたびに膜電位がリセットされるため、βを大きくしても、情報を長く記憶することはできない – DH-LIFニューロン • マルチコンパートメントモデリングにより、長期的な情報を保持できる（樹状突起電流はリセットされないため） 30

31.

課題の内容(Fig. 3 | Long-term memory on dendrites.) • 設定 – 出力結果は入力スパイクパターンの最初と最後の発火率を考慮し、Ground Truth の真理値表のXOR演算となるように動作 – 異なる遅延値を設定することで、モデルのメモリ能力を容易にテストできる Stage1 low/high Stage2 ノイズとなるスパイクを含む長い遅延時間 Stage3 low/high 31

32.

使用するネットワーク Vanilla SFNN DH-SFNN 32

33.

ネットワーク構造 • 簡単のため、DH-SFNNでは各ニューロンに一つの樹状突起のみが割り当てられる • 樹状突起分岐が1つのDH-LIFニューロンは、樹状突起電流をシナプス電流と呼ぶ既存のモデル[31]に似ている • しかし、その研究は、樹状突起の枝とニューロンの両方にまたがる樹状突起の不均一性よりも、ニューロン間の神経の不均一性に焦点を当てたものであった – 既存のモデルでも同様の実験が可能であるが、樹状突起ダイナミクスの役割は明示的に解析されていない 33

34.

結果 (Fig. 3 | Long-term memory on dendrites.) • DH-SFNNがVanilla SFNNを大幅に上回り、長期記憶を示した • タイミング因子を固定しても長期記憶は可能だが、学習可能な方が長期記憶が生じる →特に、初期化がタスクに不適切でも精度を大きく向上させることができる • 初期値が大きいと、情報の減衰が遅いため、より長期記憶が生じる 34

35.

結果 (Fig. 3 | Long-term memory on dendrites.) • トレーニング前後の樹状突起のタイミング因子の分布 • Small、Mediumにおいて、より長い記憶を維持するために大きな値へ駆動されている 35

36.

結果 SHD、SSC課題については後述 36

37.

結果 (Fig. 3 | Long-term memory on dendrites.) • タイミング因子をLargeで初期化したときの、時間経過によるVanilla SFNNの膜電位とDH-SFNNの樹状突起電流に対する損失の勾配を比較 • Vanilla SFNNの膜電位の勾配 – 大きなタイミング因子が与えられた場合でも、逆伝播するとすぐに消失 • 樹状突起電流の勾配 – 長い時間保持することが可能 • これは膜電位のリセット機構に起因 37

38.

膜電位のリセット機構の影響 SHD、SSC課題については後述 38

39.

膜電位リセット機構の数理膜電位リセット機構には以下の3種類がある（Vanilla LIFニューロンはハードリセット機構を持つ）ハードリセットソフトリセットリセットなし 39

40.

実験：マルチタイムスケール発火XOR課題① ニューロン内異種特徴量の統合 40

41.

概要 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) • 遅延発火XOR課題をマルチタイムスケールにアップグレード • 時間的に不均一な情報を処理するモデルの能力を検証し、予測をさらにサポートする 41

42.

使用するネットワーク 2枝のDH-SFNN Vanilla SFNN(前述) DH-SFNN(前述) 42

43.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) • 1枝の場合はマルチタイムスケール情報をうまく処理することができない 43

44.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) • 初期化が大きいブランチ2の樹状突起のタイミング因子は小さくなる傾向があり、学習プロセスが入力信号のマルチタイムスケールに適合するようになっていることが証明された 44

45.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) 図(a)に対応 • ブランチ1をLarge、2をSmallでタイミング因子を固定したときの出力パターンと樹状突起電流 • ブランチ1が低周波、2が高周波に対応していることがわかる 45

46.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) 図(a)に対応 • • 2つの樹状突起電流は、膜電位と出力スパイクを相乗的に決定するために統合される興味深いことに、シナプスの重みを学習した後、いくつかのニューロンは信号1と2の特定の組み合わせを反映するように敏感な特徴を学習する – – 例えば、2つのニューロンは、スパイクが黒で保持され、スパイクのない領域は黄色でマークされていることが強調されている。 • • • ハイライトされたIDが小さい方のニューロンは、低発火信号1と高発火信号2を組み合わせた場合の感度が高い IDが大きい方は、高発火信号1と高発火信号2を組み合わせた場合の感度が高いここで「感度が高い」とは、信号1と信号2の学習された組み合わせ特徴に対応する連続したスパイクを発火させることを意味する DH-LIFニューロンのこれらの特定の学習された特徴は、マルチタイムスケールスパイクXOR問題を次の決定層で正しく実行するための重要なツールである 46

47.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) • 比較のため、1枝DH- SNNでも同様の可視化 • 1枝や、シナプス電流ダイナミクス[31]を持つSNNは、信号1 と2を組み合わせた特定の特徴を学習できず、失敗する 47

48.

• • 2つの樹状突起枝に信号 1と2を制限なくランダムに接続する実験を追加で実施 2枝SH-SNNはこの問題の処理に成功しており、接続制限は不要であり、学習過程で入力信号の複数のタイムスケールに対する選択性を獲得できる 48

49.

実験：マルチタイムスケール発火XOR課題② ニューロン間異種特徴量の統合 49

50.

概要 • シナプス結合を通じた、マルチタイムスケールの時間的特徴を統合する別ルートの実証 – シナプス結合には、SFNNでは層間のフィードフォワード接続、 SRNNでは層内のリカレント接続が含まれる • 1層DH-SFNN、2層DH-SFNN、1層DH-SRNNをテスト 50

51.

使用するネットワーク 2層1枝のDH-SFNN 1枝のDH-SRNN (1層1枝の)DH-SFNN(前述) 51

52.

解析 (Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections.) • • 各層の発火パターン 3種類のニューロンが発見された – – • タイプ 1: 信号 2 に高い周波数で感受性タイプ 2: 信号1 に低い周波数で感受性 2層SFNNの第1層の例 – – – 左図に発火率の低い信号1を入力すると、タイプ2ニューロンは疎な発火右図に発火率の高いシグナル1を入力すると、タイプ2ニューロンは密な発火さらに、タイプ2ニューロンの応答は一様に分布しており、周期的に変化する信号2の影響を受けていない →タイプ2ニューロンは信号1 に対する感度が高い 52

53.

解析 (Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections.) • • • ハイライトされたニューロンは、信号1と 2の特定の組み合わせに敏感なニューロンを表している 2層DH-SFNN では、1つの樹状突起分岐のみを持つDH-LIFニューロンは単一スケールの時間的特徴しか捉えることができないため、第1隠れ層にはタイプ1とタイプ2のニューロンしか存在しないことが分かる第2層では、タイプ1ニューロンとタイプ2ニューロンの出力スパイクパターンを統合することで、ハイライトされたニューロンが出てくる – – – • • 例えば、ここでハイライトされた2つのニューロンは、低発火信号1と高発火信号2を組み合わせた場合の感度が高い一方、1層のDH-SRNNでは、第1層でタイプ2とハイライトされたニューロンが観察される同様に、ここでハイライトされた2つのニューロンは、高発火信号1と高発火信号2を組み合わせた場合にも感度が高い DH-SRNNでは、ハイライトされたニューロンは、リカレントシナプス結合を介してタイプ 2ニューロンによって記憶された信号1の特徴にアクセスすることができる特に、高周波の信号2特徴は瞬時に受信され、記憶された信号1 特徴と組み合わせて、ハイライトされたニューロンを活性化することができる 53

54.

実験：SHD、SSC課題 54

55.

概要 (Fig. 3 | Long-term memory on dendrites.) • SHD、DDC音声ベンチマークでも比較 – いずれも豊富なタイムスケールを示し、処理モデルにおける時間的不均一性が必要発火パターン時間的特徴の詳細 55

56.

結果 (Fig. 3 | Long-term memory on dendrites.) • 学習可能なDH-SFNNはVanilla SNNよりはるかに高精度 • サンプリング精度が高いほど差が顕著に – サンプリング時間感覚dtが小さいほど、サンプリング精度が高く、タイムスケールが遅く、タイムウィンドウが長い – Vanilla SNNは必ずしも向上せず、低下することさえある – DH-SFNNは上昇傾向 56

57.

結果 (Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches.) • 樹状突起の数を増やすと、より良い結果 57

58.

• 冗長すぎると飽和・劣化 58

59.

結果 (Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections.) • SHDでは多層化が有効 • SSCでは回帰接続が有効 59

60.

解析 (Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections.) • 2層SFNNの第2隠れ層のニューロンは、前の層の学習した特徴を一度しか空間的に統合できず、少し高いレベルの特徴を形成することができるようだ • 一方、リカレント接続は、1層の SRNNのニューロンが学習した特徴を複数回統合し、より高次の特徴を形成するのに役立つ – 例えば、低レベル特徴量 x t 1 と x t 2 を統合して、少し高いレベルの特徴量 y t 1 を生成し、さらに y t 1 を x t 3 と統合して、より高いレベルの特徴量 z t 1 を生成する 60

61.

解析 • さらに、2層SFNNと1層 SRNNをより広い1層 SFNNと比較 • より広い1層SFNNの性能向上は、2層SFNNと1層 SRNNにニューロン間特徴統合を導入した場合ほど大きくなく、パラメータ数を増やすだけではマルチタイムスケールの時間計算タスクの性能向上は単純に達成できないことが示唆された 61

62.

結果 (Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections.) • SSC(SHDよりも複雑)における樹状突起枝の数が異なる多層SFNNと DH-SFNN(e)と多層SRNNとDH-SRNNの精度 • 層数、枝の数の増加に対する感度 – いずれも精度は向上 – SFNNとSRNNの精度差は減少 62

63.

Aa (Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware.) • SSCに対する1層SFNNとSRNNのシナプス蓄積数とパラメータ • 樹状突起の枝の数が増えても、パラメータやシナプスの動作は明らかに増加しない 63

64.

結果 (Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware.) • ロバスト性も高い 64

65.

実験：様々なタスクでの比較 65

66.

実験設定 66

67.

様々なタスクでの比較 • 少ないパラメータで非常に高い精度 67

68.

• 高い計算効率 68

69.

ニューロモルフィック・ハードウェアへの実装 69

70.

DH-SNNとニューロモルフィック・ハードウェア • 従来のニューロモルフィック・ハードウェア – SNN のために様々なニューロモーフィックプラットフォームが開発されているが、DH-SNNはさらに樹状突起ダイナミクスの計算を伴うため、従来のニューロモルフィック・ハードウェアでの操作が困難 • ハイブリッドパラダイムニューロモルフィックチップ – この10年間、ANN、SNN、ハイブリッドニューラルネットワークをサポートするTianjic series[39, 40]というハイブリッドパラダイムニューロモルフィックチップを開発してきた – ソーマダイナミクスのスパイクモードと樹状突起ダイナミクスの非スパイクモードを設定してDH-SNNを実行できる可能性がある – SpiNNaker 2 [42]やBrainScale 2 [43]もハイブリッドパラダイムを採用 – DH-SNNが実用的なニューロモーフィックに適用する大きな可能性がある 70

71.

適用 (Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware.) • ニューロモルフィックへの適用における DH-SNNのシナプス接続パターン • TianjicXのリソースをより有効に活用するために特別な制限を追加 • 制限の有無による2つのモデルを比較した結果、0.3%以内で無視できる程度の精度劣化しか生じない 71

72.

TianjicXの開発ボードとデータフロー (Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware.) • 各モデルをいくつかの実行ステップに分割し、異なる数の機能コアを割り当てる • 高スループットかつ低消費電力でDH-SNNを効率的に実行できる 72

73.

ハードウェア実装の詳細 73

74.

脳波信号認識およびロボット位置認識への応用 74

75.

BCIへの応用 • BCIでは、脳波信号をいかに効果的に扱うかが重要 • SNNベースの手法[48, 49]も脳波信号を高効率に処理できる大きな可能性を示しているが、まだ満足のいく性能を達成できていない • 脳波信号のマルチタイムスケール成分を考慮すると、DN-SNNは、脳波信号認識タスクにおけるSNNの性能を高めることが期待される 75

76.

データセット • DEAPデータセット – 音楽ビデオで刺激された32人の参加者のEEG信号からなるデータセット – 感情ラベル付き 76

77.

学習曲線 • 価値、覚醒度認識の両タスクで優れた性能 77

78.

ANN他モデルとの比較 • 既存のアプローチと比較しても、はるかに少ないパラメータで最高精度 78

79.

• 2 クラスの感情認識についても同様の実験 • 結果も同様 79

80.

ロボット位置認識 • 視覚的位置認識(VPR)タスク • DH-SNNモデルの上位1 位、上位5位、上位10位の精度スコアが高く、豊富な時間情報を持つロボットタスクの実行に大きな可能性 – これは、画像認識タスクにおけるネットワークアーキテクチャの違いや、リカレントネットワークの学習が困難であるためと思われる 80

81.

まとめ • 樹状突起の不均一性を取り入れたDH-SNNを提案 • マルチタイムスケール情報をうまく扱うことができる – 原理も解明 • 様々なタスクで検証 – 少ないパラメータで最高精度 – 単層、多層ともに成果 • ニューロモルフィックハードウェアでも実装可能 • BCIやロボットでも期待 81

82.

感想 • STDPやeligibility traceのような順伝播の学習アルゴリズムを使ったらどうなるのか • SLSTMに変わりそう。ただTransformerもループ構造があるとわかったので、SRNNやSLSTMはTransformer的なものに置き換えられていくのだろうか • ANNはより生体を模したものになっていくのか – 精神遅滞だと棘突起が少なく樹状突起が胎児に近いみたいな指摘もあるので、樹状突起のモデル化で学習がうまくいくのはそんな気がする – 樹状突起を取り上げるならグリアとかもいずれモデル化されそう • すごいタイポがあるが、それを気にさせないほどの功績 • “temporal”が「時間的」か「側頭」かわかりづらい 82

【DL輪読会】Temporal dendritic heterogeneity incorporated with spiking neural networks for learning multi-timescale dynamics

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】拡散モデルの数理

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト