【DL輪読会】 Titans: Learning to Memorize at Test Time

1.

DEEP LEARNING JP [DL Papers] Titans: Learning to Memorize at Test Time Yuya IMAI, Matsuo Iwasawa Lab http://deeplearning.jp/ 1

http://deeplearning.jp/

2.

書誌情報 Titans: Learning to Memorize at Test Time Authors: Ali Behrouz, Peilin Zhong, and Vahab Mirrokni Affiliation: Google Research TL;DR 推論時にも新しい情報を効率的に記憶し続けることができる、長期記憶モジュール「Neural Memory」を開発し、それを組み込んだ「Titans」という高性能なモデルを作った 2

3.

背景既存の系列モデルのジレンマ • Transformer – 長所: Attention機構により、文脈内のトークン間の依存関係を正確に捉え（Incontext Learning）大規模なモデルで驚異的な性能を発揮。 – 短所: 計算量とメモリ使用量がコンテキスト長の二乗 (O(N^2)) で増加。 • 線形RNN – 例: RetNet(2023), Mamba(2024), Gated DeltaNet(2024) – 試み: 計算量を線形 (O(N)) に削減し、スケーラビリティを改善。 – 限界: 情報を固定サイズの隠れ状態に圧縮するため、長いコンテキストの情報を正確に保持することが難しく、性能が低下しやすい。 ⇒ 高速・高効率でありながら、超長文の情報を正確に扱えるモデルが求められている。 3

4.

背景人間の記憶システムからの着想 • 人間の脳は、単一の記憶システムを持っているわけではない。 – 短期記憶 (Short-term Memory): 現在のタスクに関連する少量の情報を一時的に保持。 – 長期記憶 (Long-term Memory): 膨大な情報を長期間にわたり保持し、必要に応じて取り出す。 – これらは独立しつつも相互に連携するシステムとして機能する。 • 既存のAIアーキテクチャの課題 – これらの複雑な記憶メカニズムを十分に模倣できていない。 – 単一のベクトルや行列に過去の情報を詰め込むのは、長期記憶の表現としては単純すぎるのではないか？ • 本研究の問い – 効果的な「記憶」の構造とは？ – 適切な「記憶」の更新・検索メカニズムは？ – 複数の記憶モジュールをどう効率的に統合するか？ 4

5.

手法提案手法: Titans アーキテクチャの全体像 Titansの3つの主要コンポーネント: • Core（コア）: 短期記憶 – 限定的なウィンドウサイズの注意（Attention）機構を使用。 – 現在のコンテキスト内の正確な依存関係を捉える役割。 • Neural Long-term Memory（ニューラル長期記憶） – 本研究で提案する新しい記憶モジュール。 – 過去の膨大な履歴をそのパラメータ内に符号化し、テスト時にも学習・記憶を続ける。 • Persistent Memory（持続的記憶） – 学習可能だが、入力データに依存しないパラメータ群。 – タスクに関する普遍的な知識を保持する。 5

6.

手法コアコンセプト①: ニューラル長期記憶モジュール(1/3) - 学習プロセス • 目的: 過去の情報を「キー (k_t)」と「バリュー (v_t)」のペアとして、連想記憶のようにパラメータ内に保存すること。 • 学習の目標: 記憶モジュール M が、与えられたキー k_t から対応するバリュー v_t を正しく予測できるように以下の損失関数で評価する。 • 更新の基本形: この損失を最小化するように、勾配降下法で記憶モジュール M のパラメータを更新する。この勾配が、モデルにとっての「驚き (Surprise)」の指標となる。 6

7.

手法コアコンセプト①: ニューラル長期記憶モジュール(2/3) - Momentum の導入 • 課題: 瞬間的な「驚き」だけでは、大きな出来事の後に続く重要な情報を見逃す可能性がある（勾配消失）。 • 解決策: Momentumを導入し、「過去の驚きの記憶」と「現在の驚き」を統合することで、文脈の流れを捉えた、より持続的な記憶が可能になる。 – 「驚きの記憶」の更新: – 記憶モジュールの更新: 7

8.

手法コアコンセプト①: ニューラル長期記憶モジュール(3/3) - 忘却と検索 • 忘却の必要性: 長大なシーケンスを処理する際、限られたメモリ容量を効率的に管理するためには、不要になった情報を「忘れる」能力が不可欠。 – 忘却メカニズムの導入: 適応的な忘却ゲート α_t を導入し、過去の記憶をどの程度保持するかを動的に制御する。これは、実質的に重み減衰 (Weight Decay) として機能する。 – 最終的な更新式: • 記憶の検索 (Retrieval): 学習・更新された記憶モジュールから情報を取り出す際は、新しいクエリ q_t を入力し、単純な順伝播（重みを更新しない推論）を行う。 8

9.

手法 (再掲) Titans アーキテクチャの全体像 Titansの3つの主要コンポーネント: • Core（コア）: 短期記憶 – 限定的なウィンドウサイズの注意（Attention）機構を使用。 – 現在のコンテキスト内の正確な依存関係を捉える役割。 • Neural Long-term Memory（ニューラル長期記憶） – 本研究で提案する新しい記憶モジュール。 – 過去の膨大な履歴をそのパラメータ内に符号化し、テスト時にも学習・記憶を続ける。 • Persistent Memory（持続的記憶） – 学習可能だが、入力データに依存しないパラメータ群。 – タスクに関する普遍的な知識を保持する。 9

10.

手法コアコンセプト②: 持続的記憶モジュール(1/2) - 役割と実装タスクの「知識」を格納する、文脈非依存のアンカー • 役割: 長期記憶が文脈に沿った「エピソード記憶」だとすれば、持続的記憶はタスクの解き方など、文脈に依存しない普遍的な知識を保持する。 • 実装: 学習可能なパラメータ群 P を用意し、入力シーケンス x の先頭に連結する。 10

11.

手法コアコンセプト②: 持続的記憶モジュール(2/2) - 導入の動機なぜ持続的記憶が必要なのか？ • 記憶の視点から: タスク遂行に必要な抽象的な知識（例:「要約せよ」という指示の意味）を保持するため。 • FFNの視点から: TransformerのFFN層のように、データに依存しないキー・バリューとして機能させるため。 • 技術的な視点から: Attentionがシーケンスの初期トークンに過度に集中するバイアスを緩和し、注意の重みをより効果的に再分配するため。 11

12.

手法 (再掲) Titans アーキテクチャの全体像 Titansの3つの主要コンポーネント: • Core（コア）: 短期記憶 – 限定的なウィンドウサイズの注意（Attention）機構を使用。 – 現在のコンテキスト内の正確な依存関係を捉える役割。 • Neural Long-term Memory（ニューラル長期記憶） – 本研究で提案する新しい記憶モジュール。 – 過去の膨大な履歴をそのパラメータ内に符号化し、テスト時にも学習・記憶を続ける。 • Persistent Memory（持続的記憶） – 学習可能だが、入力データに依存しないパラメータ群。 – タスクに関する普遍的な知識を保持する。 ⇒3種類のアーキテクチャーを提案 12

13.

手法アーキテクチャ①：MAC (Memory as a Context) 長期記憶を、アテンションが処理するための追加の文脈（コンテキスト）として扱う。過去の記憶から関連情報を検索し、それを現在の入力に連結してからアテンションに渡す。 13

14.

手法アーキテクチャ②：MAG (Gated Memory) 短期記憶（アテンション）と長期記憶（ニューラルメモリ）を並列に処理し、それぞれの出力をゲート機構で動的に混ぜ合わせる。 14

15.

手法アーキテクチャ③：MAL (Memory as a Layer) 長期記憶モジュールを、アテンション層の前段に置かれた一つの層（レイヤー）として扱う。データをまず記憶層に通し、その出力を次にアテンション層に渡すという直列的な構成。 15

16.

実験実験①：基本性能の評価（言語モデリング・常識推論）実験設定の概要 • 評価モデル: Titansの3つの派生形（MAC, MAG, MAL）および長期記憶モジュール（LMM）単体。 • 比較対象: Transformer++, Mamba, Mamba2, Gated DeltaNetなどの最新リカレントモデルおよびハイブリッドモデル。 • データセット: FineWeb-Eduデータセットで事前学習し、Wikitextや各種常識推論タスクで評価 16

17.

実験実験①：基本性能の評価（言語モデリング・常識推論）結果 • LMM単体の性能: 長期記憶モジュール（LMM）単体でも、Transformer++を含む他の非ハイブリッドモデルを上回る性能を達成。 • ハイブリッドモデルの性能: Titansのハイブリッド版（MAC, MAG, MAL）は、Samba やGated DeltaNet-H2といった他のハイブリッドモデルよりも優れた結果を示した。 • アーキテクチャの優位性: 特にMACとMAG の性能が高く、文脈やゲートとして記憶を統合するアーキテクチャの有効性が示された。 17

18.

実験実験②：有効文脈長の検証 (Needle-in-a-Haystack) タスクの概要 • Needle-in-a-Haystack (NIAH) は、長いダミーテキスト（Haystack）の中から特定の情報（Needle）を検索させることで、モデルの真の有効文脈長を測定するタスク。結果 18

19.

実験その他言語モデル以外のモデル（時系列予測やDNAモデリング）としても高い性能を発揮 19

20.

まとめ結論と貢献 • 新しい記憶パラダイムの提示: テスト時にも学習・記憶・忘却を行う「ニューラル長期記憶モジュール」を提案。 • 革新的なアーキテクチャの設計: 注意機構（短期記憶）とニューラル記憶（長期記憶）を効果的に統合するアーキテクチャファミリー「Titans」（MAC, MAG, MAL）を提示。 • 優れた性能の実証: 言語モデリング、常識推論、ゲノム解析、時系列予測など、多様なタスクで最先端の性能を達成。 • 超長文コンテキストのブレークスルー: 特に200万トークンを超える超長文の読解・推論タスクにおいて、既存の巨大言語モデルを凌駕する能力を実証。 20

21.

まとめ今後の展望 • より効率的で表現力の高いニューラル記憶アーキテクチャの探求。 • 異なる記憶モジュールの最適な組み合わせ方のさらなる研究。 • Titansのアーキテクチャを、マルチモーダルなど、より多様な領域へ応用。 • 後継研究 – ATLAS: Learning to Optimally Memorize the Context at Test Time – https://arxiv.org/abs/2505.23735 21

https://arxiv.org/abs/2505.23735

【DL輪読会】 Titans: Learning to Memorize at Test Time

Deep Learning JP

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

【拡散モデル勉強会】拡散モデルの数理

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

【拡散モデル勉強会】Introduction to Diffusion Models

【DL輪読会】Conditional Flow Matching

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

各ページのテキスト