RDBでのツリー表現入門2024

52.4K Views

July 26, 24

#rdb #sql #モデリング #テーブル設計 #ツリー #mysql #RDB #ツリー表現 #隣接リスト #経路列挙 #入れ子集合 #閉包テーブル

スライド概要

RDBでツリー構造を表現するための典型的なモデルについて学ぼう!
cf. 2020年版(in Opt Technologies): https://www.docswell.com/s/lagenorhynque/KW1WYP-introduction-to-tree-representations-in-rdb

Kent OHASHI

@lagenorhynque

スライド一覧

「楽しく楽にcoolにsmartに」を理想とするprogrammer/philosopher/liberalist/realist。好きな言語はClojure, Haskell, Flix, English, français, русский。読書、プログラミング、語学、法学、数学が大好き! イルカと海も大好き🐬

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

関数型言語テイスティング: Haskell, Scala, Clojure, Elixirを比べて味わう関数型プログラミングの旨さ

関数型プログラミング haskell scala clojure elixir 関数型言語

Kent OHASHI 141.4K

JavaからScala、そしてClojureへ: 実務で活きる関数型プログラミング

関数型言語関数型プログラミング java scala clojure

Kent OHASHI 42.6K

map関数の内部実装から探るJVM言語のコレクション: Scala, Kotlin, Clojureコレクションの基本的な設計を理解しよう

scala kotlin clojure コレクション関数型プログラミング

Kent OHASHI 36.3K

純LISPから考える関数型言語のプリミティブ: Clojure, Elixir, Haskell, Scala

関数型プログラミング lisp clojure elixir scala haskell

Kent OHASHI 11.7K

From Scala/Clojure to Kotlin

scala clojure kotlin 関数型プログラミング

Kent OHASHI 10.9K

Clojureコレクションで探るimmutableでpersistentな世界

関数型プログラミング clojure java scala コレクション

Kent OHASHI 10.9K

各ページのテキスト

RDBでのツリー表現入門2024 #NextbeatTechBar 1

https://x.com/hashtag/NextbeatTechBar?f=live

🐬 lagénorhynque カマイルカ株式会社スマートラウンドのプロダクトエンジニア主要技術スタック: Kotlin/Ktor + PostgreSQL 関数型言語/関数型プログラミングが好き仕事や趣味でClojure, Scala, Haskellなどに長く触れてきた RDB/SQLが好きプログラミングを始めて最初に好きになった言語がSQLだった 2

0. 事前準備 1. 隣接リスト(adjacency list) 2. 経路列挙(path enumeration) 3. 入れ子集合(nested sets) 4. 閉包テーブル(closure table) 3

0. 事前準備 4

サンプルコード lagenorhynque/tree-representations-in-rdb # 実験環境の準備 docker compose up -d make migrate ローカルDB: MySQL 8.4 compose.yaml 5

ツリーの本体データ用テーブル department CREATE TABLE `department` ( `department_id` int(10) unsigned NOT NULL AUTO_INCREMENT, `name` varchar(100) NOT NULL, PRIMARY KEY (`department_id`) ); 6

department の初期データ 7

表現したいツリー 8

1. 隣接リスト(adjacency list) 9

10.

「隣接リスト」モデル 10

11.

ツリー管理用のテーブル CREATE TABLE `department_adjacency_list` ( `department_id` int(10) unsigned NOT NULL, `parent_id` int(10) unsigned DEFAULT NULL, PRIMARY KEY (`department_id`), FOREIGN KEY (`department_id`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT, FOREIGN KEY (`parent_id`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT ); parent_id: 親ノード本体データ用テーブルに含めても良い 11

12.

department_adjacency_list の初期データ 12

13.

すべてのノードとその階層情報の取得 WITH RECURSIVE department_tree AS ( SELECT d.*, dal.parent_id, 0 distance FROM department d JOIN department_adjacency_list dal USING (department_id) WHERE dal.parent_id IS NULL UNION ALL SELECT d.*, dal.parent_id, dt.distance + 1 FROM department d JOIN department_adjacency_list dal USING (department_id) JOIN department_tree dt ON dal.parent_id = dt.department_id ) SELECT * FROM department_tree; distance: ルートノードからの距離 cf. MySQL :: MySQL 8.4 Reference Manual :: 15.2.20 WITH (Common Table Expressions) 13

https://dev.mysql.com/doc/refman/8.4/en/with.html

14.

15.

特定のノードからの子孫ノードの取得 WITH RECURSIVE department_tree AS ( SELECT d.*, dal.parent_id, 0 distance FROM department d JOIN department_adjacency_list dal USING (department_id) WHERE d.department_id = 10 UNION ALL SELECT d.*, dal.parent_id, dt.distance + 1 FROM department d JOIN department_adjacency_list dal USING (department_id) JOIN department_tree dt ON dal.parent_id = dt.department_id ) SELECT * FROM department_tree; distance: ノード 10 からの距離 15

16.

17.

特定のノードの子ノードの取得 SELECT d.* FROM department d JOIN department_adjacency_list dal USING (department_id) WHERE dal.parent_id = 10; 17

18.

19.

特定のノードの親ノードの取得 SELECT d.* FROM department d JOIN department_adjacency_list dal ON d.department_id = dal.parent_id WHERE dal.department_id = 10; 19

20.

21.

PROS モデルとして単純(良くも悪くもナイーブ) 直近の親/子ノードに対するアクセスが容易挿入操作が容易参照整合性が保証できる 21

22.

CONS 再帰CTE (recursive common table expressions)が使えないと任意階層に対するクエリが困難削除操作が煩雑 parent_id で NULL が現れてしまうルートノード管理用のテーブルを用意することで回避可能 22

23.

2. 経路列挙(path enumeration) a.k.a. 経路実体化(materialized path) 23

24.

「経路列挙」モデル 24

25.

ツリー管理用のテーブル CREATE TABLE `department_path_enumeration` ( `department_id` int(10) unsigned NOT NULL, `path` varchar(1000) NOT NULL, PRIMARY KEY (`department_id`), FOREIGN KEY (`department_id`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT ); path: 先祖からそのノードまでの経路(パス) 本体データ用テーブルに含めても良い 25

26.

department_path_enumeration の初期データ 26

27.

すべてのノードとその階層情報の取得 SELECT d.*, dpe.path, CHAR_LENGTH(dpe.path) - CHAR_LENGTH(REPLACE(dpe.path, '/', '')) - 1 depth FROM department d JOIN department_path_enumeration dpe USING (department_id); depth: ルートノードからの距離 27

28.

29.

特定のノードからの子孫ノードの取得 SELECT d.*, dpe.path, CHAR_LENGTH(dpe.path) - CHAR_LENGTH(REPLACE(dpe.path, '/', '')) - 1 depth FROM department d JOIN department_path_enumeration dpe USING (department_id) WHERE dpe.path LIKE CONCAT(( SELECT path FROM department_path_enumeration WHERE department_id = 10 ), '%'); depth: ルートノードからの距離 29

30.

31.

特定のノードの子ノードの取得 SELECT d.* FROM department d JOIN department_path_enumeration dpe USING (department_id) WHERE dpe.path REGEXP CONCAT(( SELECT path FROM department_path_enumeration WHERE department_id = 10 ), '\\d+/$'); 31

32.

33.

特定のノードの親ノードの取得 SELECT d.* FROM department d JOIN department_path_enumeration dpe USING (department_id) WHERE dpe.path = ( SELECT CASE WHEN path = CONCAT(department_id, '/') THEN NULL ELSE REGEXP_REPLACE(path, '^(.+/)\\d+/$', '$1') END FROM department_path_enumeration WHERE department_id = 10 ); 33

34.

35.

PROS 子孫/先祖ノードに対するアクセスが容易更新系操作が容易 35

36.

CONS パス文字列をアプリケーションコードで管理しなければならない正規化されていない(第1正規形でさえない) 参照整合性が保証できない 36

37.

3. 入れ子集合(nested sets) cf. 入れ子区間(nested intervals) 37

38.

「入れ子集合」モデル 38

39.

ツリー管理用のテーブル CREATE TABLE `department_nested_sets` ( `department_id` int(10) unsigned NOT NULL, `left` int(11) NOT NULL, `right` int(11) NOT NULL, `depth` int(10) unsigned NOT NULL, PRIMARY KEY (`department_id`), FOREIGN KEY (`department_id`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT ); left, right: 数直線上の左右の点を表す depth: ルートノードからの距離(必須ではない) 本体データ用テーブルに含めても良い 39

40.

department_nested_sets の初期データ 40

41.

すべてのノードとその階層情報の取得 SELECT d.*, dns.left, dns.right, dns.depth FROM department d JOIN department_nested_sets dns USING (department_id); 41

42.

43.

特定のノードからの子孫ノードの取得 SELECT d.*, dns.left, dns.right, dns.depth FROM department d JOIN department_nested_sets dns USING (department_id) JOIN department_nested_sets dns2 ON dns.left BETWEEN dns2.left AND dns2.right WHERE dns2.department_id = 10; 43

44.

45.

特定のノードの子ノードの取得 SELECT d.* FROM department d JOIN department_nested_sets dns USING (department_id) JOIN department_nested_sets dns2 ON dns.left BETWEEN dns2.left AND dns2.right WHERE dns2.department_id = 10 AND dns.depth = ( SELECT depth FROM department_nested_sets WHERE department_id = 10 ) + 1; 45

46.

47.

特定のノードの親ノードの取得 SELECT d.* FROM department d JOIN department_nested_sets dns USING (department_id) JOIN department_nested_sets dns2 ON dns2.left BETWEEN dns.left AND dns.right WHERE dns2.department_id = 10 AND dns.depth + 1 = ( SELECT depth FROM department_nested_sets WHERE department_id = 10 ); 47

48.

49.

PROS 子孫/先祖ノードに対するアクセスが容易削除操作が容易 49

50.

CONS 左右の点の値をアプリケーションコードで管理しなければならない正規化されていない(第1正規形でさえない) 挿入操作が非常に煩雑でコストも高い「入れ子区間」では改善される参照整合性が保証できない 50

51.

4. 閉包テーブル(closure table) 51

52.

「閉包テーブル」モデル 52

53.

ツリー管理用のテーブル CREATE TABLE `department_closure_table` ( `ancestor` int(10) unsigned NOT NULL, `descendant` int(10) unsigned NOT NULL, `path_length` int(10) unsigned NOT NULL, PRIMARY KEY (`ancestor`, `descendant`), FOREIGN KEY (`ancestor`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT, FOREIGN KEY (`descendant`) REFERENCES `department` (`department_id`) ON DELETE CASCADE ON UPDATE RESTRICT ); ancestor, descendant: 先祖/子孫関係にあるノードの組 path_length: ancestor から descendant までの距離(必須ではない) 53

54.

department_closure_table の初期データ 54

55.

すべてのノードとその階層情報の取得 SELECT d.*, COUNT(*) - 1 depth FROM department d JOIN department_closure_table dct ON d.department_id = dct.descendant GROUP BY dct.descendant; depth: ルートノードからの距離 MAX(dct.path_length) でも求められる 55

56.

57.

特定のノードからの子孫ノードの取得 SELECT d.*, dct.path_length distance, dct2.depth FROM department d JOIN department_closure_table dct ON d.department_id = dct.descendant JOIN ( SELECT descendant, COUNT(*) - 1 depth FROM department_closure_table GROUP BY descendant ) dct2 ON d.department_id = dct2.descendant WHERE dct.ancestor = 10; distance: ノード 10 からの距離 depth: ルートノードからの距離 57

58.

59.

特定のノードの子ノードの取得 SELECT d.* FROM department d JOIN department_closure_table dct ON d.department_id = dct.descendant WHERE dct.ancestor = 10 AND dct.path_length = 1; 59

60.

61.

特定のノードの親ノードの取得 SELECT d.* FROM department d JOIN department_closure_table dct ON d.department_id = dct.ancestor WHERE dct.descendant = 10 AND dct.path_length = 1; 61

62.

63.

PROS 子孫/先祖ノードに対するアクセスが容易更新系操作が容易参照整合性が保証できる 63

64.

CONS 他のモデルよりも保持すべきデータが多くなる 64

65.

まとめ「閉包テーブル」は総合的に優れている「隣接リスト」は最も素朴(ナイーブ)な設計だがデメリットもいくつかある「経路列挙」「入れ子集合」は参照整合性が保証できない(RDBの強みが犠牲になる) 65

66.

Further Reading 『SQLアンチパターン』 2章ナイーブツリー（素朴な木）『理論から学ぶデータベース実践入門』第10章グラフに立ち向かうツリー（木） 10.4 『Effective SQL』第10章階層的なデータ構造 66

67.

『達人に学ぶDB設計徹底指南書』第9章う一歩進んだ論理設計～SQLで木構造を扱『プログラマのためのSQLグラフ原論』 What are the options for storing hierarchical data in a relational database? - Stack Overflow 67