C言語で苦しむロックフリー入門（仮

50.8K Views

April 12, 23

#programming #C言語 #ロックフリー #並列処理 #ABA問題 #Hazard Pointer

スライド概要

kumagi

@kumagi

スライド一覧

分散システムとかデータベースとかロックフリーとかが好きです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

分散システムについて語らせてくれ

engineering distributed system

kumagi 163.3K

あなたの知らないハッシュテーブルの世界

programming

kumagi 96.6K

本当は恐ろしい分散システムの話

engineering database big data distributed system fault injection

kumagi 72.4K

冬のLock-Free祭り

engineering programming

kumagi 48.3K

STMの設計と進化

programming engineering

kumagi 47.9K

トランザクションをSerializableにする4つの方法

database engineering programming

kumagi 23.1K

各ページのテキスト

C言語で苦しむロックフリー入門（仮）熊崎宏樹

なんか来た • モノ好きにも程ってもんが…

C言語 • CPUの息遣いを感じられる良い言語 • ロックフリーなプログラムを書くには避けては通れないsafe mamory reclamation問題に一番ダイレクトに衝突する言語 • スペースの都合上、スライド上のコードはグローバル変数モリモリだけど真似しちゃダメ • メモリ確保も絶対成功する前提で書いてるけど真似しちゃダメ • ほんとはキャストが必要な部分もスペースの都合で省略

Stackについて • 最初に入れた物が最後に出てくるデータ構造 • 積み重ねるようなデータの持ち方をするから Stackと呼ばれる • 今回話すstackがサポートするメソッドはpush() とpop()のみとする

Stackについて • void push(int x): x を上に積む。関数は何も返さない物とする。 • int pop(): 最後に積んだ値を取ってくる。 push(1); push(2); push(3); int x = pop(); // => x=3 int y = pop(); // => y=2 int z = pop(); // => z=1

C言語での実装 •構造体定義 •線形リストでスタック構造を表現 typedef struct node{ int data; node* next; } node_t; node_t *head = NULL;

C言語での実装 void push(int x) { // 初期化して node_t *new_node = (node_t*)malloc(sizeof(node_t)); new_node->data = x; new_node->next = head; //挿入 head = new_node; }

C言語での実装 int pop() { // 獲得して node_t *got_node = head; node_t *next_head = got_node->next; int value = got_node->data; free(got_node); // 解放して return value; // 返却 }

並行処理実装 • 近年CPUコアは(中略)マルチスレッド(後略) void* work(void*) { for (int i = 0; i < 100; ++i) { push(i); } } int main(void) { pthread_t t1, t2; pthread_create(&t1, NULL, work, NULL); pthread_create(&t2, NULL, work, NULL); pthread_join(&t1); pthread_join(&t2); }

10.

C言語での並行push実装 void push(int x) { pthread_mutex_lock(&stack_lock); node_t *new_node = (node_t*)malloc(sizeof(node_t)); new_node->data = x; new_node->next = head; //挿入 head = new_node; pthread_mutex_unlock(&stack_lock); }

11.

C言語での並行pop実装 int pop() { pthread_mutex_lock(&stack_lock); node_t *got_node = head; node_t *next_head = got_node->next; int value = got_node->data; free(got_node); // 解放して pthread_mutex_unlock(&stack_lock); return value; // 返却 }

12.

ちょろい！

13.

Mutexでだいたい良い • ぶっちゃけStackでなら一番パフォーマンスが出る並行処理実装

14.

Mutexなしでできるのでは？

15.

Mutexなしでできるのでは？ • Compare And Swap命令を使えばできる！

16.

Compare And Swap • 指定したアドレスxが指定した値yだったら新しい値z で書き換えるまでを不可分に行えるCPU命令 int CAS(void** x, void* y, void* z) { if (*x == y) { **x = *z; return 1; } else { return 0; } }

17.

CASスピン • CASを使って成功するまで無限ループするコードを書けばロックが要らない！

18.

CASの使い方例 int x = 0; void add_unsafe() { ++x; } int x = 0; void add_cas() { for (;;) { // spin int old_x = x; if (CAS(&x, old_x, x+1)) { break; } } }

19.

Lockを用いないとどうなるか • 複数スレッドが同時に行うと x==1 スレッドA スレッドB 1.xを読み出す(1) 1.xを読み出す(2) 2.読んだ値に +1 2.読んだ値に +1 3.xを保存する(1) 3.xを保存する(3) OK! x==3

20.

Lockを用いないとどうなるか • 複数スレッドが同時に行うと破綻する場合がある x==1 スレッドA スレッドB 1.xを読み出す(1) 1.xを読み出す(1) 2.読んだ値に +1 2.読んだ値に +1 3.xを保存する(2) 3.xを保存する(2) 数が合わない x==2

21.

CASを使ってみよう • CASのお陰で衝突しても破綻しない x==1 スレッドA スレッドB 1. xを読み出す(1) 2. 読んだ値に +1 3. 値が1なら2へCAS 4. 失敗したので再挑戦 5. xを読み出す(2) 6. 読んだ値に +1 7. 値が2なら3へCAS 1. xを読み出す(1) 2. 読んだ値に +1 3. 値が1なら2へCAS 数が合う！ x==3

22.

[beta]

Lock-free Stack push
void lock_free_push(int x) {
node_t *new_node =
(node_t*)malloc(sizeof(node_t));
new_node->data = x;
do {
node_t *old_head = head;
new_node->next = head;
} while (!CAS(&head, old_head, new_node));
}

23.

Lock-free Stack Push • CASによってリトライができるので衝突もセーフ

24.

Lock-free Stack ↓ポインタ A Head CAS 「Headが指している物を指したノードを作ってCAS」

25.

Lock-free Stack A B C CAS CAS CAS Head D 失敗した！

26.

Lock-free Stack A B また失敗した！ C CAS Head CAS D

27.

Lock-free Stack A Head CAS C B D

28.

Lock-free Stack pop int lock_free_pop() { node_t *old_head; for (;;) { old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; free(old_head); return data; } } }

29.

Lock-free Stackからpop A Head CAS C D B

30.

Lock-free Stack ABA problem • CASは「値が一致した場合に成功する」事までしか確認しない。運悪く一致してしまった場合に事故る。

31.

Lock-free StackのABA D HeadがAを指してた HeadをAからBに書からBに書き換えれき換えるぞー！るぞー！やったー！うおおおおおー Head C push(x)しよっともう1回pop()しよっと Aをpop()しよっとメモリはAでいいや B A

32.

33.

よく言われる解決策 • Tagを付ければ解決するよ[1] • LL/SCを使ってもいいね[1] – LL/SCはx86系CPUでは使えない • Double WordのCASを使って、2word目をカウンタに使うとカウンタに充分なビット数が割けるので安心 – そもそも2wordのatomicなreadが無いじゃん。でもpushとpopの両方で増やしたら大丈夫になったわ[2] [1]2004 Maged M. Michaelら ABA Prevention Using Single-Word Instructions1 [2]The difficulty of lock-free programming: a bug in lockfree stack

http://mdf356.blogspot.jp/2015/06/the-difficulty-of-lock-free-programming.html

34.

Lock-free StackのABA D HeadがAを指してた HeadをAからBに書けどTag値が1じゃなき換えるぞー！くて4だからやり直しうおおおおおー Head1 Head4 Head3 Head2 C push(x)しよっともう1回pop()しよっと Aをpop()しよっとメモリはAでいいや B A 大丈夫ぽい！？

35.

大丈夫じゃねーよ！！！

36.

Lock-free Stack pop • TagによるABA避けをした実装 int lock_free_pop() { node_t *old_head; for (;;) { old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; free(old_head); return data; } } } OSへ返却 D head C B A 返却したメモリ->next; を読む！ int lock_free_pop() { node_t *old_head; for (;;) { old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; free(old_head); return data; } } }

37.

38.

そもそも別の解決策しかない • メモリを適当なタイミングでfree()するのは事故のもと – そもそもpop()だけをlockで守る解決策もある • この問題はガベージコレクションでのある言語では発生しない – 全てのスレッドが参照しなくなってからfree()されるから • よし！同一の状況をCでも再現しよう – 参照カウンタ？ • 参照時のカウンタ更新コストで死ぬ

39.

[beta]

解決策: Hazard Pointer
node_t *h_ptr[THREADS];
int lock_free_pop() {
for (;;) {
hzd_ptr[tid] = head;
if (head != h_ptr[tid]) continue;
node_t *next_head =
h_ptr[tid]->next;
if (CAS(&head, h_ptr[tid], new_head)){
int data = h_ptr[tid]->data;
for (int i=0; i<THREADS; ++i)
free(old_head);
return data;
}
}
}

40.

解決策：RCU • Read-Copy-Updateの略でRCU • カーネル空間内で、参照頻度の割に更新頻度が極端に低いデータをロックなしで保護する為に使っているアルゴリズム • 書き換え側のコストがすごい事になったりするが実用上の問題はない

41.

RCU Lock-free Stack push • rcu_read_lockによって rcuクリティカルセクションを記述する – そのセクション内のスレッドはプリエンプションされない int lock_free_pop() { node_t *old_head; for (;;) { rcu_read_lock(); old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; rcu_read_unlock(); synchronize_rcu(); free(old_head); return data; } } }

42.

RCU Lock-free Stack pop • RCUでメモリ解放を遅延 int lock_free_pop() { node_t *old_head; for (;;) { rcu_read_lock(); old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; rcu_read_unlock(); synchronize_rcu(); free(old_head); return data; } } } 他の全てのスレッドが抜けるのを待つ D C B A 解放されないので安心！ head int lock_free_pop() { node_t *old_head; for (;;) { rcu_read_lock(); old_head = head; node_t *next_head = old_head->next; if (CAS(&head, old_head, new_head)) { int data = old_head->data; rcu_read_unlock(); synchronize_rcu(); free(old_head); return data; } } }

43.

RCU: Grace Period • rcuクリティカルセクション内ではプリエンプションしなくなる – 実を言うとプリエンプションしても良い版の実装も存在するが詳細はまだ追ってない • synchronize_rcuで他のスレッドが最低1回ずつプリエンプションするのを待つ – 古いheadを観測して走ってるスレッドを邪魔しない

44.

RCU: Grace Period • プリエンプションを禁じるような操作をユーザ空間で気軽に使われると危険が危ない – そもそもユーザに使わせるべきではない • つまりカーネル空間ならではの解決法であり、ユーザ空間では別の方法が必要