Raft入門

2.7K Views

April 16, 24

#lifull #raft #Raft #分散合意アルゴリズム #State Machine Replication #リーダー選出 #ログレプリケーション

スライド概要

分散合意アルゴリズムのRaftの説明

株式会社LIFULL

@LIFULL

スライド一覧

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

pmconf2023【プロダクトマネジメントで高速PDCA】アウトカムが激増したLIFULL HOME’Sのグロース事例

プロダクトマネジメントプロダクトマネージャー lifull

株式会社LIFULL 26.8K

CloudWatch LogsからGrafana Lokiにログ基盤を移行

lifull aws grafana ログ

株式会社LIFULL 25.5K

HNSWの内部構造

lifull hnsw search

株式会社LIFULL 23.4K

PrometheusとGrafanaで追求する、より良いアプリケーションの可観測性

lifull grafana ログ kuberentes

株式会社LIFULL 21.8K

100人超のエンジニア組織の統合、60以上のアプリケーションの基盤集約、日本最大級の不動産・住宅情報サイト『LIFULL HOME'S』を支え続けるエンジニアリング＿長沢翼

lifull lifull home's cto keel engineering technology

株式会社LIFULL 20.6K

#ED6103との付き合い方

アクセシビリティコントラスト wcag apca

株式会社LIFULL 15.3K

各ページのテキスト

Raft入門プラットフォームG 宮崎泰輔

Raftとは何なのか

Raftとは何なのか Raftは安全な State Machine Replication (SMR) を実装するための分散合意アルゴリズムである Paxos系のアルゴリズムの代替として設計された。 Paxosの理解が難しすぎる、実装によってどこまで保証されているかかなり異なっていたので、「理解可能性」を重視しつつ、有用な性質は維持するように設計された

State Machine Replicationとは耐障害性を備えるためにデータを複数のサーバーでコピーを持ち合う。複数のサーバーにデータのコピーを作る方法の一つ。複数のサーバーで同じ初期状態から開始した有限状態機械(FSM)に同じコマンドを同じ順序で適用することで、すべてのサーバーが同じ状態遷移をする。「同じ状態から同じ状態遷移すれば、同じ状態になる」

そうは言っても複数のマシンで同じ状態遷移をさせるのは難しい

なぜ難しいのかサーバーたちはネットワークを介してやり取りを行う。そしてネットワークでのメッセージの伝播速度はバラバラなので、複数のサーバーが同時にメッセージを送っても、順番が変わってしまう初期状態A サーバー1: A -> Bに状態遷移させたい(時刻 t1) サーバー2: A -> a に状態遷移させたい(時刻t1) サーバー3: 時刻t2にB, aどちらになっているべき？

なぜ難しいのかリーダーを置いて、リーダーがメッセージの順序を決める複数のサーバーがそれぞれ新しい状態に遷移させようとしない。リーダー以外は受け取ったメッセージを自分の状態機械に適用するだけこれで順序を決められるからOK？ NO

障害が発生しうる - Crash-Stop - ネットワークから突然消えて復帰しない - Omission - メッセージがロストする - Performance, Timing - タイムアウトまでに応答がない(タイムアウトを過ぎて応答があるかも - Crash-Recovery - 止まっていたインスタンスが復帰してくる（状態が古い） - Byzantine, Arbitrary - 悪意ある行動

障害が発生しうるしかも、ネットワーク越しだと相手サーバーがクラッシュしたのか、メッセージがロストしたのか、それともそのうち復帰してくるのかはわからない自分視点だと単に応答がないようにしか見えない

10.

Raftの話 Raftは複数サーバーで何かを合意するときに quorum (定足数) に達しているかで物事を決める。 Raftのクラスタは、1つのリーダーとリーダー以外のフォロワーによって構成される。（Raftがやり取りするメッセージはログと呼ばれる）重要な動作 - リーダー選挙 - ログ複製

11.

リーダー選挙それぞれのサーバーはリーダーか、フォロワー、そして選挙時には候補者のどれかの役割を必ず持っていて、最初はみんな候補者としてリーダーを決めることから始まる。状態遷移図

12.

リーダー選挙リーダーには任期（term）が存在する termは単調増加で、リーダーを選ぶタイミングごとにインクリメント選ぶタイミングごとなので、リーダーが決定しない任期が存在する ※後述

13.

リーダー選挙の流れ 1. 全員候補者から開始 2. 自分のtermをインクリメントする 3. RequestVote を全サーバーに送る 4. 過半数以上のレスポンスを受け取ったらLeaderになる 5. その後Leaderは定期的にハートビートを送ってLeaderを維持する

14.

リーダー選挙の流れ 4で票が別れた場合(複数の候補者がRequestVoteを送ると起き得る) 1. タイムアウトまで待っても票が集まらなかったらリトライする（リトライの時にtermがインクリメントされる）リトライまでにランダムな時間waitする自分より大きなtermのRequestVoteが届いたら - 自分はフォロワーになる

15.

リーダー選挙の流れ遷移図再掲

16.

リーダー選出の流れ全員Followerから始めハートビートを受け取るタイムアウトまで待つ F F F

17.

リーダー選出の流れ 1. タイムアウトして候補者になる (タイムアウトする時間はランダムにちょっと違う) 2. 自分を含め全員にRequestVoteを送る F C RequestVote (term=1) C

18.

リーダー選出の流れ過半数の投票（応答）を得たため、リーダーになる F C OK (term=1) L

19.

リーダー選出の流れ 1. 全員に自分がリーダーであることを通知する(AppendEntries) 2. CandidateはFollowerになる(元々Followerでも、termを設定し直す) 3. ハートビートは定期的に送られる F F AppendEntries (term=1) L

20.

ログのレプリケーション「Leaderが保持しているログがマスター」「コミットされた」データは絶対に改変されない 1. リーダーがクライアントからのリクエストを受け取る 2. リーダーのログのエントリに追加 3. Followerに対して、AppendEntries でエントリを送信 4. 過半数からエントリを保存した応答があればリーダーのエントリをコミットする 5. コミット内容をクライアントに送信する

21.

まとめリーダー選出の大まかな流れを説明したログレプリケーションの大まかな流れを説明したただし、ここで説明しただけだと実は不十分な箇所がある気になる人は調べてみてください - コミットされた通知をFollowerが受け取ってくれる前にLeaderが死んだら、コミットされたのに他のFollowerにLeaderが変更されると変更内容が失われる

22.

まとめ - サーバーを止めずにクラスタの構成を更新したい場合 - ログが肥大化してしまう - スナップショットを使う