再帰的なツリーハッシュ

1.2K Views

April 16, 24

#lifull #merkletree #algorithm #ツリーハッシュ #再帰処理 #並列処理 #高速化 #大規模データ比較

スライド概要

ディレクトリ同士を高速に比較するためのツールを作った話

株式会社LIFULL

@LIFULL

スライド一覧

LIFULL HOME'Sを運営する株式会社LIFULLのアカウントです。 LIFULLが主催するエンジニア向けイベント「Ltech」等で公開されたスライド等をこちらで共有しております。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

pmconf2023【プロダクトマネジメントで高速PDCA】アウトカムが激増したLIFULL HOME’Sのグロース事例

プロダクトマネジメントプロダクトマネージャー lifull

株式会社LIFULL 26.8K

CloudWatch LogsからGrafana Lokiにログ基盤を移行

lifull aws grafana ログ

株式会社LIFULL 25.5K

HNSWの内部構造

lifull hnsw search

株式会社LIFULL 23.4K

PrometheusとGrafanaで追求する、より良いアプリケーションの可観測性

lifull grafana ログ kuberentes

株式会社LIFULL 21.7K

100人超のエンジニア組織の統合、60以上のアプリケーションの基盤集約、日本最大級の不動産・住宅情報サイト『LIFULL HOME'S』を支え続けるエンジニアリング＿長沢翼

lifull lifull home's cto keel engineering technology

株式会社LIFULL 20.6K

#ED6103との付き合い方

アクセシビリティコントラスト wcag apca

株式会社LIFULL 15.3K

各ページのテキスト

再帰的なツリーハッシュプラットフォームG 宮崎泰輔

今日の話

ディレクトリ同士の比較を高速にやりたい

ディレクトリ同士の比較の背景物件データをDBから抽出して検索エンジンに入れるためにデータを変換している Feeder というバッチが存在するプログラムの変更により、生成されたデータに差分が無いことを実データで確認したい

課題 - 生成される物件データは、数百GBある - 2つの結果を比較するために、同じサーバーにデータを生成すると 1TBを超える別のサーバーで生成したら、比較のために数百GBを別サーバーにコピーしないといけない - ファイル数が数百万ファイルある - 1ファイル10msとしても、直列に比較すると、100万ファイルで 10000秒 => 2.7時間かかる - バッチの実行がそれなりに時間がかかる - バッチを直列に動かしたくない

課題に対するアイデアディレクトリのハッシュを再帰的に計算して、そのハッシュ情報だけをサーバー間でコピーして比較すればよいその前に考えていた案: git commitして、gitのtree objectのハッシュ値を比較する => gitはファイルをハッシュ化して .git/objects 以下に保存するので、圧縮するとはいえかなりでかい => 必要な容量が倍になる

アイデアの詳細ディレクトリのハッシュを計算したいファイルだったら、ファイルのハッシュを計算するディレクトリのエントリにディレクトリがあれば、再帰的に計算するディレクトリのハッシュを計算する際はエントリの情報をファイル名でソートし、並べたテキストのハッシュをディレクトリのハッシュとする

実際の構造

10.

構造 Gitの構造を真似ている同じ点 - ファイルのハッシュをobject-idとしてファイル名に使用している違う点 - Gitはファイルをblobオブジェクトとして保存している - Gitはコミット情報をcommitオブジェクトとして保存している - Gitはファイルをzlibで圧縮している - Gitはsha1を使用しているが、mtlはmd5を使用している

11.

作ったもの Markle Tree Likeということで mtl というものを作りました https://github.com/imishinist/mtl 今ある機能 - treeを作る(local build) - treeを表示する(print-tree)

https://github.com/imishinist/mtl

12.

作る上で苦労したこと - 依存関係があるので再帰的な処理が並列化しづらい - ハッシュの計算がとにかく遅い - perfをとってみたところ、80%くらいmd5:computeが使用してる - I/Oが多すぎる - すべてのファイルのハッシュを計算するため、全部読む - 並列化したら、作りが悪いのかめっちゃメモリ使う - 32GBのマシンがスワップしてるハッシュ計算のために、ファイルを読むので、ファイルキャッシュもめっちゃ使う - ベンチマークしづらい - 大量のファイルを生成する必要がある & 容量けっこう食う (100GB)

13.

作る上で苦労したこと依存関係があるので再帰的な処理が並列化しづらい A B E F G C D H I Aのハッシュを計算するには、B,C,Dのハッシュが全て必要 Bのハッシュを計算するには、E,F,Gのハッシュが必要、、、 J

14.

作る上で苦労したこと普通に再帰でやれば実装はできるしかし、それでは直列にしか動かないので遅い依存関係を解消するような順番に並び替えたらどうか？ EFGBHCIJDA A B E F G C D H I J

15.

作る上で苦労したこと並び替えたものをうまい具合に並列処理するアルゴリズムを思いつけなかった今は下の階層を取り出して並列にハッシュ計算して、次は上にという方法で並列化した 3. 1階層目 A B E F G C D H I 2. 2階層目 J 1. 3階層目

16.

作る上で苦労したこと今の作りだと、上位階層のどの計算の時にどのファイルを使うかわからないので HashMapに上位階層のパスをキーとして、ファイルのハッシュ情報を詰めて、再帰的に上に向かって処理するようにしている。なので、すべてのファイルパスをコピーしてHashMapに入れており、メモリが爆発しているんじゃないか？と思っている

17.

これからの予定 - 対象ファイルのフィルタがハードコードされているので、オプションで変更したい - 今は、print-treeした結果同士をdiff取ることでしか差分が見れないので index同士を直接diffできるようにしたい - 1000万ファイルあっても動くようにしたい - ディレクトリの数は10万くらいを想定 - さらに高速化したい