Bloom filter

3.8K Views

April 11, 23

#programming #Bloom Filter #データ構造 #アルゴリズム #ハッシュ関数 #メモリ効率

スライド概要

kumagi

@kumagi

スライド一覧

分散システムとかデータベースとかロックフリーとかが好きです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

分散システムについて語らせてくれ

engineering distributed system

kumagi 163.3K

あなたの知らないハッシュテーブルの世界

programming

kumagi 96.6K

本当は恐ろしい分散システムの話

engineering database big data distributed system fault injection

kumagi 72.4K

C言語で苦しむロックフリー入門（仮

programming

kumagi 50.8K

冬のLock-Free祭り

engineering programming

kumagi 48.3K

STMの設計と進化

programming engineering

kumagi 47.9K

各ページのテキスト

よく分かるBloomFilter

BloomFilterって？ ◼ Bloomさんが1970年に発明したデータ構造 ◼ データの集合を保持し、登録および既登録チェックが行える ◼ 登録にかかる時間・メモリ効率が共にO(1)

すごいじゃん！ ◼ でも代償は大きい・・・ ◼ 今そこを詳しく話してもピンと来ないと思うので図を使って説明します

まず集合って？ ◼ ダブったデータを保持しないデータ構造 ◼ 登録するときにダブるかどうか判定して、ダブるなら登録しない ◼ 普通のデータ構造(配列・線形リスト・木)でも簡単に実現可能

で、Bloom Filterは？ ◼ いきなりハッシュ関数やビット列を持ち出すとやる気が削がれるのでイメージ先行で話します

Bloom Filterは？これらの集合を保持したいぶるうむふいるた

Bloom Filterは？これらの集合を保持したいるうむふいるたぶ

Bloom Filterは？これらの集合を保持したいうむふいるたぶるガンガン重ね書き！

Bloom Filterは？これらの集合を保持したいむふいるたぶるうガンガン重ね書き！

10.

Bloom Filterは？これらの集合を保持したいふいるたぶむるうガンガン重ね書き！

11.

Bloom Filterは？これらの集合を保持したいいるたぶふむるうガンガン重ね書き！

12.

Bloom Filterは？これらの集合を保持したいるたぶふむいるうガンガン重ね書き！

13.

Bloom Filterは？これらの集合を保持したいたぶふむいるうガンガン重ね書き！

14.

Bloom Filterは？これらの集合を保持したいぶふむいたるう完成！

15.

どうやって使うの？検証対象の上に重ねて使いますぶふむいたるう

16.

どうやって使うの？検証対象の文字うるとらせぶん検証対象の上に重ねて使いますぶふむいたるう

17.

どうやって使うの？検証対象の文字ぶふいたるうむぶふむいたるうむぶふいたるうむぶふいたるとうむらせぶふいたるうむぶふいたるうむぶふんいたるう •フィルタにすっぽり覆われてしまった文字は登録済み（の疑いあり •下の赤い文字が1ピクセルでも見えるなら絶対に未登録

18.

どうやって使うの？検証対象の文字ぶふいたるうむぶふむいたるうむぶふいたるうむぶふいたるとうむらせぶふいたるうむぶふいたるうむぶふんいたるう •このように既登録・未登録のデータを判定する •ブルームフィルタが真っ黒なほど誤判定の確率が上がる •つまり、大量に登録したブルームフィルタほど精度が悪い •でも、登録済みの物を誤って未登録と見なす事だけはない

19.

その他 •ブルームフィルタに割くビット数を増やせば精度が向上 •使用メモリ量と精度がトレードオフ •登録済みデータは消せません •何故ならどこまでがその文字だったのか切り分け出来ないから •どうしても消したいならフィルタ丸ごと消して再登録 •全部のピクセルについて登録時に書き込まれた回数をカウントすればデータ削除可能なBloomFilterに •もちろんメモリ効率は悪くなる

20.

世の中では… •遠い所にデータを保存する場合、データを保存しているかどうか判断する手がかりに使える •存在しない場合にアクセスしなくなるのでHDDやネットワークの負荷を低減させる •偽陽性が出てもアクセスした時に見つからないだけ •検証が高速・高メモリ効率なので応用範囲は夢いっぱい •今回は説明のため文字の情報を例に挙げましたが、実態はハッシュ関数の結果をビットフィールドに論理和で上書きしていくアルゴリズムです •詳しい実装は世の中にあるソースコードを読んで下さい