正規表現について

109 Views

January 18, 24

#正規表現 #文字列検索 #パフォーマンス #バリデーション #文字列抽出

スライド概要

Katsushi21

@Katsushi21

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

VSCodeのワークスペースについて

Katsushi21 17.3K

次世代ReactフレームワークRemix

Katsushi21 5.1K

gormによるテーブル定義について

Katsushi21 1.5K

Dockerイメージサイズの軽減について

Katsushi21 1.4K

DocumentNodeによるGraphqlのフロントエンド実装

Katsushi21 1.3K

GraphQLのクライアントサイド実装

Katsushi21 1K

各ページのテキスト

1/8 正規表現について

[beta]

正規表現の利用ケース

2/8

・バリデーション
入力された文字列が形式に則っているかチェックする
(例)郵便番号が7桁の数値となっているか、
^\w{3}-?\w{4}$ などでチェックする

・文字列の抽出
大量の文字列から必要な部分のみ抽出する
(例)Eメール原稿からメールアドレスのみを抽出するとき、
^[a-zA-Z0-9.!#$%&'*+¥/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:¥.[a-zA-Z0-9-]+)*$
などで検索

様々な文字列のパターンが想定される場合に正規表現を使う

正規表現のマッチ範囲 3/8 ・なるべく全てのパターンにマッチさせられるか・想定外の文字列のマッチを防ぐにはどう書くか・・・想定されるパターン・・・検索するパターン検索パターンが少ない検索パターンが多いこれらのパターン差を0にするように正規表現を記述することが理想的

正規表現の注意点・想定外のパターンに注意ファーストネームやファミリーネームのバリデーションは[A-Z][a-z]*でよい？ Robert Downey Jr.などのパターンは当てはまらない・メタ文字のエスケープ忘れに注意 (aaa|bbb).comとした場合、aaa.comとbbb.comのみマッチする？「.」を「¥.」としてないので、aaaxcomなどもマッチしてしまう・「.」は改行にはマッチしない検索したいパターンに改行が含まれていた場合、「.*」ではスルーされてしまう 4/8

より速い検索を行うために 5/8 正規表現によるパフォーマンスへの影響度合いは、正規表現と「マッチしない」パターンの数で決まるこの部分とこれ以降を検索 ① ② ②の正規表現はパターンがより具体的であり、マッチしないパターンが①に比べて少ないため、 ②の方が速く検索が完了するより具体的かつマッチパターンが少ない正規表現だと素早く検索できる

悪い正規表現を書いてしまうと 6/8 「.*」は、正規表現エンジンのすべてのイベントをスキャンするため、文字列の読み込みとバックトラックを繰り返す最後まで読み取った後、最初のスペースまで戻る。また最後まで読み、次のスペースに戻る明確な文字列はスペース、[ 、]: のみこの文字列にはスペースが12個あるため、これを12回繰り返す上記の処理を明確に指定した文字列の数だけ行うため、検索に時間がかかる。

正規表現と静的文字列正規表現である以上、パフォーマンスへの影響は避けられないので、入力パターンが限られている場合は静的文字列による検索を使う 10億文字の中から検索したときの処理時間を測定静的な文字列で検索正規表現で検索「.*」を追加して検索 7/8

まとめ・正規表現は様々な文字列パターンが想定される場合に活躍する・より長く具体的な正規表現により、検索遅延を軽減できる・入力パターンが決まっている場合は、正規表現の使用を避ける 8/8