Embulkでのデータ転送の壁 フルマネージドETLが変えるデータ基盤構築 〜HERPが体感した効果とメリット〜(trocco ウェビナー登壇資料)

210 Views

April 22, 25

スライド概要

HERP でデータ基盤を構築した際の流れを説明しています。
この資料は trocco ウェビナーで利用した資料です。

profile-image

株式会社HERPのエンジニアです

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

Embulkでのデータ転送の壁 フルマネージド ETLが変えるデータ基盤構築 〜HERPが体感した効果とメリット〜 株式会社HERP 宮﨑章太 1

2.

株式会社HERPについて 「採用を変え、日本を強く。」をミッションに掲げるHRtechの会社です。採用する企業・求職者・彼らをつなぐエージェントの方々のマッ チングを高めるようなサービスを複数展開しています 採用を変え、日本を強く。 ミッション 求職者 マッチング 企業 採用管理システム タレントプールシステム 分析ダッシュボード リファレンスチェックサービス 人材紹介会社向け求人管理システム 求人サイト 提供サービス 2

3.

株式会社HERPについて 「採用を変え、日本を強く。」をミッションに掲げるHRtechの会社です。採用する企業・求職者・彼らをつなぐエージェントの方々のマッ チングを高めるようなサービスを複数展開しています 採用を変え、日本を強く。 ミッション 求職者 マッチング 企業 採用管理システム タレントプールシステム 分析ダッシュボード リファレンスチェックサービス 人材紹介会社向け求人管理システム 求人サイト 提供サービス 全ての箇所で、データ基盤を活用して事 業を運営している 3

4.

データ基盤の活用先 HERP Hireユーザーに embedded BI によって カスタマーサクセスが日々見るダッシュボードを BIで 可視化・レポーティング機能を提供 提供したり、SFAツールにリバース ETLしたり データ基盤が事業価値に直接的にも間接的にも貢献 している 4

5.

embedded BI 5

6.

embedded BI これに至るまでに様々な 試行錯誤があった 6

7.

今日お伝えしたいこと データ基盤づくりを上手く進める アジリティを確保するための ス 導入前には知らなかった には、試行錯誤と検証を繰り返 モールスタート のために TROCCOのメリットもたくさん せるアジリティ が重要 TROCCO はとても有益 あり、日々の運用が楽 7

8.

embedded BI 8

10.

データ基盤構築前の課題感 ①直接 RDB (mysql5系) を参 ②可視化機能を業務データモ 照しているので、分析用の便利 デルを元に提供しているので、 な機能(with 句、window 関数 競合サービスに比べても使い など)を使えず、可視化が大変 づらい → ③redash では、複数DBを またいでデータを統合した分 析を行うのがむずかしい データ基盤なるものを作れば まるっと解決できるのでは? 10

11.

データ基盤への期待 社内用BIツール 分析用データベースによって、 横断したデータの統合や便利な関数を 使って分析しやすくなる! 集約 データ基盤 分析用データモデルによって 集計・可視化機能が作りやすくなる! リバースETLなどによってデータを投入す ることで、データを元にした意思決定や共 通言語が作りやすくなる! 11

12.

データ基盤への期待 社内用BIツール 分析用データベースによって、 横断したデータの統合や便利な関数を 使って分析しやすくなる! 集約 データ基盤 明るい未来! 分析用データモデルによって 集計・可視化機能が作りやすくなる! リバースETLなどによってデータを投入す ることで、データを元にした意思決定や共 通言語が作りやすくなる! 12

13.

実際に embulk でデータの集約を始めてみる データ基盤 (BigQuery) 13

14.

実際に embulk でデータの集約を始めてみる データ基盤 (BigQuery) →思っていたより時間がかかる! 14

15.

embulk のつらさ ● 各テーブルについての設定を自前で管理する必要がある ● スキーマの変更の追従を手動で行う必要がある ● embulk を実行するために様々なインフラ設定や実行設定を行う必要がある ● 安定運用のためにエラー通知や監視を入れる必要がある ● etc…… →1つめのデータを投入するのに2~3ヶ月かかってしまった これをデータベースの数だけ繰り返す必要がある……? 15

16.

改めて考え直す 社内用BIツール 分析用データベースによって、 横断したデータの統合や便利な関数を 使って分析しやすくなる! 集約 データ基盤 分析用データモデルによって 集計・可視化機能が作りやすくなる! リバースETLなどによってデータを投入す ることで、データを元にした意思決定や共 通言語が作りやすくなる! 16

17.

改めて考え直す 社内用BIツール 分析用データベースによって、 横断したデータの統合や便利な関数を 使って分析しやすくなる! 集約 データ基盤 本来、こっちの活用 分析用データモデルによって 部分を早く実現して 集計・可視化機能が作りやすくなる! 価値を検証したい リバースETLなどによってデータを投入す ることで、データを元にした意思決定や共 通言語が作りやすくなる! 17

18.

改めて考え直す 社内用BIツール 分析用データベースによって、 横断したデータの統合や便利な関数を データが無いと何も 始まらないが、 集約 集約が手間だと検証 までのリードタイムが 伸びてしまう 使って分析しやすくなる! データ基盤 本来、こっちの活用 分析用データモデルによって 部分を早く実現して 集計・可視化機能が作りやすくなる! 価値を検証したい リバースETLなどによってデータを投入す ることで、データを元にした意思決定や共 通言語が作りやすくなる! 18

19.

金銭的コストをかけてでも良いので、 とにかく最速でデータを集約して データ基盤活用の価値検証に注力したい! SaaS の利用を検討開始 19

20.

TROCCO との出会い ● 社外のデータエンジニアに相談し、最近 TROCCO が良い感じとの噂を聞いた ● とりあえず日本語で問い合わせ出来るのでサクッと問い合わせし、サクッとトライア ルさせてもらえた ● 自社で対応したいデータソースにはほとんど対応していたので、とにかくサクッと試 そうと考えた 20

21.

embulk から TROCCO への乗り換え データ基盤 (BigQuery) 21

22.

embulk から TROCCO への乗り換え データ基盤 (BigQuery) 22

23.

TROCCO の導入プロセス データ基盤 (BigQuery) ● ● ● TROCCO から認証できるようにDBを設定 認証情報を TROCCO に保存 データベースごとに一括で「マネージドデータ転送設定」機能で転送設定 →数クリックポチポチするだけで集約できた!! 必要なデータを集約するまでに数ヶ月かかるのを見込んでいたのが、 2週間足らずで完了 23

24.

集約できたので、あとはやるだけ データ基盤 (BigQuery) 24

25.

集約できたので、あとはやるだけ with句、window 関数など、便利な機能 を利用できて分析が楽に! データ基盤 (BigQuery) 25

26.

集約できたので、あとはやるだけ with句、window 関数など、便利な機能 を利用できて分析が楽に! データ基盤 (BigQuery) 分析用のデータモデルに変換することで、 社内外での活用に使いやすくなった! 26

27.

集約できたので、あとはやるだけ GUIでクエリを書ける BIツールの Metabase に乗り換え、セルフサービス 化や埋め込みを可能に! データ基盤 (BigQuery) 分析用のデータモデルに変換することで、 社内外での活用に使いやすくなった! 27

28.

集約できたので、あとはやるだけ GUIでクエリを書ける BIツールの Metabase に乗り換え、セルフサービス 化や埋め込みを可能に! データ基盤 (BigQuery) 分析用データモデルによって 集計・可視化機能が作りやすくなった! Metabase の embedded BI で管理も楽に! 分析用のデータモデルに変換することで、 社内外での活用に使いやすくなった! 28

29.

集約できたので、あとはやるだけ GUIでクエリを書ける BIツールの Metabase に乗り換え、セルフサービス 化や埋め込みを可能に! データ基盤 (BigQuery) 分析用データモデルによって 集計・可視化機能が作りやすくなった! Metabase の embedded BI で管理も楽に! TROCCO のリバース ETL機能によって、 Salesforce へのデータ投入も簡単に! 分析用のデータモデルに変換することで、 社内外での活用に使いやすくなった! 29

30.

まだまだ道半ばではあるものの、活用部分に注 力して、アジリティ高くデータ基盤の価値検証と 価値提供を進められた 30

31.

導入してから気づいた TROCCO のよさ テーブル・カラムの変更追従がめ 自前でワークフロー管理するの slack でエラー通知が届くの ちゃめちゃ楽。 slack 通知からぽ にくらべ、GUIでサクッとワーク で、チーム外の人でも異常 ちぽちすれば追従できる。 フロー管理できるのはやはり楽 に気づけ、データ品質意識 だった。 の民主化につながる。 31

32.

これからの TROCCO とのお付き合い embedded BI 32

33.

これからの TROCCO とのお付き合い embedded BI ? 33

34.

これからの TROCCO とのお付き合い ● 一部データについては、リアルタイム性や安定性を自分たちで管理できるガバナン ス性が求められてきているので、TROCCO やETLツール以外のデータ投入手段も 少しずつ検討している ● これは技術選定が間違っていたのではなく、アジリティ高く進められたことで新たに 必要な品質特性がわかった結果だと解釈している ● 何が出来るのが、何が求められるのかが事前に決まりづらいデータ活用・データ基 盤設計においてはアジリティは命なので、やはり TROCCO を利用してスタートダッ シュできたのは良かったと感じる 34

35.

まとめ:データ基盤の全体像と取り組み方 ② データソース BIツール ① リバースETLツール データ基盤 データソース データソース ③ プロダクトへのembedded BIツール ③ データ変換ツール ③ 参考:『実践的データ基盤への処方箋』 ①まず集約 ②活用にフォーカス ③改善する中でツールの乗り換 データを溜めないと活用も何も始めら データ基盤の本質は溜まったデータ えも検討 れない。とりあえず最速でデータを溜め を活用すること。ここにフォーカスして TROCCO でしばらく運用し、要求 る上で TROCCO はとても便利で、ス 価値検証を進める。 や業務への知識が増えたら、必 タートダッシュを切れる。 TROCCO は日々の運用にも時間を 要なところからツールを変えて 取られないので、時間を取られずに いっても良い。 済む。 35