20250424_data_engineering_study

1.2K Views

April 24, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

人不足・時間不足を言い訳にせず Databricks をうまく利用する 管理的機能にフォーカスした渋めな内容です ハックや新機能といった内容ではないのでご容赦ください🙇

2.

自己紹介 星野 玲央奈 2017~ Backend Developer 2022~ Data Engineer Databricks 2023/06~ @reonah6 2024/06~

3.

コンテンツ 所属について 直面した問題・解決方法 まとめ

4.

主なターゲット Databricks を使用したての方々 少人数組織で使用している方

5.

コンテンツ 所属について 直面した問題・解決方法 まとめ

6.

会社紹介

7.

所属 法人情報のデータベースSaaSを開発・販売 日本全国の約550万法人 準静的な情報 動的な情報 付加情報 ・代表者名 ・プレスリリース ・活動活発度スコア ・住所 ・求人 ・信用スコア ・ホームページ ・IR情報 ・概要/動向サマリ 法人営業(営業情報収集)に利用

8.

データフロー 収集 公開データ (国・自治体) 独自 アライアンス Webクロール 蓄積 ・ 検証 ・ 加工 活用 Amazon S3 Amazon Aurora PostgreSQL Databricks Amazon OpenSearch Service プロダクト 法人に関するデータ (SaaSアプリケーション)

9.

データフロー プロダクトの前段にデータエンジニアリングのプロセス 公開データ (国・自治体) 独自 アライアンス Webクロール Amazon S3 Amazon Aurora PostgreSQL Databricks Amazon OpenSearch Service プロダクト 法人に関するデータ (SaaSアプリケーション)

10.

Databricksの用途 クレンジング・エンリッチメント・半構造化データの構造化 公開データ (国・自治体) enriched アライアンス csv/json 独自 Webクロール curated Medallion-Architecture Validation 法人に関するデータ プロダクト Amazon S3 Databricks

11.

その他 データエンジニア・データサイエンティスト・ビジネスアナリスト・インターン 人の入れ替わりが多め

12.

コンテンツ 所属について 直面した問題・解決方法 まとめ

13.

問題 「このテーブルは使用可能か?」 「このカラムの意味は?」 を誰に聞いたらよいわからない 新規参画者が自走しづらい環境 「今月、利用料高いね。なぜ?」 に回答できない 金銭コスト データ量に対し、 ストレージコストが高い 正常系だけが考慮されたデータパイプライン・ローカルから実行されるIaC・管理されていないユーザetc…

14.

問題 「このテーブルは使用可能か?」 「このカラムの意味は?」 を誰に聞いたらよいわからない 新規参画者が自走しづらい環境 「今月、利用料高いね。なぜ?」 に回答できない 金銭コスト データ量に対し、 ストレージコストが高い 正常系だけが考慮されたデータパイプライン・ローカルから実行されるIaC・管理されていないユーザetc…

15.

新規参画者が自走しづらい 誰かに聞かないと情報が得られない・検索も機能しない ビジネスメタデータがない 関連するドキュメントが散在 (チケット・文書・チャット・リポジトリ) fi 出所:『データマネジメント知識体系ガイド 第二版』 DAMA International編著、DAMA日本支部、Meta ndコンサルティング株式会社 監訳、日経BP

16.

新規参画者が自走しづらい メタデータ、ドキュメント・コンテンツ管理 動機づけが難しい 処理実装・パイプライン化に追われ、後回しにされがち。 必要性を感じづらい(中身をわかっているため。)

17.

Databricksにおけるメタデータ管理 昨年OSS化 OSS版は現在v0.3.0 Unity Catalog メタデータ管理 + アクセスコントロール + 監査ログ テーブルやMLモデルへの アクセスコントロール 監査ログ Can view Usage

18.

Databricksにおけるメタデータ管理 Unity Catalogにおけるメタデータ管理 テーブル説明 テーブル 参照頻度 Can view カラム説明 リネージ https://speakerdeck.com/databricksjapan/databricksteyarou-metatetaguan-li

19.

余談 AI/BI Genie 自然言語でのデータ分析 ビジネスメタデータの充実が 応答精度に直結

20.

解決法 メタデータ、ドキュメント・コンテンツ管理 動機づけが難しい 生成AIを動機づけに利用 生成AIによるコメントの自動生成 自然言語によるデータ分析において、 ビジネスメタデータの有用性が実感しやすくなった

21.

問題 「このテーブルは使用可能か?」 「このカラムの意味は?」 を誰に聞いたらよいわからない 新規参画者が自走しづらい環境 「今月、利用料高いね。なぜ?」 に回答できない 金銭コスト データ量に対し、 ストレージコストが高い 正常系だけが考慮されたデータパイプライン・ローカルから実行されるIaC・管理されていないユーザetc…

22.

金銭コスト課題1 誰が・何に金銭コスト(コンピュート)を使っているかわからない デフォルトのusage dashboardのみを利用 プロジェクト別等のコスト分析ができていない

23.

Databricksにおけるコスト管理 usage dashboard + カスタムタグ カスタムタグ KEY:VALUE形式で設定 • コンピュートリソースに付与 • 強制も可能(compute policy) OWNER:fuga • パブリッククラウド側に伝播 コスト管理以外の用途でも有用 PROJECT:hoge IaC:https://github.com/org/repos/main.tf https://docs.databricks.com/aws/en/admin/account-settings/usage-detail-tags

24.

問題 「このテーブルは使用可能か?」 「このカラムの意味は?」 を誰に聞いたらよいわからない 新規参画者が自走しづらい環境 「今月、利用料高いね。なぜ?」 に回答できない 金銭コスト データ量に対し、 ストレージコストが高い 正常系だけが考慮されたデータパイプライン・ローカルから実行されるIaC・管理されていないユーザetc…

25.

金銭コスト課題2 パブリッククラウド(Azure, AWS, Google Cloud)の知見不足 オブジェクトストレージ設定による金銭コスト増 バケットバージョニングON & ライフサイクルなし Amazon S3 数十TBのnon current version(=確実にアクセスしないもの) へ課金が発生していた。。。 https://docs.databricks.com/aws/en/delta/s3-limitations ネットワークがわからないから、DBへのFederationができない

26.

パブリッククラウドの知見 パブリッククラウド(Azure, AWS, Google Cloud)に詳しい人を身近に 特にネットワークとストレージは運用・金銭コストにじわじわ効く 資格試験のアソシエイトの知識があると勘所が掴みやすい?

27.

まとめ 管理(メタデータ・金銭コスト) 運用・金銭双方の観点で、意識するのが早ければ早いほど良い (時間経過とともに管理対象が増えるので)遅れれば遅れるだけ大変

28.

困ったら 公式ドキュメント 2月に大刷新! 本日の内容もドキュメントに記載されている SAさんへ相談 ユーザコミュニティ JEDAI

29.

最後に データの民主化 民主主義と法 「データの民主化」にも「ルール・ガードレール」 自由と独裁(強制)のバランスに悩む 地味で評価されづらい部分ではありますが、頑張りましょう!

30.

We are Hiring!!